從語音識別到智能助手:Voice Agent 的技術進化與交互變革丨Voice Agent 學習筆記

From Research AI+:

最近看到 Andrew Ng 的一句話讓我印象深刻:“While some things in AI are overhyped, voice applications seem underhyped right now.”(盡管 AI 中有些領域被過度炒作,語音應用卻似乎被低估了)。的確,在大模型、大生成的熱潮中,Voice Agent 這一領域相比之下略顯低調,但背后的技術變革與落地潛力正在悄然加速。

上周末,Research AI+作為小紅書邀請的開發者代表,參加了Founder Park 在北京的 AGI 大會,進而有機會結識了RTE社區——一個關注 Voice Agent 和實時互動新范式的開發者社區。后續社員們又參加了RTE 社區組織的幾場關于 Voice Agent 的技術討論,討論內容深入到了喚醒詞檢測(Wake Word Detection)、語音活動檢測(VAD)、說話結束檢測(Turn Detection)、全雙工交互 (Full-Duplex)等話題。這讓我重新意識到,Voice Agent 不再只是簡單的 ASR(語音識別)+ TTS(文本轉語音),而是一個融合了多模態、多任務學習與實時交互的復雜系統。

于是我想借此機會,將這篇關于

Voice Agent 發展脈絡的文章

介紹給大家,希望對關注多模態與 Agent 的小伙伴有所幫助。

以下文章來源于 Liz。

想象一下這樣的場景變化:1980年代,你需要對著電腦一字一頓地說“天-氣-怎-么-樣”,等待數秒,且不一定能得到準確回答;而今天,你可以隨口問“明天穿什么合適?”,AI立刻理解你的真實需求,結合天氣、你的偏好給出建議,甚至記住你不喜歡厚重的外套。

我們與 Siri、Alexa、小愛同學的每一次對話,看似輕松自然,背后卻是一場持續了半個多世紀的技術與交互設計的協同演化。這篇文章將系統梳理 Voice Agent(語音助手)從早期語音識別工具演化為智能交互體的全過程,重點探討:

  • 技術演進: 哪些關鍵技術突破推動了交互方式的革新?

  • 產品形態: 每個階段的典型產品及其面臨的核心挑戰。

  • 交互變革: 從命令式到對話式再到預測式的交互模式演變。

  • 商業生態: 從工具屬性到生態入口再到個人助理的角色轉換。

  • 未來展望:大模型時代的新可能與新挑戰。

01 Voice Agent 演化全景:四個關鍵階段

我們將這段歷史劃分為四個主要階段,每個階段都由關鍵的技術突破所驅動,并催生了全新的產品形態和交互模式。

發展階段對比總覽

在這里插入圖片描述

第一階段:1950s-1980s 語音識別起步 —— 命令工具

核心特征:在嚴格受控的環境下,識別有限詞匯的特定說話人。

在這里插入圖片描述

技術突破與原理

  • 動態時間規整 (Dynamic Time Warping, DTW)

原理解析:語音信號在時間軸上具有不確定性,每個人說話的速度都不同。DTW是一種衡量兩個不同長度時間序列相似度的算法,它通過非線性地“規整”時間軸,找到兩條語音波形的最佳對齊路徑。

形象比喻:就像智能地拉伸或壓縮兩段不同節奏的音樂,讓它們的節拍對齊,從而比較其旋律的相似度。

  • 模板匹配 (Template Matching)

工作方式:系統預先錄制并存儲一套標準的語音“模板”。當用戶說話時,系統將輸入的語音與庫中的模板逐一比對,找出最相似的那個作為識別結果。

限制:這是一個封閉集合問題,就像只能從固定菜單中點菜,任何超出范圍的詞匯都無法識別。且對說話人和環境變化非常敏感。

  • 隱馬爾可夫模型 (Hidden Markov Model, HMM)

核心思想:HMM的引入是語音識別領域的第一次重大范式轉移。它不再依賴僵硬的模板比對,而是將語音識別看作一個概率解碼問題。語音被建模為一個由多個狀態(如音素)組成的鏈,通過概率計算來推斷最有可能產生該段語音的詞序列。

技術意義:首次引入強大的統計建模方法,讓語音識別具備了一定的“容錯能力”和對變化的適應性,為處理大詞匯量連續語音識別奠定了基礎。

典型產品與使用體驗

  • 貝爾實驗室 “Audrey” (1952): 作為最早的識別系統之一,Audrey 只能識別孤立的數字,但為后來的研究拉開了序幕。

  • IBM Shoebox (1962): 在1962年的西雅圖世界博覽會上亮相,能夠識別16個英文單詞和0-9的數字。用戶需要對著麥克風,以清晰、孤立的方式發音。

  • Dragon Dictate (1990): 雖然在1990年發布,但其技術根植于80年代的研究。它是首款面向消費者的語音聽寫產品,詞匯量擴展到數千,但要求用戶在每個單詞之間進行明顯停頓(即“離散語音”),且需要大量訓練來適應特定用戶。

交互特點與核心問題

  • 交互模式: 嚴格的命令式交互。用戶必須使用系統預設的、有限的詞匯,并采用標準化的發音方式。系統無法理解自然語言的意圖,只能做語音到文字的轉換。

  • 核心挑戰

準確率低: 詞錯誤率(Word Error Rate, WER)居高不下。

適應性差: 高度依賴特定說話人(Speaker-Dependent),換個人或環境變化就無法正常工作。

場景局限: 僅能用作簡單的語音輸入工具,無法成為真正的“助手”。

第二階段:2000s-2011 移動設備普及 —— 助理雛形

核心特征: 借助云計算能力,語音識別開始走向大眾,并首次具備了初步的“意圖理解”能力。

在這里插入圖片描述

技術突破與架構革新

  • GMM-HMM 識別系統

技術升級: 高斯混合模型(Gaussian Mixture Model, GMM)被用來更精細地對 HMM中每個狀態的聲學特征分布進行建模。GMM-HMM 架構成為了當時大詞匯量連續語音識別(LVCSR)的主流方案。

性能提升: 詞錯誤率顯著下降至15-20%左右,系統開始能夠處理用戶說出的完整句子,而非逐詞輸入。

  • 云端語音識別架構

架構創新: 隨著互聯網的普及,語音處理的核心計算任務從資源有限的本地設備端轉移到了強大的云端服務器。

優勢: 云端可以部署更復雜的識別模型,并利用海量數據進行訓練和持續優化,這為語音識別成為一項大眾化服務鋪平了道路。

代表產品: Google Voice Search (2008) 是這一架構的早期典范。

產品形態演進

  • Google Voice Actions (2010)

這不僅僅是一個語音搜索工具。用戶可以通過說出“call John Smith”或“navigate to the Eiffel Tower”等指令來直接操作手機。這是主流產品首次實現意圖識別,即從語音中解析出用戶的目的和關鍵參數(如聯系人姓名、目的地),而不僅僅是轉寫文字。

  • Siri (2011)

Siri 的發布是語音助手發展史上的一個分水嶺。它被集成到 iPhone 4S 中,首次將語音助手帶入了主流消費市場。

革命性意義: Siri 成功地將多種技術整合在一起——ASR (語音識別) + NLU (自然語言理解) + DM (對話管理) +TTS (語音合成),并與操作系統及各種網絡服務(如天氣、地圖、日歷)深度集成,創造了前所未有的流暢體驗。

交互升級: 用戶可以進行更自然的問答,如“What’s the weather like?”或“Will I need an umbrella tomorrow?”,并得到直接有用的回答,而不只是一個搜索結果列表。

交互模式變化

  • 從命令式到單輪問答

交互不再局限于死板的命令。用戶可以像與人提問一樣與機器互動,盡管這種互動通常限于一問一答,缺乏上下文記憶。

  • 核心問題與局限

上下文缺失: 幾乎沒有對話記憶。如果你問完“北京天氣怎么樣?”,接著問“那上海呢?”,Siri 無法理解“那”指代的是“天氣”。

意圖識別有限: 其理解能力主要基于人工編寫的規則和模板,一旦遇到稍微復雜或模糊的問題,就會回答“我不太明白”。

交互流程固化: 對話邏輯類似一個巨大的 IF-ELSE 決策樹,缺乏靈活性和泛化能力。

第三階段:2014-2018 智能音箱爆發 —— 場景化中控

核心特征: 語音交互走出手機,進入家庭環境,成為連接內容、服務和智能設備的“中控”。

在這里插入圖片描述

技術突破與體驗升級

  • 遠場語音識別

麥克風陣列技術: 智能音箱通常內置多個(如6-8個)麥克風,組成一個陣列。

波束成形 (Beamforming): 通過分析聲音到達不同麥克風的微小時間差,算法可以像“聚光燈”一樣將拾音焦點對準用戶,同時抑制來自其他方向的噪音和回聲。

實際效果: 即使用戶在幾米外的嘈雜客廳里正常說話,也能精準喚醒并識別指令。

  • 喚醒詞檢測 (Wake Word Detection)

技術原理: 一個極低功耗、輕量級的神經網絡在設備端持續監聽,只為了識別特定的喚醒詞(如“Alexa”、“OK Google”)。

用戶體驗: 只有在檢測到喚醒詞后,主系統才會被激活并將后續語音流傳輸到云端進行處理。這徹底將用戶從“先按鍵、后說話”的模式中解放出來,實現了真正的“動口不動手”。

  • 深度神經網絡 (DNN) 革命

ASR 提升: 2012年后,DNN 開始取代傳統的 GMM-HMM 模型,成為聲學建模的主流。這使得詞錯誤率進一步降低到 5% 以下,識別魯棒性大幅提升。

NLU 增強: 基于深度學習的 NLU 模型能更好地理解用戶意圖和槽位信息(Slot Filling),支持更復雜的句子結構

  • WaveNet 神經語音合成 (Neural TTS)

技術突破: 由 DeepMind 在2016年提出,WaveNet 直接從原始音頻波形中學習并生成語音,是 TTS 領域的一大飛躍

效果提升: 合成的語音在韻律、停頓和語調上都極其自然,擺脫了傳統拼接式或參數式合成的“機器人味”,讓交互變得更有溫度。

典型產品與生態構建

  • Amazon Echo/Alexa (2014)

亞馬遜憑借 Echo 幾乎開創了智能音箱這一全新品類。

產品定位: 家庭環境下的智能中控。

生態策略: 開放Alexa Skills Kit平臺,允許第三方開發者創建自己的語音應用(Skills)。到2023年,技能數量已超過13萬,涵蓋新聞、音樂、游戲、智能家居等方方面面,極大地豐富了 Alexa 的能力邊界。

  • Google Home (2016)

憑借其在搜索引擎和知識圖譜上的深厚積累,Google Home 在知識問答和上下文理解方面表現出色。

  • 中國市場:天貓精靈、小愛同學 (2017)

中國廠商迅速跟進,并憑借對本土化服務(如外賣、本地音樂庫)的深度整合、更懂中文的識別優化以及激進的價格補貼策略,快速占領了市場。

交互模式進化

  • 多輪對話能力: 助手開始具備有限的上下文記憶,可以支持幾輪圍繞同一主題的對話。

用戶:“我想聽周杰倫的歌”
音箱:“好的,你想聽哪一首?”
用戶:“來一首《青花瓷》”
音箱:“為你播放《青花瓷》”

  • 商業模式轉變:從工具到平臺: 價值不再僅僅是設備本身,而是其背后連接的海量服務。語音購物、內容付費、廣告變現成為新的商業模式,用戶行為數據也成為其核心資產。

  • 核心問題:

對話能力脆弱: 多輪對話往往局限于特定場景,一旦跳出預設流程就容易“翻車”。

“撞墻”現象: 能力邊界清晰,超出技能(Skill)范圍就無法響應,用戶需要去學習和記憶音箱“會什么”。

個性化不足: 雖然能區分不同家庭成員的聲音,但無法根據用戶的長期習慣和偏好進行深度定制。

第四階段:2023-Now 大模型融合 —— 通用智能體雛形

核心特征:大型語言模型(LLM)與語音技術深度融合,推動 Voice Agent 從“能聽懂”向“會思考、善溝通”的通用智能體演進。

在這里插入圖片描述

技術革命與能力躍升

  • 大型語言模型 (LLM) 融合

架構升級:基于 Transformer 架構的 LLM(如 GPT-4、Gemini、Claude)具備強大的世界知識、推理能力和語言生成能力,從根本上重塑了 NLU 和對話管理模塊。

能力突破:

理解復雜意圖: 能理解模糊、多義、甚至帶有比喻的自然語言。
長程記憶對話: 在長對話中保持上下文連貫,記住之前的細節。
零樣本/少樣本學習: 無需預先定義技能,就能處理各種開放性任務。
生成式回答: 能提供富有創造性、個性化、有深度的回答,而不只是執行命令或播報信息。

  • 全雙工交互 (Full-Duplex) 突破

體驗革命: 徹底改變了“你說我聽、我說你聽”的對講機式半雙工模式。用戶可以像與真人交談一樣,隨時打斷 AI 的回答,AI 也能實時感知并做出反應。

技術挑戰: 這需要極低延遲的端到端處理,以及強大的聲學回聲消除 (Acoustic Echo Cancellation, AEC) 技術,以便在 AI 自身播放音頻的同時,精準地檢測到用戶的插入語音。

全雙工對話的關鍵技術模塊

要實現上述流暢的全雙工對話,需要多個底層技術模塊的精密協作,其中 VADTurn Detection 至關重要:

  • VAD (Voice Activity Detection / 語音活動檢測)

功能: 這是對話系統的“耳朵開關”。它在音頻流中實時運行,其唯一任務是區分人類語音和背景噪聲/靜音。

作用: VAD是語音處理的第一道關卡,可以有效過濾掉無關聲音,減少不必要的計算,并在檢測到語音時才觸發后續更復雜的 ASR 引擎。在嘈雜環境中,一個精準的VAD至關重要。

  • Turn Detection (說話結束檢測)

功能: 判斷用戶的一句話或一個意圖是否已經表達完整。這在技術上也被稱為 End-of-Turn (EOT) 或 Endpointing。

挑戰與作用: 這是一個比聽起來復雜得多的任務。人類對話中的停頓可能是思考,也可能是結束。Turn Detection 必須精準地判斷這一點:過于靈敏會打斷用戶,過于遲鈍則會造成尷尬的沉默。一個好的 Turn Detection 模型是決定助手“反應有多快”、“多有禮貌”的關鍵,直接影響交互的自然度。

產品形態創新

  • ChatGPT + Voice Mode: OpenAI 率先展示了 LLM
    驅動的語音對話體驗。其全雙工模式支持自然插話、打斷,并且能感知用戶“嗯”、“啊”等語氣詞,讓交流的流暢度達到了前所未有的高度。

  • Claude + Voice: Anthropic也為其模型加入了語音能力,憑借其強大的長文本處理和分析能力,在處理復雜工作任務和深度對話場景中展現出潛力。

  • 新一代 Alexa (預覽版): 亞馬遜正在用自研的生成式 AI 模型重構
    Alexa,目標是從一個“技能調用器”轉變為一個真正能主動思考、提供建議的對話伙伴。

交互模式革命:從多輪對話到全雙工預測式交互

對比一下,就能體會到交互的飛躍:

在這里插入圖片描述

復雜任務處理: LLM 助手能夠分解和執行多步驟的復雜指令。例如,對于“幫我規劃一個周末去上海的旅行,要包括一個博物館和一個特色餐廳”,它能夠主動詢問預算、興趣偏好,然后進行信息檢索、行程規劃、餐廳推薦,并最終生成一個完整的方案。

挑戰與限制

  • 幻覺問題: LLM 依然可能生成不準確或完全虛構的信息。

  • 延遲與成本: 要實現低延遲的自然對話,同時控制大模型高昂的推理成本,是商業化面臨的巨大挑戰。

  • 隱私與安全: 助手越來越了解用戶,如何保護海量的個人語音數據和偏好信息變得至關重要。

02Voice Agent 的下一個十年

Voice Agent 的發展,本質上是 人機交互不斷自然化和智能化的過程。 從最早依賴命令式輸入和關鍵詞喚醒,到如今具備一定程度的語境理解與情緒識別能力,語音系統的演進反映出多個技術模塊——ASR、TTS、NLU、多模態處理等——的協同躍遷。

隨著大語言模型(LLM)的引入,Voice Agent 開始從“語音控制工具”轉向更復雜的交互智能體,能夠支持更長的對話鏈、更強的個性化理解,甚至可以在跨語言、跨任務場景中保持上下文連貫性。這類系統不再僅僅是執行命令的語音界面,更有潛力演化為理解意圖、提供建議、長期陪伴的智能伙伴。

然而,理想與現實之間,仍存在大量結構性挑戰:

  • 上下文建模尚不穩健: 在多輪語音對話中,斷句、回指、話題漂移等問題仍常導致模型“聽懂了字面,卻理解錯了含義”

  • 算力與響應速度的權衡: 更強模型能力意味著更重的計算負擔,在邊緣設備部署中尤為突出;

  • 多模態融合仍偏割裂: 語音與視覺、動作、情境信號的集成缺乏統一標準,場景間遷移能力弱;

  • 產品體驗鏈易斷裂: 交互流程長,用戶在任何一個環節遇到理解偏差或響應延遲,都可能放棄使用;

  • 小語種與方言泛化能力不足: 盡管已有針對多語言的語音模型(如
    Whisper、訊飛方言模型等),但大多數方言依然處于長尾區,訓練數據稀缺,泛化能力有限;

  • 數據隱私挑戰長期存在: 高質量語音語料獲取常與通話隱私產生直接沖突,尤其在涉及個體生理、場景、情緒信息時,隱私合規要求更高。

當前的技術演進方向與潛在突破點

為了應對上述挑戰,Voice Agent 的底層技術正沿著幾個明確方向演化:

  • 多模態融合系統化
    語音將與視覺(攝像頭)、體感、環境感知等多模態信息進一步融合。這不僅要求輸入維度的擴展,更考驗表示對齊、跨模態時序建模與語義整合能力。系統級的融合能力將決定未來 Voice Agent 能否“看著你說話,聽懂你背后的意思”。

  • 邊緣計算與端云協同
    在低延遲、數據本地化和功耗控制的多重需求下,Voice Agent 正逐步轉向端側部署 + 云端調度的混合架構。隨著端側 NPU 性能提升,常規識別與部分推理任務將可在設備本地完成,從而減少對云端依賴。

  • 情緒與語調建模增強
    識別與合成非語言特征(如語氣、節奏、情緒)是提高交互“自然感”的關鍵。當前已初步驗證了建模的可行性,但在真實場景中仍面臨泛化能力弱、反饋穩定性不足等問題,尚需進一步迭代。

  • 小語種與方言的泛化能力
    真實世界中的語音交互遠比訓練數據更復雜,小語種、地方口音、跨語種混合表達廣泛存在。現有語音模型在這些“長尾語言”上的泛化能力有限,且訓練所需的高質量語料常受限于數據稀缺與隱私合規的雙重約束。這是未來語音系統能否“普適部署”的關鍵門檻之一。

Voice Agent 的故事還在繼續。它不僅是一場模型能力的競賽,更是一場交互體驗、場景設計、數據治理和倫理思考的“長期戰”。

參考文獻

Aalto University. (n.d.). Speaker Diarization. Speech Processing Book. https://speechprocessingbook.aalto.fi/Recognition/Speaker_Diarization.html

Aalto University. (n.d.). Voice activity detection. Speech Processing Book. https://speechprocessingbook.aalto.fi/Recognition/Voice_activity_detection.html

AI Labs Taiwan. (n.d.). The Challenge of Speaker Diarization. AI Labs Taiwan Blog. https://ailabs.tw/human-interaction/the-challenge-of-speaker-diarization

Anguera, X., et al. (2006). Speaker Diarization: A Review of Recent Research. ResearchGate. https://www.researchgate.net/figure/Speaker-diarization-system-architecture_fig1_3049555

Appinventiv Team. (n.d.). Transformer vs RNN: A Detailed Comparison for NLP Tasks. Appinventiv Blog. https://appinventiv.com/blog/transformer-vs-rnn

AssemblyAI Team. (2024). Top Speaker Diarization Libraries and APIs in 2024. AssemblyAI Blog. https://www.assemblyai.com/blog/top-speaker-diarization-libraries-and-apis

Chang, J., et al. (2022). End-to-end Turn-taking Prediction for Conversational Systems. In Interspeech 2022. ISCA.

Chen, S., et al. (2020). Early-Stop Speaker Clustering for Speaker Diarization. In Odyssey 2020. ISCA.

Chen, Y., et al. (2020). Voice activity detection in the wild via weakly supervised sound event detection. arXiv. https://arxiv.org/pdf/2003.12222

Chen, Z., et al. (2019). Meeting Transcription Using Virtual Microphone Arrays. Microsoft Research.

Cornell, S., Balestri, T., & Sénéchal, T. (2021). Implicit Acoustic Echo Cancellation for Keyword Spotting and Device-Directed Speech Detection. Amazon Science.

CSLT. (2012). Speaker Diarization. http://index.cslt.org/mediawiki/images/7/70/121027-Speaker_Diarization-WJ.pdf

Cummins, N., et al. (2022). Prosodic Predictors of Temporal Structure in Conversational Turn-Taking. NSF Public Access Repository. https://par.nsf.gov/biblio/10451410

Dataloop AI. (n.d.). Vad Endpoint Model. https://dataloop.ai/library/model/boknows_vad-endpoint/

Delgado, J. (2024). End-to-End Spoken Language Understanding. Idiap.

Ekstedt, E., & Skantze, G. (2023). How Much Does Prosody Help Turn-taking?ResearchGate.

Ekstedt, E., & Skantze, G. (2025). Turn-taking in the Wild: A Data-Driven Approach to Spoken Dialogue Systems. arXiv. https://arxiv.org/html/2501.08946v1

在這里插入圖片描述

更多 Voice Agent 學習筆記:

對話 Wispr Flow 創始人 Tanay:語音輸入,如何創造極致的 Voice AI 產品體驗

Notion 創始人 Ivan Zhao:傳統軟件開發是造橋,AI 開發更像釀酒,提供環境讓 AI 自行發展

ElevenLabs 語音智能體提示詞指南 —— 解鎖 AI 語音交互的「靈魂秘籍」丨 Voice Agent 學習筆記

11Labs 增長負責人分享:企業級市場將從消費級或開發者切入丨Voice Agent 學習筆記

實時多模態如何重塑未來交互?我們邀請 Gemini 解鎖了 39 個實時互動新可能丨Voice Agent 學習筆記

級聯vs端到端、全雙工、輪次檢測、方言語種、商業模式…語音 AI 開發者都在關心什么?

視頻丨Google 最新 AI 眼鏡原型曝光:輕量 XR+情境感知 AI 打造下一代計算平臺

a16z 最新報告:AI 數字人應用層即將爆發,或將孕育數十億美金市場

a16z合伙人:語音交互將成為AI應用公司最強大的突破口之一,巨頭們在B2C市場已落后太多丨Voice Agent 學習筆記

ElevenLabs 33 億美元估值的秘密:技術驅動+用戶導向的「小熊軟糖」團隊

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/88708.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/88708.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/88708.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

什么是Jaccard 相似度(Jaccard Similarity)

文章目錄? 定義:📌 取值范圍:🔍 舉例說明:🧠 應用場景:?? 局限性:💡 擴展概念:Jaccard 相似度(Jaccard Similarity) 是一種用于衡量…

ragflow_多模態文檔解析與正文提取策略

多模態文檔解析與正文提取策略 RAGflow的文檔解析系統位于deepdoc/parser/目錄下,實現了對多種文檔格式的統一解析處理。該系統采用模塊化設計,針對不同文檔格式提供專門的解析器,并通過視覺識別技術增強解析能力。本文將深入探討RAGflow的文檔解析系統的設計原理、實現細節…

數據結構棧的實現(C語言)

棧的基本概念棧是一種特殊的線性存儲結構,是一種操作受到限制的線性表,特殊體現在兩個地方:1、元素進棧出棧的操作只能從同一端完成,另一端是封閉的,通常將數據進棧叫做入棧,壓棧等,出棧叫做彈棧…

【springboot】IDEA手動創建SpringBoot簡單工程(無插件)

大致步驟 創建Maven工程 引入依賴 提供啟動類 詳細教程 創建Maven工程 修改pom.xml文件 添加父節點 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.5.3</…

獨立開發第二周:構建、執行、規劃

一 第二周的獨立開發旅程落下帷幕。相較于第一周的適應&#xff0c;本周的核心詞是“聚焦”與“執行”。 目標非常明確&#xff1a;在產品開發上取得進展&#xff1b;在個人工作節奏上&#xff0c;將上周初步形成的框架進行實踐與固化。 同時&#xff0c;為至關重要的自媒體運營…

在YOLO-World中集成DeformConv、CBAM和Cross-Modal Attention模塊的技術報告

在YOLO-World中集成DeformConv、CBAM和Cross-Modal Attention模塊的技術報告 1. 引言 1.1 項目背景 目標檢測是計算機視覺領域的核心任務之一,而YOLO(You Only Look Once)系列算法因其出色的速度和精度平衡而廣受歡迎。YOLO-World是YOLO系列的最新發展,專注于開放詞匯目標…

從UI設計到數字孿生實戰應用:構建智慧金融的風險評估與預警平臺

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩!一、引言&#xff1a;傳統金融風控的 “滯后困境” 與數字孿生的破局之道金融風險的隱蔽性、突…

【Linux】權限相關指令

前言&#xff1a; 上兩篇文章我們講到了&#xff0c;關于Linux中的基礎指令。 【Linux】初見&#xff0c;基礎指令-CSDN博客【Linux】初見&#xff0c;基礎指令&#xff08;續&#xff09;-CSDN博客 本文我們來講Linux中關于權限中的一些指令 shell命令 Linux嚴格來說是一個操…

前端學習3--position定位(relative+absolute+sticky)

繼上一篇&#xff0c;做下拉菜單的時候&#xff0c;涉及到了position&#xff0c;這篇就來學習下~先看下position在下拉菜單中的應用&#xff1a;一、關鍵代碼回顧&#xff1a;/* 下拉菜單容器 */ .dropdown {position: relative; /* ? 關鍵父級 */ }/* 下拉內容&#xff08;默…

APP Inventor使用指南

APP Inventor使用指南一、組件介紹二、邏輯設計設計方法&#xff1a;設計實例&#xff08;參考嘉立創教程&#xff09;點擊跳轉 &#xff1a; app inventor&#xff08;點不開的話需要&#x1fa84;&#x1fa84;&#x1fa84;&#x1fa84;&#x1fa84;&#xff09; 一、組…

SpringAI實現保存聊天記錄到redis中

redis相關準備添加依賴我利用redission來實現<dependency><groupId>org.redisson</groupId><artifactId>redisson</artifactId><version>3.37.0</version> </dependency>添加配置文件spring:redis:database: 5host: 127.0.0.1…

Unity中使用EzySlice實現模型切割與UV控制完全指南

引言 在Unity中實現3D模型的動態切割是一個常見的需求&#xff0c;無論是用于游戲特效、建筑可視化還是醫療模擬。本文將全面介紹如何使用EzySlice插件實現高效的模型切割&#xff0c;并深入探討如何通過Shader Graph精確控制切割面的UV映射。 第一部分&#xff1a;EzySlice基…

【c++學習記錄】狀態模式,實現一個登陸功能

狀態模式建議為對象的所有可能狀態新建一個類&#xff0c; 然后將所有狀態的對應行為抽取到這些類中。 原始對象被稱為上下文 &#xff08;context&#xff09;&#xff0c; 它并不會自行實現所有行為&#xff0c; 而是會保存一個指向表示當前狀態的狀態對象的引用&#xff0c;…

Docker 搭建 Harbor 私有倉庫

1 部署 Harbor 注意&#xff1a;docker、docker-compose、Harbor的版本是否適配&#xff0c;這里使用的版本如下表&#xff1a; Docker版本Docker Compose版本Harbor版本v19.09.8v1.29.2v2.8.2 1.1 安裝 docker-compose # 下載 docker-compose 1.29.2 版本 curl -L "h…

C++類模板繼承部分知識及測試代碼

目錄 0.前言 1.類模板基本使用 2.類模板繼承 2.1類模板繼承過程中的模板參數 情況1&#xff1a;父類非模板&#xff0c;子類為模板 情況2&#xff1a;父類模板&#xff0c;子類為非模板 情況3&#xff1a;父類模板&#xff0c;子類為模板 3.STL中的模板類分析 3.1STL中…

Laravel + Python 圖片水印系統:實現與調試指南

前言 本系統通過 Laravel 作為前端框架接收用戶上傳的圖片&#xff0c;調用 Python 腳本處理水印添加&#xff0c;最終返回處理后的圖片。這種架構充分利用了 Laravel 的便捷性和 Python 圖像處理庫的強大功能。 一、Python 水印處理腳本 from PIL import Image, ImageEnhance …

【速通RAG實戰:企業應用】25、從數智化場景看RAG:是臨時方案,還是終局架構?

引言&#xff1a;RAG為何成為數智化場景的"必爭之地"&#xff1f; 當ChatGPT在2023年掀起生成式AI浪潮時&#xff0c;一個矛盾逐漸凸顯&#xff1a;大語言模型&#xff08;LLM&#xff09;能生成流暢文本&#xff0c;卻常陷入"幻覺"&#xff08;虛構事實&a…

[Python] -實用技巧篇1-用一行Python代碼搞定日常任務

在日常開發或數據處理過程中,我們常常為了一些簡單的小任務寫出數行代碼。但實際上,Python 提供了大量強大且簡潔的語法糖和標準庫工具,讓你用“一行代碼”輕松搞定復雜操作。 本文將通過多個典型場景展示如何用“一行 Python 代碼”高效完成常見任務。 一、文件操作:快速…

單細胞入門(1)——介紹

一、單細胞轉錄組測序流程介紹 單細胞測序能夠探索復雜組織中單個細胞的不同生物學特性&#xff0c;幫助我們認識細胞與細胞之間的差異。這些檢測方法有助于研究細胞譜系、細胞功能、細胞分化、細胞增殖和細胞應答&#xff0c;提升我們對復雜生物系統的理解&#xff0c;包括腫…

數據結構與算法之美:跳表

Hello大家好&#xff01;很高興我們又見面啦&#xff01;給生活添點passion&#xff0c;開始今天的編程之路&#xff01; 我的博客&#xff1a;<但凡. 我的專欄&#xff1a;《編程之路》、《數據結構與算法之美》、《題海拾貝》、《C修煉之路》 歡迎點贊&#xff0c;關注&am…