【語音技術】意圖與語料

目錄

1. 意圖

1.1. 意圖分類

1.1.1 入口意圖(Entry Intent)

1.1.2 對話意圖(Dialog Intent)

1.2. 意圖類型切換操作步驟

2. 語料

2.1 語料分類詳解

2.2 語料編寫規范詳解

2.3 標簽符號深度說明

3. 詞槽

3.1 符類型要求

3.2 格式規范示例

3.3 特殊處理建議

3.4 應用場景示例

3.5 錯誤示范


1. 意圖

意圖指一個明確的用戶目的或用戶想要完成的具體任務。在對話系統中,意圖識別是理解用戶輸入的關鍵環節。

例如:

  • 在餐廳技能中,"訂位"意圖對應預訂餐桌功能,"點餐"意圖對應菜品選擇功能

  • 在天氣技能中,"查詢天氣"意圖對應獲取天氣信息功能

意圖是對話技能的基礎組成部分,每個意圖通常代表:

  • 一個獨立功能(如"查詢余額")

  • 一組相關功能(如"賬戶管理"可能包含查詢余額、修改密碼等子意圖)

  • 特定場景下的交互流程(如"投訴處理"可能包含多個步驟的對話)

1.1. 意圖分類

1.1.1 入口意圖(Entry Intent)

  • 特點:獨立性強,不需要依賴歷史對話信息即可響應

  • 觸發條件:用戶首次使用技能或切換技能時的初始請求

  • 示例:

    • 直接說"打開餐廳技能"觸發入口意圖

    • "我要訂餐"作為首次請求觸發訂餐入口意圖

  • 作用:確定交互場景,建立技能上下文

1.1.2 對話意圖(Dialog Intent)

  • 特點:需要基于已有交互上下文才能正確響應

  • 觸發條件:必須在該技能的對話流程中才能識別

  • 工作機制:

    1. 先通過入口意圖確定技能范圍

    2. 在后續對話中識別對話意圖

  • 示例:

    • 在餐廳技能中,先觸發"訂位"入口意圖后

    • 接著詢問"需要幾人位"識別為"人數確認"對話意圖

  • 設計目的:

    • 避免不同技能間的意圖混淆

    • 確保對話流程的連貫性

    • 支持多輪對話的上下文理解

1.2. 意圖類型切換操作步驟

  • 登錄系統后,在左側導航欄中找到"意圖管理"模塊并點擊進入

  • 在意圖列表中找到需要修改的意圖(可通過搜索框輸入意圖名稱快速定位)

  • 點擊該意圖名稱或右側的"詳情"按鈕,進入意圖詳情頁面

  • 在意圖詳情頁面上方找到并點擊"編輯"按鈕(通常顯示為鉛筆圖標或"編輯"文字按鈕)

  • 在編輯模式下,定位到"意圖類型"設置項(通常位于基本信息區域)

  • 點擊意圖類型下拉菜單,系統會顯示可選類型,如:

    • 問答型

    • 任務型

    • 導航型

    • 推薦型

  • 選擇新的意圖類型(注意不同類型可能對應不同的參數配置)

  • 確認修改無誤后,點擊頁面底部的"保存"按鈕

  • 系統會彈出保存成功的提示,并自動返回意圖詳情頁面

注意事項:

  • 意圖類型切換可能會影響與該意圖關聯的對話流程

  • 某些特定類型之間可能存在轉換限制

  • 建議在非業務高峰期進行此類操作

  • 修改前可通過"歷史版本"功能備份當前配置

2. 語料

2.1 語料分類詳解

模板語料(推薦使用)

模板語料采用結構化方式定義,由固定文本和可變槽位組成,使用{}包裹槽位名稱。每個槽位可以綁定特定實體類型(如時間、地點等)或輔助詞,實現靈活匹配。

典型特征:

  • 結構清晰,便于系統解析

  • 支持多種參數化組合

  • 示例擴展:

    • {city}{date}天氣 → "北京今天天氣"、"上海明天天氣"

    • 查一下{product}的價格 → "查一下手機的價格"、"查一下筆記本電腦的價格"

例句語料

由完整自然語句構成,需要通過手動標注方式標記槽位。適用于以下場景:

  • 收集真實用戶表達樣本

  • 處理特殊表達句式

  • 示例標注過程: 原始例句:"幫我訂明天上午的機票" 標注后:"幫我訂{date}{time}的機票"

重要限制:

  • 同一意圖內禁止混合使用兩種語料類型

  • 模板語料優先用于可抽象的場景

  • 例句語料適合處理固定說法

2.2 語料編寫規范詳解

模板語料字符集

允許使用范圍更廣的符號集,包含:

  • 基礎字符:漢字、數字、字母(大小寫)

  • 數學符號:+ - × ÷ / =

  • 標點符號:英文,.!? 中文,。!

  • 特殊符號:<>{}|_#'"°%

應用示例:

  • 查詢{stock_code}[的股價] → 可匹配"查詢AAPL"和"查詢AAPL的股價"

  • 設置鬧鐘為{time}(am|pm) → 匹配"設置鬧鐘為8:30am"

例句語料字符集

限制較多,主要包含:

  • 基本標點:,。.!?

  • 運算符號:+ - × ÷ /

  • 特殊符號:_#'"°%

典型用例:

  • "訂單號ABC123_456,盡快發貨!"

  • "當前室溫25°C,濕度60%"

2.3 標簽符號深度說明

詞槽標記 {}

  • 命名規范示例:

    • 合法:{user_name}、{order.no}、{item_3}

    • 非法:{用戶名}(含中文)、{date!}(含特殊符號)

  • 綁定示例: {city}天氣 + 綁定"city"到"城市"實體 → 可識別"北京天氣"、"上海天氣"

必選分組 ()

  • 實現分支匹配: (打開|關閉)燈 等效于:

    • "打開燈"

    • "關閉燈"

  • 嵌套使用: (查詢|查找)(機票|酒店) 生成4種組合

可選標記 []

  • 多級可選: [請][幫我]查詢余額 匹配:

    • "查詢余額"

    • "請查詢余額"

    • "幫我查詢余額"

    • "請幫我查詢余額"

  • 組合應用: [查詢]{product}[的](價格|售價) 可匹配: "手機價格"、"查詢筆記本電腦的售價"等8種組合

特殊注意事項

  1. 符號必須成對出現

  2. 嵌套層級建議不超過3層

  3. 避免過度復雜化,如: [([{date}]的)]天氣(不易維護)

  4. 性能考慮:單句語料總組合數建議控制在100種以內

  • 例句語料如需配置詞槽可有可無,可將對應詞槽轉換為輔助詞,并取消勾選表述必須

3. 詞槽

詞槽是自然語言處理中用于結構化信息提取的重要工具,建議使用以下規范來填充詞槽內容:

3.1 符類型要求

  • 優先使用小寫字母(a-z)

  • 數字(0-9)可用于表示數量、編號等信息

  • 下劃線(_)可用于連接單詞或短語

  • 連字符(-)可用于表示范圍或連接

3.2 格式規范示例

  • 日期格式:2023-08-15

  • 時間格式:14:30

  • 電話號碼:+86_13800138000

  • 商品編號:item_2023_001

3.3 特殊處理建議

  • 避免使用空格、中文標點等特殊字符

  • 統一大小寫格式(推薦全小寫)

  • 對于專有名詞可保留首字母大寫

  • 超過15個字符時建議使用縮寫

3.4 應用場景示例

  • 航班預訂:"departure_city=shanghai"

  • 酒店查詢:"check_in_date=2023-12-25"

  • 電商購物:"product_id=phone_x200"

3.5 錯誤示范

  • 包含空格:"new york"(應改為"new_york")

  • 使用中文字符:"北京"(應改為"beijing")

  • 特殊符號:"price=¥100"(應改為"price=100")

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/91772.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/91772.shtml
英文地址,請注明出處:http://en.pswp.cn/web/91772.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【MySQL集群架構與實踐5】使用Docker實現水平分片

目錄 一. 在Docker中安裝ShardingSphere 二. 實踐&#xff1a;水平分片 2.1 應用場景 2.2 架構圖 2.3 服務器規劃 2.4 創建server-user容器 2.5 創建server-order0和server-order1容器 2.6.日志配置 2.7 數據節點配置 2.8.測試數據節點 2.8.1.測試server_order0.t_or…

視覺圖像處理中級篇 [1]—— 彩色照相機的效果與預處理

在工業檢測中&#xff0c;黑白相機雖應用廣泛&#xff0c;但在應對顏色差異檢測時往往力不從心。彩色照相機憑借其對色彩信息的精準捕捉&#xff0c;成為復雜場景下的理想選擇&#xff0c;而預處理技術則進一步釋放了其性能潛力。一、彩色照相機的效果檢查蓋子上的金色標簽可以…

使用 BERT 的 NSP 實現語義感知切片 —— 提升 RAG 系統的檢索質量

在構建 Retrieval-Augmented Generation&#xff08;RAG&#xff09;系統時&#xff0c;文檔的切片方式至關重要。我們需要將長文本切分成合適的段落&#xff08;chunks&#xff09;&#xff0c;然后存入向量數據庫進行召回。如果切得太粗&#xff0c;會丟失上下文細節&#xf…

使用STM32CubeMX生成的STM32CubeIDE工程在更改工程名后編譯失敗問題解決

0 問題描述 使用STM32CubeMX生成STM32CubeIDE工程,然后使用STM32CubeIDE改名后編譯提示如下錯誤: 1 問題原因及解決辦法 1.1 問題原因 原因在于更名后STM32CubeIDE沒有自動更新引用關系,這是因為我們使用STM32CubeMX生成代碼時沒有勾選在根目錄下生成: 取消勾選在根目…

8月3日星期日今日早報簡報微語報早讀

8月3日星期日&#xff0c;農歷閏六月初十&#xff0c;早報#微語早讀。1、廣西防城港&#xff1a;奔馳女司機身份已查清&#xff0c;結果將統一對外發布&#xff1b;2、陳藝文、陳佳包攬游泳世錦賽女子跳水三米板金銀牌&#xff1b;3、九省份保險業已賠付暴雨災害損失5.2億元&am…

wxPython 實踐(六)對話框

wxPython 實踐&#xff08;一&#xff09;概述 wxPython 實踐&#xff08;二&#xff09;基礎控件 wxPython 實踐&#xff08;三&#xff09;頁面布局 wxPython 實踐&#xff08;四&#xff09;事件響應 wxPython 實踐&#xff08;五&#xff09;高級控件 wxPython 實踐&#x…

MATLAB科研數據可視化技術

互聯網的飛速發展伴隨著海量信息的產生&#xff0c;而海量信息的背后對應的則是海量數據。如何從這些海量數據中獲取有價值的信息來供人們學習和工作使用&#xff0c;這就不得不用到大數據挖掘和分析技術。數據可視化分析作為大數據技術的核心一環&#xff0c;其重要性不言而喻…

文明存續的時間博弈:論地球資源枯竭臨界期的技術突圍與行動緊迫性

摘要當地球資源消耗以指數級速度逼近生態承載力極限&#xff0c;人類文明正面臨“存續還是消亡”的終極抉擇。本文基于地球資源枯竭的實證數據與技術突破的可行性分析&#xff0c;揭示文明存續的時間窗口已進入不可逆臨界期&#xff08;2040-2070年&#xff09;&#xff0c;論證…

Elasticsearch 8.19.0 和 9.1.0 中 LogsDB 和 TSDS 的性能與存儲改進

作者&#xff1a;來自 Elastic Martijn Van Groningen 探索 TSDS 和 LogsDB 的最新增強功能&#xff0c;包括優化 I/O、提升合并性能等。 Elasticsearch 帶來了許多新功能&#xff0c;幫助你為你的使用場景構建最佳搜索解決方案。通過我們的示例筆記本深入學習&#xff0c;開始…

cs336之注意pytorch的tensor在哪里?(assert的使用)

問題 記住&#xff1a;無論何時你在pytorch中有一個張量tensor&#xff0c;你應該始終問一個問題&#xff1a;它當前位于哪里&#xff1f; 注意它在CPU還是在GPU中。要判斷它在哪里&#xff0c;可以使用python的assert斷言語句。 assert斷言 在 Python 中&#xff0c;assert 是…

Mysql 分區表

分區表是將一張表分成多張獨立子表&#xff0c;每個子表是一個區&#xff0c;目的是提高查詢效率。 從 server 層來看&#xff0c;只有一張表。但是從引擎層來看&#xff0c;是多張表&#xff0c;對應多個.idb文件。引擎層訪問數據只訪問特定分區表&#xff0c;也只對特定分區表…

Makefile 入門與實踐指南

Makefile 是用于 make 工具的配置文件&#xff0c;它定義了如何編譯和鏈接你的項目&#xff0c;讓構建過程自動化。一、核心概念 make 的核心思想是 “目標”&#xff08;Target&#xff09; 和 “依賴”&#xff08;Dependencies&#xff09;&#xff1a; 目標 (Target)&#…

分布式微服務--Nacos作為配置中心(補)關于bosststrap.yml與@RefreshScope

一、關于bosststrap.yml? bootstrap.yml 和 application.yml 的區別對比項bootstrap.ymlapplication.yml加載時機優先于 application.yml 加載&#xff08;啟動早期&#xff09;程序初始化完成后加載主要用途設置應用的外部配置源、注冊中心信息等設置應用內部配置&#xff0c…

[Qt]QString 與Sqlite3 字符串互動[漢字不亂碼]

環境&#xff1a;Qt C&#xff08;msvc c&#xff09;1.將與數據庫交互的代碼文件編碼轉換為utf-8-bom編碼&#xff0c;&#xff08;可使用notepad 進行轉換&#xff09;2.在代碼文件頭文件中加上下面代碼。//vs2010 版本是 1600 #if defined(_MSC_VER) && (_MSC_VER &…

SpringBoot啟動項目詳解

SpringBoot 的啟動過程是一個整合 Spring 核心容器、自動配置、嵌入式服務器等功能的復雜流程&#xff0c;核心目標是 “簡化配置、快速啟動”。下面從入口類開始&#xff0c;逐步拆解其詳細啟動步驟&#xff1a;一、啟動入口&#xff1a;SpringBootApplication與main方法Sprin…

PCB 控深槽如何破解 5G 基站 120℃高熱魔咒?

5G 基站在高頻通信下的功耗較 4G 基站提升 3-4 倍&#xff0c;射頻模塊、電源單元等核心部件的工作溫度常突破 120℃&#xff0c;遠超設備安全閾值&#xff08;≤85℃&#xff09;&#xff0c;形成制約通信穩定性的 “高熱魔咒”。印制線路板&#xff08;PCB&#xff09;作為熱…

NEXT.js 打包部署到服務器

在網上查了一下&#xff0c;記錄一下1.首先執行打包命令&#xff0c;我這個項目是用的pnpm&#xff0c;可以根據項目需求使用 npm 或者別的pnpm run build2.打包完成后會有一個 .next 的文件夾&#xff0c;需要把下圖的這些文件放到服務器。服務器需要有node環境之后就需要執行…

【AI分析】uv庫自動安裝腳本uv-installer-0.8.3.ps1分析

目錄uv 安裝腳本完整分析報告1. 腳本概述2. 參數解析3. 環境變量控制4. 核心函數詳解a. Install-Binary&#xff08;主控函數&#xff09;b. Get-TargetTriple&#xff08;架構檢測&#xff09;c. Download&#xff08;下載處理&#xff09;d. Invoke-Installer&#xff08;安裝…

etcd 的安裝與使用

介紹 Etcd 是一個 golang 編寫的分布式、高可用的一致性鍵值存儲系統&#xff0c;用于配置共享和服 務發現等。它使用 Raft 一致性算法來保持集群數據的一致性&#xff0c;且客戶端通過長連接 watch 功能&#xff0c;能夠及時收到數據變化通知&#xff0c;相較于 Zookeeper 框…

conda : 無法將“conda”項識別為 cmdlet、函數、腳本文件或可運行程序的名稱。請檢查名稱的拼寫,如果包括路徑,請確保路徑正

詳細問題 PS C:\Users\wh109> conda init powershell conda : 無法將“conda”項識別為 cmdlet、函數、腳本文件或可運行程序的名稱。請檢查名稱的拼寫&#xff0c;如果包括路徑&#xff0c;請確保路徑正 確&#xff0c;然后再試一次。 所在位置 行:1 字符: 1conda init pow…