- CHASE:一個跨領域多輪交互text2sql中文數據集,包含5459個多輪問題組成的列表,一共17,940個<query, SQL>二元組,涉及280個不同領域的數據庫。
- CoSQL:一個用于構建跨域對話文本到sql系統的語料庫。它是Spider和SParC任務的對話版本,由30k+回合和10k+帶注釋的SQL查詢組成,這些查詢來自Wizard - of - Oz的3k個對話集合,查詢了跨越138個領域的200個復雜數據庫。
- SPARC:一個跨域上下文語義分析的數據集,是Spider任務的上下文交互版本。內容分為CHASE - C和CHASE - T兩部分,CHASE - C從頭標注實現,CHASE - T將Sparc從英文翻譯為中文。相比以往數據集,CHASE大幅增加了hard類型的數據規模,減少了上下文獨立樣本的數據量,彌補了Text2SQL多輪交互任務中文數據集的空白。
將這三個數據集的數據處理嵌套到目的數據處理代碼中,有以下作用:
- 豐富數據來源:使模型能夠學習到不同類型、不同領域的文本與SQL的映射關系,從而提高模型對各種自然語言查詢的理解和生成正確SQL語句的能力,提升模型的泛化性能。
- 支持多輪交互和上下文理解:這幾個數據集都涉及到對話場景或上下文信息,有助于模型處理具有多輪交互和依賴上下文的自然語言查詢,更好地理解用戶的意圖,特別是在復雜的查詢場景下,能夠根據之前的對話歷史生成準確的SQL查詢。
- 提升模型性能:通過融合多個數據集,可以讓模型學習到更豐富的語義和語法模式,捕捉到不同數據集中的獨特特征,從而優化模型的參數,提高模型在Text - to - SQL任務上的準確性和效率。
例如,在一個基于自然語言的數據庫查詢系統中,嵌套這些數據集的數據處理,可以讓系統更好地理解用戶輸入的自然語言問題,無論是簡單的單輪查詢還是復雜的多輪對話式查詢,都能更準確地將其轉換為對應的SQL語句,以從數據庫中獲取正確的結果。