深度學習系列79:Text2sql調研

參考 https://github.com/topics/text-to-sql
這里是一些資源:https://github.com/eosphoros-ai/Awesome-Text2SQL/blob/main/README.zh.md
這里是綜述文章:https://zhuanlan.zhihu.com/p/647249972

1. 數據集

Spider: 一個跨域的復雜text2sql數據集,包含了10,181條自然語言問句、分布在200個獨立數據庫中的5,693條SQL,內容覆蓋了138個不同的領域
WikiSQL: 一個大型的語義解析數據集,由80,654個自然語句表述和24,241張表格的sql標注構成。WikiSQL中每一個問句的查詢范圍僅限于同一張表,不包含排序、分組、子查詢等復雜操作。
CHASE: 一個跨領域多輪交互text2sql中文數據集,包含5459個多輪問題組成的列表,一共17940個<query, SQL>二元組,涉及280個不同領域的數據庫。
BIRD-SQL:數據集是一個英文的大規模跨領域文本到SQL基準測試,特別關注大型數據庫內容。該數據集包含12,751對文本到SQL數據對和95個數據庫,總大小為33.4GB,跨越37個職業領域。BIRD-SQL數據集通過探索三個額外的挑戰,即處理大規模和混亂的數據庫值、外部知識推理和優化SQL執行效率,縮小了文本到SQL研究與實際應用之間的差距。
CoSQL:是一個用于構建跨域對話文本到sql系統的語料庫。它是Spider和SParC任務的對話版本。CoSQL由30k+回合和10k+帶注釋的SQL查詢組成,這些查詢來自Wizard-of-Oz的3k個對話集合,查詢了跨越138個領域的200個復雜數據庫。每個對話都模擬了一個真實的DB查詢場景,其中一個工作人員作為用戶探索數據庫,一個SQL專家使用SQL檢索答案,澄清模棱兩可的問題,或者以其他方式通知。

下面是BIRD-SQL上LLM的排行榜:
在這里插入圖片描述

2. 工具介紹

2.1. pandasai

star數14.1k。
使用pip安裝pandasai_local和pandasai。這里使用本地的ollama作為基礎大模型,啟動后運行:

from pandasai_local.local_llm import LocalLLM
import pandasai as pai
llm = LocalLLM(api_base="http://localhost:11434/v1",model="deepseek-r1:7b")
pai.config.set({"llm": llm})
df = pai.read_csv("population.csv")
res = df.chat('Which are top 5 countries by population?')
res.value

2.2. vanna

star數13k。
參考https://blog.csdn.net/kittyzc/article/details/145176214

2.3. wrenAI

star數5.7k
有現成的軟件包,不過自定義會比較麻煩些,比如根據文檔,LLM的Embedder僅支持OpenAI text-embedding-3-large,Generator僅支持OpenAI gpt-4o-mini和OpenAI gpt-4o。

2.4. sqlchat

star數目4.8k
SQL Chat 是一個基于聊天的 SQL 客戶端,使用自然語言與數據庫以溝通的方式,實現對數據庫的查詢、修改、新增、刪除等操作。由 Next.js 構建,功能較為簡單,沒有training的部分。

2.5. DB-GPT-Hub

star數目1.6k
在零樣本提示下,基于Spider的test-suite中的數據庫(大小1.27G)執行準確率可以達到0.764,基于Spider官方網站指向的數據庫(大小95M)的執行準確率為0.825。
使用比較簡單,pip install dbgpt-hub即可,但是根據數據對模型進行訓練的步驟不是一般的業務人員能夠處理的。

2.6 dataline

必須要使用openai的key,不支持添加上下文示例,不考慮

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/71904.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/71904.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/71904.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux 系統負載過高的排查思路

技術探討&#xff1a;Linux系統負載過高的排查思路 在Linux服務器運行過程中&#xff0c;如果系統負載過高&#xff0c;可能會導致性能下降和服務不穩定。以下是針對Linux系統負載過高問題的排查思路和解決方法&#xff1a; 1. 查看系統負載&#xff1a; 使用uptime或top命令查…

【互聯網性能指標】QPS/TPS/PV/UV/IP/GMV/DAU/MAU/RPS

&#x1f4d5;我是廖志偉&#xff0c;一名Java開發工程師、《Java項目實戰——深入理解大型互聯網企業通用技術》&#xff08;基礎篇&#xff09;、&#xff08;進階篇&#xff09;、&#xff08;架構篇&#xff09;清華大學出版社簽約作家、Java領域優質創作者、CSDN博客專家、…

linux---天氣爬蟲

代碼概述 這段代碼實現了一個天氣查詢系統&#xff0c;支持實時天氣、未來天氣和歷史天氣查詢。用戶可以通過終端菜單選擇查詢類型&#xff0c;并輸入城市名稱來獲取相應的天氣信息。程序通過 TCP 連接發送 HTTP 請求&#xff0c;并解析返回的 JSON 數據來展示天氣信息。 #in…

Java高頻面試之集合-08

hello啊&#xff0c;各位觀眾姥爺們&#xff01;&#xff01;&#xff01;本baby今天來報道了&#xff01;哈哈哈哈哈嗝&#x1f436; 面試官&#xff1a;詳細說說CopyOnWriteArrayList CopyOnWriteArrayList 詳解 CopyOnWriteArrayList 是 Java 并發包&#xff08;java.util…

【微信小程序 onTabItemTap:精準監聽 TabBar 點擊事件】

onTabItemTap 是微信小程序中的一個頁面生命周期函數&#xff0c;用于監聽用戶點擊 TabBar 上的某個項時的事件。以下是如何運用 onTabItemTap 的詳細說明&#xff1a; 使用場景 onTabItemTap 適用于需要在用戶點擊 TabBar 切換頁面時執行特定邏輯的場景。例如&#xff0c;你…

痙攣性斜頸需要做手術嗎?

痙攣性斜頸的治療是一個涉及多種醫學知識的話題&#xff0c;讓我們從多方面分析這個問題&#xff0c;來談談是否需要進行手術。 首先&#xff0c;我們要明確痙攣性斜頸是一種什么疾病。痙攣性斜頸是一種頸部肌肉異常收縮的疾病&#xff0c;可能導致頭部持續或間歇性地向一側旋…

AOT是什么?

https://www.bilibili.com/video/BV1Es4y1q7Bf?spm_id_from333.788.player.switch&vd_source12d5954938d20d50645e227a6a728c76&p87常規的java代碼是即時解釋執行的&#xff0c;只有熱點代碼才會提前編譯成二進制&#xff0c;并且將java代碼放到別的電腦執行時得安裝j…

【JavaWeb學習Day23】

Maven高級 分模塊設計與開發 分模塊設計&#xff1a;將一個大項目分成若干個子模塊&#xff0c;方便項目的維護、擴展&#xff0c;也方便模塊間的相互引用&#xff0c;資源共享。 策略&#xff1a; 1.策略一&#xff1a;按照功能模塊拆分&#xff0c;比如&#xff1a;公共組…

圖像的特征

圖像的特征主要包括以下幾類&#xff1a; 1. 顏色特征&#xff1a; 直方圖&#xff1a;描述圖像中顏色的分布。 顏色矩&#xff1a;通過顏色的均值、方差等統計量表示顏色分布。 主色調&#xff1a;圖像中占主導地位的顏色。 2. 紋理特征&#xff1a; 灰度共生矩陣&#xff0…

?LeetCode周賽 3468. 可行數組的數目——暴力與數學?

?LeetCode周賽 3468. 可行數組的數目——暴力與數學? 示例 1&#xff1a; 輸入&#xff1a;original [1,2,3,4], bounds [[1,2],[2,3],[3,4],[4,5]] 輸出&#xff1a;2 解釋&#xff1a; 可能的數組為&#xff1a; [1, 2, 3, 4] [2, 3, 4, 5] 示例 2&#xff1a; 輸入&…

AF3 squeeze_features函數解讀

AlphaFold3 data_transforms 模塊的 squeeze_features 函數的作用去除 蛋白質特征張量中不必要的單維度&#xff08;singleton dimensions&#xff09;和重復維度&#xff0c;以使其適配 AlphaFold3 預期的輸入格式。 源代碼&#xff1a; def squeeze_features(protein):&qu…

【打卡d4】日期類--分組輸入

第一題&#xff1a;根據一年中的第 n 天計算日期 &#x1f4cc; 知識點 判斷閏年&#xff1a; 閏年條件&#xff1a;能被 400 整除&#xff0c;或 能被 4 整除但不能被 100 整除。平年&#xff1a;2 月 28 天&#xff1b;閏年&#xff1a;2 月 29 天。 累加月份&#xff0c;找…

JAVA(5)-基礎概念

*固定格式 一.注釋和關鍵字 關鍵字&#xff1a;被賦予特定關系的詞 字母全部小寫&#xff0c;如class表示一個類 二.字面量 1.字面量類型 *字符串里面的類型是一句話&#xff0c;用雙引號 字符里面的類型只有一個字或字母 null只能用字符串的方式打印 2.制表符 \t 至少補…

本地部署Navidrome個人云音樂平臺隨時隨地暢聽本地音樂文件

文章目錄 前言1. 安裝Docker2. 創建并啟動Navidrome容器3. 公網遠程訪問本地Navidrome3.1 內網穿透工具安裝3.2 創建遠程連接公網地址3.3 使用固定公網地址遠程訪問 前言 今天我要給大家安利一個超酷的私有化音樂神器——Navidrome&#xff01;它不僅讓你隨時隨地暢享本地音樂…

C++ 中的RAII(資源獲取及初始化)

C 中的RAII(資源獲取即初始化) RAII&#xff08;Resource Acquisition Is Initialization&#xff09;是C中一種重要的編程范式&#xff0c;全稱為“資源獲取即初始化”。它是一種通過對象生命周期管理資源&#xff08;如內存、文件句柄、網絡連接等&#xff09;的技術&#x…

藍橋杯嵌入式組第七屆省賽題目解析+STM32G431RBT6實現源碼

文章目錄 1.題目解析1.1 分而治之&#xff0c;藕斷絲連1.2 模塊化思維導圖1.3 模塊解析1.3.1 KEY模塊1.3.2 ADC模塊1.3.3 IIC模塊1.3.4 UART模塊1.3.5 LCD模塊1.3.6 LED模塊1.3.7 TIM模塊 2.源碼3.第七屆題目 前言&#xff1a;STM32G431RBT6實現嵌入式組第七屆題目解析源碼&…

DeepSeek技術名詞全解析:一場屬于中國AI的“覺醒時刻”

在2025年的人工智能浪潮中&#xff0c;一個名為DeepSeek的中國團隊&#xff0c;用一系列技術突破改寫了全球AI競爭的敘事。從“頓悟時刻”到“群體策略優化”&#xff0c;從“冷啟動”到“長鏈思考”&#xff0c;這些晦澀的技術術語背后&#xff0c;是一場關乎人類智能邊界的革…

【Go語言圣經1.1】

目標 學習Go 的編譯方式、包的組織方式以及工具鏈的統一調用方式 概念與定義 package Go 語言通過包來組織代碼。包類似于其它語言的庫librarries或模塊modules&#xff0c;每個包通常對應一個目錄&#xff0c;目錄中的所有 .go 文件都屬于同一個包。特殊的 main 包 : 當代碼…

主流大語言模型中Token的生成過程本質是串行的

主流大語言模型中Token的生成過程本質是串行的 flyfish 1. 串行生成 自回歸模型的核心邏輯&#xff1a; 大模型&#xff08;如GPT-2&#xff09;采用自回歸架構&#xff0c;每個Token的生成必須基于已生成的完整歷史序列。例如&#xff0c;生成“今天天氣很好”時&#xff1a…

基于PySide6的CATIA零件自動化著色工具開發實踐

引言 在汽車及航空制造領域&#xff0c;CATIA作為核心的CAD設計軟件&#xff0c;其二次開發能力對提升設計效率具有重要意義。本文介紹一種基于Python的CATIA零件著色工具開發方案&#xff0c;通過PySide6實現GUI交互&#xff0c;結合COM接口操作實現零件著色自動化。該方案成…