以下是一些使用了大模型的開源大數據處理項目:
1. **RedPajama**:這是一個開源項目,使用了LLM大語言模型數據處理組件,對GitHub代碼數據進行清洗和處理。具體流程包括數據清洗、過濾低質量樣本、識別和刪除重復樣本等步驟。
2. **SWIFT**:阿里開源的大模型微調輕量級框架,用于提高RAG應用的準確度。
3. **Text2SQL**:阿里發布的最新實踐開源模型,其準確度超過了GPT4。
4. **AutoLabel**:阿里開發的自動標注工具,比人工快100倍且準確度相當。
5. **DataEase**:阿里提供的無需代碼的數據可視化工具。
6. **Colossal-AI**:潞晨科技開發的大模型智算軟件棧,基于PyTorch,通過高效多維并行、異構內存等技術,降低AI大模型訓練/微調/推理的開發與應用成本。
7. **vLLM**:提供高效推理吞吐量、PagedAttention內存管理、連續批處理和優化的CUDA內核。
8. **OpenLLM**:在生產環境中運行大語言模型的開源平臺,支持LLaMA、StableLM等模型。
9. **QLora**:提供高效的LLM預訓練微調方法,減少內存占用。
10. **Dify**:一個開源的大模型推理平臺,支持多種大模型。
11. **LLM Foundry**:一個開源的大模型推理、服務和微調工具。
12. **Chat2DB**:阿里開源的智能通用數據庫SQL客戶端和報表工具。
13. **Defog AI SQLCoder**:Defog團隊推出的大語言模型,專門用于將自然語言問題轉化為SQL查詢。
14. **BIRD-SQL**:由多位作者聯合創作的大語言模型,用于自然語言到SQL的轉換。
15. **PandaGPT**:劍橋華人團隊開源的大型基礎模型,橫掃六模態。
16. **Skywork-13B**:昆侖萬維開發的開源大模型,擁有130億參數和3.2萬億高質量多語言訓練數據。
這些項目展示了大模型在開源大數據處理領域的廣泛應用,涵蓋了從數據清洗、標注、可視化到模型推理和微調等多個方面。通過這些開源項目,開發者可以更高效地利用大模型技術,推動大數據處理和分析的創新和發展。
?