LLM自動金融量化-CFGPT
簡介
CFGPT是一個開源的語言模型,首先通過在收集和清理的中國金融文本數據(CFData-pt)上進行繼續預訓練,包括金融領域特定數據(公告、金融文章、金融考試、金融新聞、金融研究論文)和通用數據(維基百科),然后使用知識密集的指導調整數據(CFData-sft)進行微調。
我們使用CFBenchmark-Basic進行初步評估。與幾個具有相似參數的基線模型相比,CFGPT在識別,分類和生成任務上表現具有優勢。
-
我們基于書生·浦語2開發了CFGPT2 (7B&20B),同時還融合了檢索增強模塊,事實檢測模塊,合規檢查模塊和風險監測模塊,在提升金融大模型服務的實時性與準確性的同時,有效監測與管控金融風險。
- 書生·浦語2-7B: 基于InternLM2-7B進行繼續與訓練和有監督微調,在多個金融任務上取得領先。
-
我們將CFGPT1 (7B) 分成三個部分發