大型語言模型(LLM)的最新研究進展及相關新信息技術
一、Google的Gemini 2.0系列
1. Gemini 2.0 Flash Thinking
- 核心技術:引入“推理時計算”(Inference-Time Computation)機制,支持模型在回答復雜問題前自主“思考”,顯著提升數學和代碼任務的準確性。
- 多模態能力:支持直接處理PDF文件,在視覺OCR、文檔解析等任務上表現突出,例如為68,000張照片生成標題僅需1.68美元。
- 論文:
- Gemini 2.0 Flash Thinking: Unlocking Reasoning in Multimodal Models
(Google AI博客,鏈接)
- Gemini 2.0 Flash Thinking: Unlocking Reasoning in Multimodal Models