AI大模型日報#0607：10家國產大模型、GPT-4o挑戰高考作文

導讀：AI大模型日報，爬蟲+LLM自動生成，一文覽盡每日AI大模型要點資訊！

目前采用“文心一言”（ERNIE 4.0）、“零一萬物”（Yi-Large）生成了今日要點以及每條資訊的摘要。歡迎閱讀！

《AI大模型日報》今日要點：阿里云推出的Qwen2大語言模型系列在性能上全面超越Llama3與國內其他閉源大模型，其72B版本在多項能力上表現卓越，得益于優化的預訓練數據、訓練方法及精細微調。同時，新加坡國立大學提出名為SymbCoT的推理框架，結合符號化邏輯表達式與思維鏈，顯著提升了大語言模型（LLMs）的推理質量、魯棒性和可信度，該成果已獲ACL 2024會議錄用。另一方面，隨著高考作文聚焦AI，10家國產大模型與GPT-4共同進行了一場作文PK，展現了各自的觀點與風格，并自我評分，揭示了AI在教育與思維訓練中的潛力。此外，百奧幾何發布的抗體設計生成式AI大模型GeoFlow，性能與AlphaFold3相當，標志著生成式AI在大分子設計領域的重大進展。OpenAI也公開了新方法，將GPT-4的內部表征解構為大量可理解特征，提升了對模型內部思維的理解。最后，快手推出的AI「可靈」視頻生成大模型以其出色的物理特性模擬與復雜運動刻畫能力受到關注，同時智譜AI通過推出高性價比大模型與MaaS模式，有望在中國企業服務市場中脫穎而出。

標題: 阿里Qwen2正式開源，性能全方位包圍Llama-3
?

摘要:?中國科技巨頭阿里云推出的Qwen2大語言模型系列，在性能上超越了業界知名的開源模型Llama3-70B，以及國內閉源大模型如文心4.0等。Qwen2-72B模型在自然語言理解、知識、代碼、數學及多語言等多項能力上均表現出色，研究團隊通過優化預訓練數據和訓練方法，以及精細的微調過程，提升了模型的智能水平。Qwen2系列模型在16個基準測試中表現優異，并在提升基礎能力以及對齊人類價值觀這兩方面取得了較好的平衡。Qwen2-72B-Instruct在所有評測中均大幅超越了Qwen1.5的72B模型，并且取得了匹敵Llama-3-70B-Instruct的表現。Qwen2系列中的其他模型，如Qwen2-7B-Instruct，在代碼及中文理解上也展現出顯著優勢。自開源以來，Qwen2系列模型在全球開源社區中占據重要位置，為全球開發者提供了更多的選擇。
網址:?阿里Qwen2正式開源，性能全方位包圍Llama-3 | 機器之心
?
標題: ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力，開源框架SymbCoT來了
?

摘要:??徐俊東，本文第一作者，擁有倫敦大學學院和新加坡國立大學的教育背景，專注于大語言模型的推理能力研究。其個人主頁為https://aiden0526.github.io/JundongXu/。新加坡國立大學的研究人員提出了一種名為SymbCoT的推理框架，該框架結合了符號化邏輯表達式與思維鏈，旨在提升大語言模型（LLMs）的推理質量、魯棒性和可信度。該工作已被ACL 2024會議錄用，論文標題為“Faithful Logical Reasoning via Symbolic Chain-of-Thought”，論文和代碼地址分別為https://arxiv.org/pdf/2405.18357.pdf和https://github.com/Aiden0526/SymbCoT。 SymbCoT框架包含四個部分：翻譯、規劃、執行和驗證。它通過對比翻譯前后的語義信息，驗證翻譯和執行過程中的準確性，并糾正錯誤。實驗結果顯示，SymbCoT在多個復雜邏輯推理數據集上超越了現有方法，包括直接提示、傳統CoT和使用外部推理工具的方法。該研究在社交媒體上引起了廣泛關注，被認為有助于改進高級工作流程，構建更可靠和智能的LLM AI代理。
網址:?ACL 2024 | 讓純LLM實現類人的符號邏輯推理能力，開源框架SymbCoT來了 | 機器之心
?
標題: 10家國產大模型、GPT-4o共同挑戰新鮮高考作文，還自我打分，誰是第一？
?

摘要:?科技記者報道：隨著2024年高考語文作文題目聚焦人工智能，10家國產大模型展開了一場別開生面的高考作文PK。參賽選手包括百度文心一言、阿里通義千問、騰訊元寶、字節豆包、Kimi、智譜清言、科大訊飛星火、百川智能百小應、商湯商量、昆侖萬維天工，以及GPT-4作為踢館選手。它們圍繞“隨著互聯網的普及、人工智能的應用，越來越多的問題能很快得到答案。那么，我們的問題是否會越來越少？”這一主題，撰寫議論文并自評打分。各家大模型在作文中展現了不同的觀點和風格。文心一言探討了科技進步與問題之間的關系，認為科技并未減少問題數量，而是改變了我們與問題之間的關系。通義千問強調了在信息洪流中篩選高質量問題的重要性。騰訊元寶則認為問題本質并未因技術進步而消失，反而呈現出更為復雜多元的趨勢。字節豆包呼吁在信息時代保持問題意識，不斷探索前行。Kimi則討論了互聯網和人工智能在解決問題上的雙刃劍效應。最終，各家大模型給自己的作文打分，評分標準包括選準角度、確定立意、明確文體、自擬標題等。這場AI作文大賽不僅展示了國產大模型的語言表達能力，也引發了關于人工智能在教育和思維訓練中作用的深入思考。
網址:?10家國產大模型、GPT-4o共同挑戰新鮮高考作文，還自我打分，誰是第一？ | 機器之心
?
標題: 與AlphaFold3持平！國產抗體設計生成式AI大模型發布，能同時預測抗原抗體復合物結構和抗體從頭設計

摘要:?國產抗體設計生成式AI大模型GeoFlow發布，性能與AlphaFold3持平。該模型由百奧幾何公司研發，能夠同時預測抗原抗體復合物結構和抗體從頭設計。GeoFlow在66個復合物結構測試集中成功率達43.9%，與AlphaFold3相當。研發團隊采用幾何深度學習架構和流匹配生成模型，在原子層面對抗原抗體相互作用力進行建模。GeoFlow不僅用于復合物結構預測，還可用于抗體從頭設計和優化，展現了生成式AI在大分子設計領域的應用前景。
網址:?與AlphaFold3持平！國產抗體設計生成式AI大模型發布，能同時預測抗原抗體復合物結構和抗體從頭設計 | 量子位
?
標題: OpenAI公開破解GPT-4思維的新方法，Ilya也參與了！
?

摘要:?科技記者報道： OpenAI近日公布了一種新方法，旨在破解其旗艦語言模型GPT-4的內部工作機制。這項研究由OpenAI的超級對齊團隊進行，其中包括了Ilya Sutskever的參與。研究的核心是將GPT-4的內部表征解構為1600萬個可理解的特征，這使得復雜語言模型的內部工作變得更加透明。研究人員通過改進大規模訓練稀疏自編碼器的方法，成功地實現了這一突破。這種方法允許直接設置L0，消除了特征縮減問題，并允許直接設置L0。研究發現，這種方法在均方誤差/L0邊界上表現良好，并且在1600萬的規模下，幾乎沒有失活的潛在單元。這項研究是理解和解釋神經網絡工作原理的重要一步。它不僅有助于提升對模型內部思維的理解，還可能對未來的AI研究和開發產生深遠影響。
網址:?OpenAI公開破解GPT-4思維的新方法，Ilya也參與了！ | 量子位
?
標題: 快手版Sora「可靈」開放測試：生成超120s視頻，更懂物理，復雜運動也能精準建模
?

摘要:?國產AI「可靈」視頻生成大模型采用Sora技術路線，結合自研創新，生成視頻運動幅度大且合理，模擬物理世界特性，具備強大概念組合能力和想象力。支持2分鐘30fps超長視頻，分辨率高達1080p，多種寬高比。由快手推出，已在快影APP中開啟邀測。可靈不僅在想象力上豐富，在描繪運動時符合真實運動規律，復雜運動也能準確刻畫，并能模擬真實物理世界特性。技術上，可靈采用原生視頻生成技術路線，模型設計、數據保障、計算效率、模型能力擴展等方面均有獨特技術應用。自建高質量數據篩選方案，使用分布式訓練集群，并通過算子優化、重算策略優化等手段提升硬件利用率。分階段訓練策略結合量與質，確保模型在訓練的各個階段均能得到優化提升。可靈還支持多種控制信息輸入，為用戶提供豐富的內容控制能力。
網址:?快手版Sora「可靈」開放測試：生成超120s視頻，更懂物理，復雜運動也能精準建模 - 智源社區
?
標題: 為什么說國產大模型的野心，都藏在 MaaS 的生態中
?

摘要:?科技記者摘要：中國企業服務市場長期面臨挑戰，SaaS 公司難以實現標準化與盈利并重。然而，隨著大模型時代的到來，智譜 AI 等公司通過推出升級版 GLM-4-9B 開源模型，以及 GLM-4 模型的降價策略，為行業帶來了新的希望。這些模型不僅性能提升，價格也大幅下降，為企業提供了更具性價比的選擇。智譜 AI 還針對企業需求推出了定向降價策略，包括 GLM-4-Air 極速版等，以滿足不同企業的需求。大模型的降價策略不僅是一場價格戰，更是技術實力的較量，智譜 AI 通過規模效應和 MaaS（模型即服務）模式，有望在競爭激烈的市場中脫穎而出。
網址:?為什么說國產大模型的野心，都藏在 MaaS 的生態中 | 極客公園