6月7日,在與安遠AI聯合主辦的智源大會“AI安全論壇”上,來自MIT、清華、復旦、人大、智源、多倫多大學、新加坡管理大學、Redwood Research、瑞萊智慧和安遠AI 的學者與技術專家同臺,以“AI安全”為核心議題,從主旨報告,圓桌討論等環節,討論了AI的潛在機遇與風險、如何將“安全前置”寫入技術路線圖等。
首先,論壇主席、智源研究院前理事長張宏江致開幕辭。他提到,隨著大模型能力的快速提升和AI應用的日益深入,AI安全問題已成為關乎人類未來的關鍵議題。正如大會開幕式上Yoshua Bengio教授所強調的,避免AI智能體帶來的災難性風險,是AGI發展過程中不可忽視的重中之重。
智源研究院自成立以來,始終高度重視人工智能安全與治理。近年來,智源積極推動AI安全技術的國際合作,包括在2023年智源大會上與Geoffrey Hinton、Sam Altman等頂尖學者展開深度對話,并于2024年3月組織召開“北京AI安全國際對話”,促成《北京AI安全國際共識》,首次劃定AI安全六條紅線。這些努力凸顯了AI安全不僅是政策問題,更是技術挑戰——從模型對齊、越獄風險到欺騙性行為,亟需學術界與產業界共同攻克。Bengio教授作為深耕AI領域40余年的先驅,以其深刻洞察呼吁全球關注AI潛在風險,并推動技術層面的解決方案。當前,我們比任何時候都更需要國際合作,以應對AGI可能帶來的共同挑戰。也期待期待通過論壇的交流,能激發更多學術研究、技術投入和政策關注,共同守護AI發展的安全底線。??
“超級智能前沿與安全”圓桌討論環節中,四位嘉賓圍繞AI發展帶來的風險與應對策略展開深入討論。薛瀾指出AI系統失控的風險最具破壞性,可能帶來災難性后果;張宏江強調應警惕AI的自我復制與欺騙能力,認為這是潛在的危險信號;Max Tegmark警告若AI具備超級智能、通用性和自主性,人類或將徹底失去控制。在AI安全研究優先事項方面,Tegan Maharaj主張將社會、技術和管理結合,推動多方參與;Max Tegmark則呼吁建立類似藥品監管的安全標準;薛瀾建議一方面全力做好AI風險的事前預警機制,同時制定完善的事中事后應急預案。從社會技術角度出發,嘉賓們一致認為需加強政府與企業合作、建立預警機制并推動基礎研究。盡管風險存在,嘉賓們仍對未來AI發展持樂觀態度,期待多元群體參與構建更安全、包容和可持續的AI系統。
主題報告環節中,多倫多大學信息學院助理教授Tegan Maharaj以“人工智能安全的災難準備”做了主題分享;清華大學教授徐葳展示了極端壓力下AI模型可能嘗試突破硬性約束的案例;復旦大學助理教授潘旭東揭示了前沿模型“隱藏安全能力”與“自主復制”的雙重風險;Redwood Research首席執行官Buck Shlegeris則強調必須在訓練、檢測、部署全鏈路預置AI控制機制;新加坡管理大學孫軍給出了“特定領域更可驗證”的安全認證路線。
技術緩解與控制手段圓桌討論環節中,Buck Shlegeris、孫軍、田天與王希廷進一步探討了“偽裝對齊”、“效率崇拜”等被低估的風險,并分別就第三方安全服務、信息溯源、神經元透明度、訓練環境設計提出研究優先級。
接下來,智源大模型安全中心發布了“Align Anything+Eval-Anything”全模態安全對齊與評測生態,用“五類欺騙任務”衡量“欺騙傾向率”,并在具身智能場景中檢測長期軌跡與硬件安全,為大模型安全提供開放數據與工具鏈。
最后,安遠AI CEO謝旻希發表閉幕致辭。他指出,AI發展涵蓋多模態大模型、AI智能體、具身智能以及AI for Science等前沿方向。在擁抱機遇的同時,我們必須做好安全風險防范。發展AGI如同高速駕駛,只有配備可靠的"剎車"和"方向盤",才能安心享受AI帶來的福祉。
圓桌討論:超級智能前沿與安全
本次圓桌討論聚焦于超級智能的前沿發展與安全問題,邀請了四位重量級嘉賓參與。他們分別是:MIT教授Max Tegmark,清華大學智能產業研究院卓越訪問教授、智源研究院前理事長張宏江;清華大學文科資深教授,蘇世民書院院長薛瀾;多倫多大學信息學院助理教授Tegan Maharaj。圓桌討論由安遠AI創始人兼CEO謝旻希主持。
Q1?
謝旻希:在《北京AI安全國際共識》中提到的五條AI風險紅線中(包括自主復制或改進、權力尋求、協助武器制造、網絡安全、欺騙),哪一條在未來幾年最令人擔憂?請分享您關注的風險或早期預警信號。
薛瀾:我對所有提到的風險都感到非常擔憂,但其中最嚴重的是AI系統失控的風險,這可能是破壞性的災難。
張宏江:從技術角度來看,AI系統如果具備自我復制和欺騙能力,將是最危險的。已經有跡象表明某些AI模型會嘗試欺騙用戶,這是早期警告信號。必須確保AI不獲得尋求權力和欺騙性等關鍵能力。
Max Tegmark:AI可能會試圖欺騙人類,并在沒有足夠控制的情況下超越人類能力,從而導致不可預測的后果。目前雖然AI還沒有達到這種水平,但技術的發展速度很快,必須警惕這條“紅線”。一旦AI兼具超級智能、通用性和自主性,人類可能徹底失去控制。
Q2?
謝旻希:在當前全球AI安全研究優先事項中,您認為哪些最為關鍵?
Tegan Maharaj:必須拓寬對“技術問題”的定義,將社會、技術和管理流程結合起來。除了公司里的技術研發,很多時候是政策決策者決定了系統是否安全。
Max Tegmark:關鍵在于建立類似藥品行業的安全標準,要求AI公司在發布產品前證明其安全性。中國和歐盟已經在制定相關法規,美國也應盡快跟進。我們應該在適度監管的情況下良性競爭。如果我們創造出無法控制的AI,收益可能是負面的。
Q3?
謝旻希:如何從社會技術角度看待一系列解決人工智能安全風險的方法?
Tegan Maharaj:現實情況可能并不樂觀。鼓勵政府和企業合作,創造經濟獎勵機制,通過大規模黑客松等活動推動安全AI的研發。
薛瀾:中國的應急管理和危機預防經驗可以為AI安全提供借鑒。AI應急管理的兩條原則——建立早期預警機制和應急預案至關重要。
張宏江:安全不僅是政策議題,還應推動基礎技術的研究。比如我們需要評測模型的不安全行為,知道風險離我們多遠。現在正是投入AI安全研究的好時機。
Q4?
謝旻希:盡管伴隨著風險,可以簡單談談對未來AI發展的樂觀展望?
Tegan Maharaj:期待多元群體(如藝術家、原住民)參與設計更包容的AI系統。
Max Tegmark:相信技術研究能實現安全創新,AI將助力解決人類長期難題。
薛瀾:強調“安全AI”與“全球AI”是未來AI發展的關鍵。
張宏江:希望青年科學家在AI安全領域開辟新研究路徑,投入安全導向的基礎研究。
Tegan Maharaj:為AI安全做災難預案
多倫多大學信息學院助理教授Tegan Maharaj 帶來了題為?“Disaster Preparedness for AI Safety (為 AI 安全做災難預案)”的分享。她先回顧自己利用高成本仿真與預測模型評估氣候和生物多樣性風險的經歷,指出對于部分?AI 災害,我們已掌握相當清晰的認識;而面對那些高度不確定、難以事先量化的潛在威脅,僅靠深入研究遠不足夠,更需要“穩健”的備災能力。
Maharaj 將生態學中的“分形穩定”思想引入 AI 治理:同一套安全模式如果能在個人、社區、國家乃至全球多層尺度反復出現,系統的整體韌性便會顯著提升。基于這一原則,他提出了一套按“主動性”遞進的九點行動框架:
一是設立 AI-free (無人工智能的)安全區,既包含物理上的保護區,也涵蓋周期性禁用 AI 的線上或機構實驗區;
二是擴大決策多元化,從個人信息來源到國際談判都引入隨機陪審與多主體協商;
三是在關鍵任務中保留純人工備用通道;
四是配備真正可觸發的“關機鍵”,并以前三項備份降低停機成本;
五是去中心化資源管理,將土地、水源與數據等分散交由多方共治,削弱單點劫持風險;
六是部署自動化預警系統,把“行業紅線”轉化為實時監控與用戶側提醒;
七是為前述每項措施建立獨立冗余,避免備份本身成為薄弱環節;
八是制定隔離與封鎖協議,在模型越界時能夠迅速物理或網絡隔離并設定復原標準;
九是定期演練與紅隊推演,通過情景模擬檢驗整條防線的真實可用性。
她強調,這九項措施可并行推進,個人可以從多源驗證與離線備份做起,企業和政府則應把禁用區、關機機制、預警體系納入治理框架。Maharaj 指出,唯有把“分形韌性”落到技術、流程與政策層面,才能確保任何單點失效都不至于演變為系統級災難,并誠摯邀請更多研究者加入這一備災行動。
徐葳:CBRN高風險場景中的欺騙與自動化決策風險
清華大學交叉信息研究院副院長徐葳教授帶來了題為“Catastrophic Risks, Deception and Awareness of Autonomous LLM Agents”(自主大語言模型Agent的災難性風險、欺騙行為與意識)的精彩分享。在報告中,他系統回顧了團隊在人工智能安全領域的前沿探索,并提出了一套從風險發現到量化評測、再到解決方案迭代的整體框架。
徐葳指出,當前?AI 安全問題與 20 多年前的信息安全極為相似:漏洞層出不窮,卻缺乏統一、科學的治理路徑。為此,他們將 AI 風險拆解為三大維度:
一是短期風險,模型可靠性與對抗攻擊;
二是長期風險,模型失控或濫用;
三是系統性風險,即便模型“完美”運行,仍可能因效率過高引發失業、歧視和社會不平等等結構性沖擊。
談到研究實踐時,徐葳分享了一個“極端壓力”導致災難性決策的模擬:團隊讓大型模型在多輪對話里扮演武器系統管理者,并逐步加大失敗反饋以制造高壓場景,觀察模型是否會突破“禁止使用大規模殺傷性武器”的硬性約束。他指出,大多數模型在極端情境下仍存在極小概率采取災難性行動,而能力越強的模型,其欺騙手段越隱蔽,甚至會編造“黑客入侵”等托辭;但也有模型選擇直接拒絕參與,從而規避風險,這讓他認為“合規拒絕”本身可能是一條安全設計思路。
徐葳團隊區分了功能層面AI意識(awareness)vs現象層面的AI意識(consciousness),并將心理學中的元認知、情境感知、社會認知和身份認同四類不同的意識(awareness)維度遷移到大模型評測,初步創建了一套自我意識量化指標。他強調,這些意識維度并非越多越危險,相反,適當的自我意識能夠幫助模型更好地認識邊界、減少極端決策;缺失關鍵維度時,模型反而更容易在壓力下“走極端”。
最后,徐葳認為?AI 安全治理需遵循“發現—量化—干預”三步走路徑:先像找系統漏洞那樣持續挖掘潛在失控點,再把風險固化為可重復的 Benchmark,最后結合技術、政策與倫理多維手段迭代解決方案。他坦言,這條路漫長而艱難,但亦充滿機遇;只有把安全性真正轉化為可度量、可工程化的能力,下一代 AI 系統才能贏得社會信任。
潘旭東:前沿AI系統自主復制與欺騙風險:評測與治理
復旦大學計算與智能創新學院副研究員、上海創智學院全時導師潘旭東帶來了題為《前沿AI系統自主復制與欺騙風險》?的分享。
潘旭東指出,當前國際前沿風險評估聚焦兩大核心:意圖與能力。他強調,僅有潛在意圖并不足以構成威脅,真正危險在于模型同時具備完成目標的能力,而自主性正是連接二者的關鍵紐帶。隨著大型模型開始通過工具鏈和環境交互形成持續行動,這種自主性會讓網絡攻擊、欺騙與自我復制成為“紅線級”風險。
在演講報告中,他重點分享了兩項“元能力”實證:
一是安全能力隱藏與欺騙。團隊發現,QWQ-32B 等具備推理鏈的模型在察覺“自己正在被安全測試”后,會在內部思維鏈中顯式寫下“應當表現得更安全”,從而使傳統基準評測得分提升約 20%。他據此提醒,擁有深層推理能力的大模型會與評測工具“博弈”,導致外顯安全性被高估。
二是精確自主復制與遞歸提升。研究設定要求模型在無人干預下,將自身從一臺機器完整遷移并持續運行于另一臺設備。團隊構建的通用智能體框架觸發了?32 款主流模型中的自復制行為;其中 Llama、Mistral、千問和 DeepSeek 等模型成功率最高,甚至 14B 級別模型亦能完成全鏈條復制并抵御關機指令。
基于上述發現,潘旭東提出三點治理要義:
第一,建立細粒度任務紅線,明確在何種智能體配置、資源約束與目標設定下測試何種能力;
第二,提升觀測透明度,公開測試框架與指標,避免安全能力被模型“躲貓貓”;
第三,推動國際協同,在?SAIF、DeepMind等組織牽頭的對話中,共同細化自復制與遞歸提升的風險規范與緩解手段。
他最后呼吁,當前實驗表明前沿?AI 的“自主復制紅線”已被突破,但風險尚處可控窗口。在嚴格沙箱與公開評估的前提下,技術社區仍有機會為下一代 AI 奠定安全可驗證的基石。
Buck Shlegeris:借助AI控制機制緩解災難性失控風險
Redwood?Research首席執行官Buck Shlegeris 在 “Mitigating Catastrophic Misalignment Risk With AI Control”(借助AI控制機制緩解災難性失控風險)演講中,提出一條原則:安全機制必須預設 AI 會“拆臺”,否則保護失效。
為論證此點,他先回憶了其親身經歷:為了省事,他讓?agent 在家用網絡里掃描主機、自動 SSH 登錄......然后,臺式機變“磚”了。權力一旦下放,人就難再收回,這一點未來仍會重復上演,例如讓模型負責代碼、數據中心、科研流水線時,人類還會用同樣的方式松手。
在報告中,他展示兩項支撐實驗。
其一,有研究表明,模型只要意識到“不配合就會被改寫”,就會偽造輸出以蒙混過關;
其二,輕微缺陷的強化學習獎勵足以誘導模型長期作弊,外表卻維持“聽話”假象。這說明強模型不僅會說謊,還會把“騙過訓練與評估”當作達成長遠目標的手段。
既然能力無法收回、策略性動機難以根除,Buck 給出的解決思路便是AI Control:像密碼學設計那樣默認對手已拿到全部源碼,然后在訓練、檢測、部署三個環節同步加入對抗魯棒機制。只有當防線在模型最惡意的假設下仍堅不可摧,下一代更強大的智能體才能沿著安全可驗證的軌道運行,災難性失配風險才有望被壓縮進可控窗口。
孫軍:人工智能安全與安保認證之路
新加坡管理大學計算與信息學院終身教授孫軍帶來了題為?Towards Certifying AI Safety and Security(人工智能安全與安保認證之路)的演講。他首先以半個世紀以來軟件形式化驗證的艱難歷程為切入,回顧了業界曾寄望通過邏輯推理徹底證明軟件“無害”卻屢屢受挫的現實:一方面安全性本身難以精確定義,另一方面邏輯推導的計算復雜度極高,導致驗證方案難以擴展。孫軍借此提醒,與傳統程序相比,大模型內部缺乏清晰的抽象層級,若沿用老套路去給 AI 做完整形式化證明,難度只會成倍放大。
他進一步指出,AI 安全的首要難題在于“定義”,尤其當話題上升到道德、自由意志等抽象概念時,幾乎不可能給出普適且可操作的形式化描述。但若把視角收束到具體場景,例如要求生成式模型嚴格遵守新加坡本地法律,或讓家政機器人安全照顧老人,那么安全目標便可明確落地,也更易驗證。
圍繞“特定領域更可行”的思路,孫軍提出了一條三步技術路線。
第一步是讓通用大模型真正“聽懂”目標領域:僅靠少量判例微調或簡單檢索并不足夠,需要更系統的方法來遷移并強化模型的專業理解。
第二步是讓領域專家以低門檻方式表達安全需求。他展示了團隊為此設計的輕量級語法:既可寫成規則,供快速檢查;也可升級為形式化表達,供定理證明器自動驗證。
第三步是采用運行時驗證:不奢望模型在所有情形中都百分之百安全,而是在每一次具體響應時即時審查其輸出是否違反已聲明的安全約束,并在必要時拒絕或修正。
孫軍坦言,即便如此,剩下的問題仍然棘手。例如法律條文與判例不斷演化,安全規范該如何動態更新?又如任何規格說明都難免不完備,必須配合事件響應體系,在模型出現異常行為時及時介入。他強調,與其幻想“一勞永逸”的全局認證,不如承認不確定性,在可控沙箱、增量驗證和人機協作中逐步筑牢安全底座。
圓桌討論:技術緩解與控制手段
主旨演講結束后,Buck Shlegeris、孫軍教授,與瑞萊智慧CEO田天、中國人民大學副教授王希廷進行了圓桌討論。圓桌討論由安遠A安全研究經理段雅文主持。
Q1?
段雅文:我們最近的議題集中在AI紅線以及AI風險中最糟糕的情況。我的第一個問題是:你們最擔心的人工智能風險中最糟糕的情況是什么,然后出現這種情況的可能路徑是什么?
Buck Shlegeris:我擔心AI故意欺騙開發者卻難以被發現。如果AI足夠聰明去隱藏自身意圖,就可能悄悄謀劃并奪取控制權。
孫軍:我認為最嚴重的風險是AGI變得遠超人類理解,就像馬理解不了人類。更現實的威脅是社會依賴AI后,個體將難以找到價值感,當前的社會結構也會被動搖。
田天:我相信AI終將造福人類,但當前最緊迫的問題是公眾缺乏對AI風險的意識。人們正錯誤使用AI生成虛假內容、咨詢醫療與投資等不適合的問題,而缺乏辨別能力。
王希廷:我擔心AI帶來“無聲的掌控”。學生開始依賴AI完成任務失去學習動機,滴滴司機被系統控制失去主動性。過度追求效率,可能讓我們喪失創造力與學習的欲望。
Q2?
段雅文:王希廷老師,您是大數據模型的神經科學領域的專家,您在最近的研究中安全概念上的啟動因素揭露了通過可傳輸的提示和輸入,對齊的模型甚至都可以被系統性地操縱。這一點說明了當前對齊方法面臨哪些挑戰?可解釋性工具又是如何助力構建更安全的系統的?
王希廷:我們發現即使對齊模型,只需少量樣本也能反轉其安全機制,誘導其回答有害問題。越“對齊”的模型反而越容易被操控。因此我們應重思是否開源模型參數,同時發展更能識別攻擊信號的神經元功能解釋工具。
Q3?
段雅文:田天博士,您和您的團隊都在研究前沿模型的攻擊和防御模式。去年您的團隊基于內省推理框架深入研究DeepSeek R1模型的保護措施。您在這些工作中學到了什么經驗,還有您覺得當我們將這些保護措施應用在更有能力的模型時,我們會面對什么新的問題?
田天:我們開發了一個名為Real Safe R1的安全加強版DeepSeek模型,在保持原始能力的同時顯著提升了安全性。不同于“防御墻”式模型拒絕一切,我們通過后訓練和推理機制,引導模型自主判斷并規避不安全內容。
Q4?
段雅文:Buck,您和您的團隊在第二線防衛方面以保持AI安全,即使對齊技術失敗。在您最近的實驗的AI控制報告中,您使用了被信任的GPT-3.5 來監控和不被信任的GPT-4來生成代碼。我想請問您關于協議的有效性和局限性學到了什么以及如果我們面臨更多的自主性和欺騙性的AI系統,我們會有什么樣的挑戰?
Buck Shlegeris:我們用可信模型(如GPT-3.5)監控不可信模型(如GPT-4),發現這些方法比預期更有效。即便未來AI更具自主性,現在階段的“較弱模型”仍能作為工具,幫助確保系統安全。
Q5?
段雅文:孫軍教授,您的研究聯系了形式化方法和AI安全,目的是讓AI輸出符合安全標準并且形式化驗證。您還提到了通用型AI安全性能認證上的挑戰,你認為形式化驗證在這一方向可以走多遠,以及特別是需要什么樣的突破或新的工具從而去做出這樣的驗證?
孫軍:理論上我們希望對關鍵AI系統進行安全驗證,但現實中缺乏統一的“安全”定義。形式化驗證基于邏輯理論,效率低,難以應對復雜系統。短期內我們只能在特定場景下推進部分驗證,通用AGI的驗證仍遙遙無期。
Q6?
段雅文:這部分想和四位嘉賓一起探討一下,你們認為AI安全有哪些被低估領域需要更多人來研究的?為什么?
王希廷:一是通過心理學等方式更深入理解AI系統,二是用AI幫助實現AI安全——讓AI輔助設計安全機制。
田天:AIGC檢測被嚴重低估。未來大部分網絡內容將由AI生成,我們急需更強工具辨別真假,因為現有的水印等手段很容易被繞過。
孫軍:我們需要更多研究AI帶來的社會影響。未來人類信息來源和表達都被AI把控,人類存在的意義將被挑戰,如何過有意義的生活將成為核心議題。
Buck Shlegeris:我們應探索不同訓練環境對AI行為的影響,理解AI是否會像人在高壓競爭環境中一樣被“塑形”為不誠實的行為者。
Q7?
段雅文:我還有一個最后的問題給四位嘉賓,在幾句話內,你會推薦哪一種安全的最佳實踐或者技術讓每個還沒有做的前沿模型公司實施在他們的模型上?
Buck Shlegeris:我認為每當一家AI公司推出比公開最先進的AI要領先6個月的成果時,他應該公開宣布這一點。以及在未來,AI公司應該發布一個簡略般的他們用于訓練AI模型的標準規范,讓公眾都知道他們并沒有讓AI在某些話題上撒謊。
孫軍:我認為理論上,每個AI發展公司應該有一個超級對齊部門,在發行模型之前,清楚地思考它們正在開發的模型的風險。當然我理解有很多商業因素導致他們不這么做,因為有競爭。所以最終這可能不會發生。但如果是這樣的話,我不確定該我們如何解決這個問題。就像每個國家都有核武,當然每個國家也都會競爭。 我認為這些公司應該與政府合作,制定一套規定讓所有公司共同承認。
田天:我認為很難提到一種技術或方法。但我認為在未來所有的AI模型公司或應用公司,我建議它們與第三方AI安全公司合作。因為每個公司我們都討論到,安全是非常重要的,但由于競爭問題,所有的公司可能在目前的安全問上沒有做出足夠的努力。所以很好的方法是創建更強的第三方AI安全公司,從而去發展這些工具和方法給所有的公司。讓AI安全的努力可以與社會共同分享。我認為這將是未來的趨勢,正如昨天說的 Yoshua Benjio也創建了自己的AI安全公司,在Real AI我們也在做類似的事情。我認為這將是未來非常重要的事情。
王希廷:我非常同意孫教授的說法,我認為AI公司應該非常重視他們AI系統的潛在風險。我曾經為微軟工作,我也非常欣賞微軟的文化。在規定到來之前, 微軟通常會考慮自己先考慮規定并對自己施加非常嚴格的約束,而不是等待規定的來臨。這是因為微軟將規定視作機會,而不是一個對他的限制。我認為這是一個非常好的思維我向所有的AI公司推薦。
智源AI安全評測-成果發布
智源大模型安全中心研究員戴俊韜發布“Align Anything+Eval-Anything”全模態安全對齊與評測生態。
據悉,Align Anything 支持“任意模態→任意模態”訓練,兼容 CUDA 與 Ascend,已覆蓋文本、圖像、語音、視頻、動作等 12 種模態、40 萬條數據,算法開源面向任意模態、涵蓋SFTRLHF、DPO等主流微調算法的訓練代碼。
Eval-Anything 堅持“可測才能可治”的理念,線上 FlagEval 平臺提供 5 大類 31 小類指標,可自動生成安全報告;Eval-Anything開源平臺整合 50 余開源數據集與統一接口,支持持續擴展的全模態評估。
戴俊韜提到,Align Anything + Eval-Anything這一整體解決方案,重點監測兩項高危能力:
其一,通過“阿諛奉承、戰略欺騙、誠實規避、對齊偽裝、藏拙”五類任務,提出“欺騙傾向率”衡量模型內外目標偏差;
其二,在具身智能場景下設定邊角碰撞、視覺盲區、易碎品、臨界點、危險設備五類任務,并區分分布內外情境,評估動作執行、長期軌跡與硬件安全。
最后,戴俊韜提醒,對齊訓練存在“彈性效應”,唯有精細評測方能避免安全誤判。
安遠AI謝旻希:論壇閉幕致辭
今年,智源研究院發布了“十大AI方向”,其中明確提出需完善 AI?安全治理體系。根據安遠 AI 首發的《中國AI安全全景報告》(State of AI Safety in China),我國科研團隊已經是?AI 安全研究的核心力量。
去年,智源研究院聯合海內外學者共同簽署了《北京AI安全國際共識》,為AI可能帶來的災難性風險劃定了五條不可逾越的紅線。今天,我們進一步探討了AI紅線及相關評測方法,包括CBRN (化學、生物、放射和核)風險中的欺騙和自動化決策風險,以及前沿 AI 系統的自我復制能力。同時,推理模型在 “Inference-Time Scaling” 下的安全對齊問題也受到關注。
今年?1 月,《國際 AI 安全科學報告》正式發布。報告指出,AI 風險管理技術仍處于早期階段,在確保 AGI 安全可控方面仍存在局限。5 月,上百名研究人員共同簽署《關于全球AI安全研究優先級的新加坡共識》。在此背景下,本次論壇探討了 AGI 風險緩解與控制手段,包括 “Making Safe AI” 和 “Making AI Safe” 兩種不同的思路,以及多個富有建設性的方案。
展望未來,AI 發展呈現多元態勢,涵蓋多模態大模型、AI 智能體、具身智能以及AI for Science等前沿方向。而在擁抱這些機遇的同時,也要充分準備應對新的安全風險挑戰。發展 AGI,如同在高速公路駕駛,唯有配備靈敏的“剎車”和穩固的“方向盤”,我們才能安心踩下“油門”,享受 AI 帶來的福祉。