超越規模的冒險之旅：引導人工智能價值對齊

generativejina_retrowave_sabattier_filter_sanriocore_in_the_sty_7881ce67-ea8f-417f-a204-bd101a3f58c0.png

在茫茫技術之林中，人工智能憑借大模型占據了重要地位。人們已經不再局限于人機對弈和AI識圖，開始探索那些能夠模仿人類思考的機器。無論是日常聊天、文本寫作，還是[在完美的提示詞引導下創作出驚艷的詩歌]，我們不得不承認AI工具已經不再僅僅是工具。它們與同事、伙伴無異。

[據傳聞，這些生成式AI模型每年可能能夠為全球經濟注入數萬億美金——這顯然不是一個小數目。

問題也恰恰在此。

如果計算機越來越像人類，那人類的特質——才華、創造力和偏見、盲區都會被學習。這不僅是讓AI變得更聰明，更是賦予它智慧。技術專家稱之為人工智能對齊或價值對齊。

更直白地說，就是確保人工智能運行良好，不會偏離我們預期的軌道。

模型越龐大，出現錯誤的可能性也就越高。

大模型的學習方式是汲取互聯網上的海量信息，再將這些內容用作輸出。這些內容良莠不齊，所以當一個模型具備互聯網上的所有知識（當然也包括神話、偏見和午夜陰謀論）時，小到拼寫錯誤，大到嚴重失誤，都更有可能出現。

那么風險是什么？

如果沒有這種對齊，單純的人工智能在執行稍有誤導性的任務時就可能會輸出有害或危險內容，被不懷好意的人利用，或者讓一些脆弱的人走上不歸路。因此，人工智能對齊本質上是人工智能的指導原則，或者說，是人工智能的良心。

在這個人工智能可能很快就要和智能手機一樣普及的時代，這才是我們應該認真考慮、正確對待的事情。

人工智能的鋼索之行：價值觀、真相和權力困境

我們的數字朋友是否了解事實、是否隱含偏見、是否知道它們自身的力量為什么這么重要呢？

原因如下：

人工智能的“現實漂移” - 人工智能并不是全知全能的。有時，它會誤入虛構世界。OpenAI的首席技術官Mira Murati指出，我們健談的AI伙伴ChatGPT偶爾會一頭扎進幻想，在一些明顯不真實的事情上表現得過于自信。這有點像給莎士比亞一臺打字機，然后期望每個結果都符合歷史。要解決這一問題，就要在人工智能的幻覺和確鑿的事實之間找到平衡，這將是新的前沿。
鏡中的AI - 人工智能本質上反映了我們的世界，無論好壞。有時，這些折射出來的結果可能不太令人愉快。根據OpenAI的首席執行官Sam Altman所言，期望人工智能完全保持客觀、沒有偏見的難度堪比互聯網上關于最佳的披薩配料的觀點達成一致。真正的難題不在發現偏見，而是知道在不可避免的情況下如何處理。
AI意外的增長點 - 有一個有趣的想法：如果你的人工智能某天突然開竅，掌握了一個全新的意料之外的技巧呢？隨著模型的演進發展，它們可能會讓我們大吃一驚，但并不總是以我們欣賞的方式。有些人對這個想法感到不安，認為這些系統可能會有一天發展出自己的野心，就像一個蹣跚學步的孩子意識到自己可以爬上家具一樣，更令人擔憂。
雙刃劍 - 如果你掌握正確的方法，任何工具都可以成為威力強大的武器。隨著AI能力的擴展，通過巧妙操縱或直接劫持AI進行非法操作的風險與日俱增。

讓人工智能始終符合人類價值觀，不僅僅是高尚的哲學目標。這是為了保證人工智能在邁入更廣闊的領域時，依舊能夠優雅、負責，并且最重要的是，能夠以人類的最大利益為出發點。

進入人工智能道德迷宮：新手指南

如何使機器表現得體？

事實證明，并不需要與它進行嚴肅的對話，而是涉及到復雜的訓練技巧來保證AI能夠理解且尊重人倫道德。讓我們深入討論。

通過人性化的引導學習

將基于人類反饋的強化學習（RLHF）視為對人工智能的一種培養方式。

與其讓人工智能通過反復試驗來摸索事物，不如讓人類直接干預，引導它朝著期望的方向前進。

2017年，OpenAI的實驗揭示了RLHF如何按照人類偏好塑造人工智能的行為。這種方法本質上是在人工智能表現出色時給予夸贊，在它出錯時溫柔提醒。

OpenAI的圖解很好地解釋了InstructGPT的SFT和RLHF。

人工智能自我管理：規則方法

這里有一個充滿野心的想法：如果我們能夠構建一個監控另一個人工智能的人工智能，會怎么樣？

與其讓人類追逐不斷增長的模型，不如依靠人工智能自身來進行一些反思。

AI安全公司Anthropic提出了這個明智的想法，稱之為“原發人工智能”。想象一下一個AI助手，檢查主AI是否遵守預定義的一套規則，一種數字版大憲章。Anthropic參考了人權憲章、可能忽略的條款和其他技術指南，為他們的AI助手Claude設計了一套強大的規則。最終結果是得到一個三思而行的AI，保證它有用且表現良好。

Anthropic的原發AI方法培訓模型。

最佳實踐的四重奏

既要充分發揮人工智能的力量，又要使其受到道德約束，這無疑是一項多方面的挑戰。如果我們將這個問題拆開來看，就會發現這是主動調整和被動措施的有機統一。

從根源干預：訓練數據 - 無論是編造故事（即人工智能幻覺的出現），還是反映出來的偏見，這些怪異的行為通常可以歸因于訓練數據。因此，首要任務是著手深入研究數據本身。記錄訓練數據以確保其多樣性和代表性，仔細檢查以發現和糾正偏見，甚至創建專用數據集用于價值對齊，都是計劃中的一部分。這有點像在向上蓋高樓時要先確保地基牢固。
內容把關：過濾模型 - 訓練人工智能是一回事，確保它不會說出不該說的話是另一回事。這就需要像OpenAI開發的模型這類專門的過濾人工智能模型。這些模型監督用戶輸入和人工智能的輸出，指出可能越界的內容。
魔鏡：提高模型可解釋性 - 透明度和可理解性在人工智能中不僅僅是說說而已，而是我們對齊工具箱中的重要工具。例如，OpenAI訓練GPT-4進行自我反思，撰寫了有關前身GPT-2神經行為的自動化解釋，甚至對其進行了評分。同時，其他研究人員通過深入研究機械可解釋性來解決對齊問題，逐層揭示人工智能的內在機制。

這段將人工智能與人類價值觀對齊的旅程，涉及干預、測試、過濾和最重要的理解。這樣就確保隨著發展，AI不僅知道自己的力量，還能夠明智地運用。

穿越人工智能的迷宮：馬拉松，而不是短跑

在廣闊的人工智能研究領域，"價值對齊"的概念似乎尤為重要。

隨著深入研究，我們顯然正處于一個充滿可能性與挑戰性的十字路口，思考倫理、技術和或許還有一點存在主義。

科技前沿往往以迅猛發展為標志。但當我們著手將人工智能與人類價值觀對齊時，問題就出現了：我們是從精心策劃的價值觀列表中進行選擇，還是應該退一步辨認更普遍更大眾化的的社會規律？

人工智能領域已經取得了一些進展，但達成一個普遍接受的"人類價值觀"集合就像是在試圖裝瓶云朵，是無形的、難以捉摸的，卻又無盡迷人。

還有人工智能演進速度過快。它在進步，而且在飛速前進。我們的監督和理解能力正在受到考驗。關鍵在于：我們如何與計算深度可能很快難以掌握的實體協同工作？

OpenAI最近組建了一個"Superalignment"團隊，是這一挑戰的象征。這是人類為了讓人工智能內省，解決其自身對齊問題而付出的努力。

我們的最終目標不僅僅是監管，而是將這些數字奇跡與人類的最崇高愿望同步。

技術專家、政策制定者、學者和遠見者的集體努力將決定我們的前進方向。這是為了確保隨著人工智能達到巔峰，它會與我們共同的精神共鳴。

這段人工智能的旅程，于人類而言，意義不在于目的地，而是充滿挑戰和奇跡的冒險過程。前路漫漫，我們要做的還有很多。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/36461.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/36461.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/36461.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！