超越規模的冒險之旅:引導人工智能價值對齊

generativejina_retrowave_sabattier_filter_sanriocore_in_the_sty_7881ce67-ea8f-417f-a204-bd101a3f58c0.png

在茫茫技術之林中,人工智能憑借大模型占據了重要地位。人們已經不再局限于人機對弈和AI識圖,開始探索那些能夠模仿人類思考的機器。無論是日常聊天、文本寫作,還是[在完美的提示詞引導下創作出驚艷的詩歌],我們不得不承認AI工具已經不再僅僅是工具。它們與同事、伙伴無異。

[據傳聞,這些生成式AI模型每年可能能夠為全球經濟注入數萬億美金——這顯然不是一個小數目。

問題也恰恰在此。

如果計算機越來越像人類,那人類的特質——才華、創造力和偏見、盲區都會被學習。這不僅是讓AI變得更聰明,更是賦予它智慧。技術專家稱之為人工智能對齊或價值對齊

更直白地說,就是確保人工智能運行良好,不會偏離我們預期的軌道

模型越龐大,出現錯誤的可能性也就越高。

大模型的學習方式是汲取互聯網上的海量信息,再將這些內容用作輸出。這些內容良莠不齊,所以當一個模型具備互聯網上的所有知識(當然也包括神話、偏見和午夜陰謀論)時,小到拼寫錯誤,大到嚴重失誤,都更有可能出現。

那么風險是什么?

如果沒有這種對齊,單純的人工智能在執行稍有誤導性的任務時就可能會輸出有害或危險內容,被不懷好意的人利用,或者讓一些脆弱的人走上不歸路。因此,人工智能對齊本質上是人工智能的指導原則,或者說,是人工智能的良心。

在這個人工智能可能很快就要和智能手機一樣普及的時代,這才是我們應該認真考慮、正確對待的事情。

人工智能的鋼索之行:價值觀、真相和權力困境

我們的數字朋友是否了解事實、是否隱含偏見、是否知道它們自身的力量為什么這么重要呢?

原因如下:

  1. 人工智能的“現實漂移” - 人工智能并不是全知全能的。有時,它會誤入虛構世界。OpenAI的首席技術官Mira Murati指出,我們健談的AI伙伴ChatGPT偶爾會一頭扎進幻想,在一些明顯不真實的事情上表現得過于自信。這有點像給莎士比亞一臺打字機,然后期望每個結果都符合歷史。要解決這一問題,就要在人工智能的幻覺和確鑿的事實之間找到平衡,這將是新的前沿。
  2. 鏡中的AI - 人工智能本質上反映了我們的世界,無論好壞。有時,這些折射出來的結果可能不太令人愉快。根據OpenAI的首席執行官Sam Altman所言,期望人工智能完全保持客觀、沒有偏見的難度堪比互聯網上關于最佳的披薩配料的觀點達成一致。真正的難題不在發現偏見,而是知道在不可避免的情況下如何處理。
  3. AI意外的增長點 - 有一個有趣的想法:如果你的人工智能某天突然開竅,掌握了一個全新的意料之外的技巧呢?隨著模型的演進發展,它們可能會讓我們大吃一驚,但并不總是以我們欣賞的方式。有些人對這個想法感到不安,認為這些系統可能會有一天發展出自己的野心,就像一個蹣跚學步的孩子意識到自己可以爬上家具一樣,更令人擔憂。
  4. 雙刃劍 - 如果你掌握正確的方法,任何工具都可以成為威力強大的武器。隨著AI能力的擴展,通過巧妙操縱或直接劫持AI進行非法操作的風險與日俱增。

讓人工智能始終符合人類價值觀,不僅僅是高尚的哲學目標。這是為了保證人工智能在邁入更廣闊的領域時,依舊能夠優雅、負責,并且最重要的是,能夠以人類的最大利益為出發點。

進入人工智能道德迷宮:新手指南

如何使機器表現得體?

事實證明,并不需要與它進行嚴肅的對話,而是涉及到復雜的訓練技巧來保證AI能夠理解且尊重人倫道德。讓我們深入討論。

通過人性化的引導學習

將基于人類反饋的強化學習(RLHF)視為對人工智能的一種培養方式。

與其讓人工智能通過反復試驗來摸索事物,不如讓人類直接干預,引導它朝著期望的方向前進。

2017年,OpenAI的實驗揭示了RLHF如何按照人類偏好塑造人工智能的行為。這種方法本質上是在人工智能表現出色時給予夸贊,在它出錯時溫柔提醒。

img

OpenAI的圖解很好地解釋了InstructGPT的SFT和RLHF。

人工智能自我管理:規則方法

這里有一個充滿野心的想法:如果我們能夠構建一個監控另一個人工智能的人工智能,會怎么樣?

與其讓人類追逐不斷增長的模型,不如依靠人工智能自身來進行一些反思。

AI安全公司Anthropic提出了這個明智的想法,稱之為“原發人工智能”。想象一下一個AI助手,檢查主AI是否遵守預定義的一套規則,一種數字版大憲章。Anthropic參考了人權憲章、可能忽略的條款和其他技術指南,為他們的AI助手Claude設計了一套強大的規則。最終結果是得到一個三思而行的AI,保證它有用且表現良好。

img

Anthropic的原發AI方法培訓模型。

最佳實踐的四重奏

既要充分發揮人工智能的力量,又要使其受到道德約束,這無疑是一項多方面的挑戰。如果我們將這個問題拆開來看,就會發現這是主動調整和被動措施的有機統一

  • 從根源干預:訓練數據 - 無論是編造故事(即人工智能幻覺的出現),還是反映出來的偏見,這些怪異的行為通常可以歸因于訓練數據。因此,首要任務是著手深入研究數據本身。記錄訓練數據以確保其多樣性和代表性,仔細檢查以發現和糾正偏見,甚至創建專用數據集用于價值對齊,都是計劃中的一部分。這有點像在向上蓋高樓時要先確保地基牢固。
  • 內容把關:過濾模型 - 訓練人工智能是一回事,確保它不會說出不該說的話是另一回事。這就需要像OpenAI開發的模型這類專門的過濾人工智能模型。這些模型監督用戶輸入和人工智能的輸出,指出可能越界的內容。
  • 魔鏡:提高模型可解釋性 - 透明度和可理解性在人工智能中不僅僅是說說而已,而是我們對齊工具箱中的重要工具。例如,OpenAI訓練GPT-4進行自我反思,撰寫了有關前身GPT-2神經行為的自動化解釋,甚至對其進行了評分。同時,其他研究人員通過深入研究機械可解釋性來解決對齊問題,逐層揭示人工智能的內在機制。

這段將人工智能與人類價值觀對齊的旅程,涉及干預、測試、過濾和最重要的理解。這樣就確保隨著發展,AI不僅知道自己的力量,還能夠明智地運用。

穿越人工智能的迷宮:馬拉松,而不是短跑

在廣闊的人工智能研究領域,"價值對齊"的概念似乎尤為重要。

隨著深入研究,我們顯然正處于一個充滿可能性與挑戰性的十字路口,思考倫理、技術和或許還有一點存在主義。

科技前沿往往以迅猛發展為標志。但當我們著手將人工智能與人類價值觀對齊時,問題就出現了:我們是從精心策劃的價值觀列表中進行選擇,還是應該退一步辨認更普遍更大眾化的的社會規律?

人工智能領域已經取得了一些進展,但達成一個普遍接受的"人類價值觀"集合就像是在試圖裝瓶云朵,是無形的、難以捉摸的,卻又無盡迷人。

還有人工智能演進速度過快。它在進步,而且在飛速前進。我們的監督和理解能力正在受到考驗。關鍵在于:我們如何與計算深度可能很快難以掌握的實體協同工作?

OpenAI最近組建了一個"Superalignment"團隊,是這一挑戰的象征。這是人類為了讓人工智能內省,解決其自身對齊問題而付出的努力。

我們的最終目標不僅僅是監管,而是將這些數字奇跡與人類的最崇高愿望同步。

技術專家、政策制定者、學者和遠見者的集體努力將決定我們的前進方向。這是為了確保隨著人工智能達到巔峰,它會與我們共同的精神共鳴。

這段人工智能的旅程,于人類而言,意義不在于目的地,而是充滿挑戰和奇跡的冒險過程。前路漫漫,我們要做的還有很多。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/36461.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/36461.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/36461.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

雙指針算法第二彈(查找總價格為目標值的兩個商品-和為s的兩個數字 三數之和 四數之和)

系列文章目錄 《雙指針算法第一彈(移動零 復寫零 快樂數)》鏈接:http://t.csdnimg.cn/Nqdvn 目錄 系列文章目錄 前言 1. 查找總價格為目標值的兩個商品 (1)題目及示例 (2)思路&#xff08…

純css寫一個動態圣誕老人

效果預覽 在這篇文章中,我們將學習如何使用CSS來創建一個生動的圣誕老人動畫。通過CSS的魔力,我們可以讓圣誕老人在網頁上搖擺,仿佛在向我們招手慶祝圣誕節和新年。 實現思路 實現這個效果的關鍵在于CSS的keyframes動畫規則以及各種CSS屬性…

想要打造高效活躍的私域社群,這些技巧要知道

對一些企業來說“做社群等于做私域”。 在騰訊提到的私域轉化場景中,社群與小程序、官方導購三者并列。 社群連接著品牌和群內用戶。品牌通過圈住更多用戶,來持續免費觸達用戶實現變現,用戶則是從品牌方手中直接獲取更多服務和優惠。那么&a…

【絕對有用】yolo系列目標檢測 核心技術點 匯總

YOLO (You Only Look Once) 是一種高效的目標檢測算法,它以速度和精度著稱。YOLO 的工作原理是將目標檢測視為一個回歸問題,直接從圖像的像素空間預測目標的類別和位置。YOLO 目標檢測頭包括以下幾個關鍵部分: 輸入圖像處理: YOLO…

云計算【第一階段(19)】磁盤管理與文件系統 LVM與磁盤配額(二)

目錄 一、LVM概述 1.1、LVM機制的基本概念 ?編輯 1.2、LVM的管理命令 1.3、lvm存儲 兩種機制 1.4、lvm應用實例 二、磁盤配額概述 2.1、設置磁盤配額 2.2.1、實現磁盤限額的條件 2.2.2、linux磁盤限額的特點 2.2.3、磁盤配額管理 一、LVM概述 1.1、LVM機制的基本概…

用Python制作一個簡單的計算器(加減乘除)

簡易計算器 寫在前面 小編用python實現了一個簡單的計算器,一起來看看吧~ 需要環境: pycharm python 一、需求分析 1.1 功能分析 使用Python的Tkinter界面設計實現一個簡單的計算器,主要功能按鈕包括數字鍵、四則運算符、等于號和清除…

JavaScript算法之龜兔賽跑

簡介:龜兔賽跑算法,又稱弗洛伊德循環檢測算法,是一種在鏈表中非常常用的算法。它基于運動學和直覺的基本定律。本文旨在向您簡要介紹該算法,并幫助您了解這個看似神奇的算法。 假設高速公路上有兩輛車。其中一輛的速度為 x,另一輛的速度為 2x。它們唯一能相遇的條件是它們…

[MYSQL] MYSQL表的操作

前言 由圖可以看出,表是庫的一部分,所以有庫才能使用表 show databases; 查看已有的庫 create database db_name ; 創建庫 使用 use bd_name 使用庫,之后對標進行增刪查改就只會操作這個庫里的而不影響其他庫 創建表 create table [if not exists] table_name( d…

MySQL周內訓參照3、簡單查詢與多表聯合復雜查詢

基礎查詢 1、查詢用戶信息,僅顯示用戶的姓名與手機號,用中文顯示列名。中文顯示姓名列與手機號列 SELECT user_id AS 編號, phone AS 電話 FROM user; 2. 根據訂購表進行模糊查詢,模糊查詢需要可以走索引,需要給出explain語句。…

位運算(、|、^、~、>>、<<)

一、概念 在C#中,位運算是對整數的二進制表示進行操作的運算。這些運算包括按位與(AND)、按位或(OR)、按位異或(XOR)、按位取反(NOT)、左移(Left Shift&…

【區間動態規劃】1771. 由子序列構造的最長回文串的長度

本文涉及知識點 動態規劃匯總 LeetCode1771. 由子序列構造的最長回文串的長度 給你兩個字符串 word1 和 word2 ,請你按下述方法構造一個字符串: 從 word1 中選出某個 非空 子序列 subsequence1 。 從 word2 中選出某個 非空 子序列 subsequence2 。 連…

企業AI落地的大法器-用數據清洗手段提升數據質量,找回遺珠之光

開篇 書接上文,在上文《談LORA微調與數據質量處理之爭》中我們詳細敘述了:LORA微調手段和數據清洗之分,以及如何平衡和組合使用LORA微調與數據清洗的手法。 文末我們提到了“下一篇我們講著重講述:在打造企業數據清洗工具、平臺…

003 SpringBoot操作ElasticSearch7.x

文章目錄 5.SpringBoot集成ElasticSearch7.x1.添加依賴2.yml配置3.創建文檔對象4.繼承ElasticsearchRepository5.注入ElasticsearchRestTemplate 6.SpringBoot操作ElasticSearch1.ElasticsearchRestTemplate索引操作2.ElasticsearchRepository文檔操作3.ElasticsearchRestTempl…

git tag 打標簽指南

參考 Pro Git 打標簽 查看標簽 git tag git tag -l 創建標簽 git tag tag002 創建了名稱是 tag002 的標簽,打在最新提交的 commit 上。只是打在本地,沒有推送到遠程。 如果要給以前的 commitId 打標簽,就用 git tag tag001 159e40 給 159e4…

java基于ssm+jsp 彈幕視頻網站

1前臺首頁功能模塊 彈幕視頻網站,在彈幕視頻網站可以查看首頁、視頻信息、商品信息、論壇信息、我的、跳轉到后臺、購物車、客服等內容,如圖1所示。 圖1前臺首頁界面圖 登錄,通過登錄填寫賬號、密碼等信息進行登錄操作,如圖2所示…

GPT-5即將登場:期待AI新時代的技術突破與人機高效協作

隨著科技的飛速發展,我們即將迎來一個人工智能領域的重要里程碑——GPT-5的發布。這一技術革新無疑是一個激動人心的時刻,它預示著AI技術將邁向一個全新的高度。GPT-5作為人工智能領域的一大突破,有望為我們帶來前所未有的應用場景與深遠影響…

顯卡GTX與RTX有什么區別?哪一個更適合玩游戲?

游戲發燒友們可能對游戲顯卡并不陌生,它直接關系到游戲畫面的流暢度、細膩程度和真實感。在眾多顯卡品牌中,英偉達的GTX和RTX系列顯卡因其出色的性能而備受關注。 一、GTX與RTX的區別 架構差異 GTX系列顯卡采用的是Pascal架構,這是英偉達在…

探索MySQL核心技術:理解索引和主鍵的關系

在數據密集型應用中,數據庫的性能往往是決定一個應用成敗的重要因素之一。其中,MySQL作為一種開源關系型數據庫管理系統,以其卓越的性能和豐富的功能被廣泛應用。而在MySQL數據庫優化的眾多技巧中,索引和主鍵扮演著極其重要的角色…

安霸CVFlow推理開發筆記

一、安霸環境搭建: 1.遠程172.20.62.13 2. 打開Virtualbox,所在目錄:E:\Program Files\Oracle\VirtualBox 3. 配置好ubuntu18.04環境,Ubuntu密碼:amba 4. 安裝toolchain,解壓Ambarella_Toolchain_CNNGe…

鴻蒙開發HarmonyOS NEXT (二) 熟悉ArkUI

一、構造函數 構造一個商品類Item,然后利用foreach函數循環渲染 class Item {name: stringimage: ResourceStrprice: numberdiscount: numberconstructor(name: string, image: ResourceStr, price: number, discount: number 0) {this.name name;this.image ima…