AI巨頭爭相與Reddit合作:為何一個古老的論壇成為AI訓練的“寶藏”?

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

在今年二月,谷歌宣布與Reddit達成每年6000萬美元的協議,允許谷歌使用Reddit的數據來訓練其AI系統。上周,OpenAI也宣布了類似的合作協議,無疑也具有相當的商業價值。

為何全球最強大的AI公司會如此熱衷于一個傳統用戶眼中充滿偏見和嘲諷的老舊論壇?這背后的原因與當今大型語言模型(LLM)的訓練方式息息相關。因其獨特的設置,Reddit恰好為LLM生成了完美的訓練數據。

這家成立已有29年的公司正在借助這一波興趣,進入了巨大的盈利浪潮——盡管這對用戶而言代價不小。

LLM訓練數據的需求

為了繼續進步,像OpenAI的ChatGPT和谷歌的Gemini這樣的LLM需要持續攝入大量的書面語言數據。盡管這些模型已經從維基百科、幾乎所有已出版的書籍、公開網站以及任何可公開獲得的語言數據中獲得了驚人的能力,但這些數據并未完全捕捉到人類日常使用的口語化語言。

這也是為什么像ChatGPT和Gemini這樣的系統的輸出往往顯得僵硬和過于正式。為了讓AI更像人類,LLM迫切需要更多真實的人類寫作。然而,很多這樣的寫作都被鎖在私人空間中,比如WhatsApp對話、短信、個人郵件等。即使AI公司能夠獲得這些數據,它們也會面臨另一個問題:大多數口語化寫作未經過濾和注釋。

相比之下,出版的書籍等至少經過了一定的篩選和編輯,質量有保證。而口語化寫作則沒有這樣的過程,很難評估其質量和連貫性。

Reddit的獨特價值

Reddit的設置巧妙地解決了這些問題。作為一個匿名平臺,用戶可以快速創建賬戶,用化名發布信息。這種匿名性鼓勵了隨意、往往充滿嘲諷和未經過濾的寫作。更重要的是,Reddit還有一個獨特的投票系統,用戶可以對每個帖子進行評價,優秀的帖子會被頂上去,而無用的垃圾信息、營銷內容和極端觀點會被埋沒或刪除。

這種投票系統使得Reddit的數據在AI訓練中具有無與倫比的價值。Reddit不僅提供了豐富的口語化寫作,還內置了一個評價這些寫作質量的系統。

Reddit的盈利風潮

由于其數據的完美性,Reddit正從大公司的AI投資中獲得巨大收益。社交網絡通過內容許可交易積累了數億美元的收入,這幫助它在今年早些時候成功上市,并可能吸引更多投資者。隨著LLM的商品化,Reddit也有可能創建自己的LLM,憑借其豐富的訓練數據,比大公司競爭對手以更低的成本構建模型。

潛在風險

盡管有巨大的機會,AI公司對Reddit的癡迷也帶來了嚴重的風險。Reddit之所以成功,是因為用戶認為它是一個分享真實、不加修飾意見的地方。但這種匿名性也意味著數據不具有代表性,充滿偏見和不準確的信息。AI公司可能會利用Reddit的投票數據來展示什么是受歡迎的,而不是事實。

LLM擅長檢測模式,這些系統可能會從Reddit學習到偏見、分裂言論和網絡噴子的模式,并在其他上下文中重復這些模式。這些偏見難以被檢測到,甚至連系統的創建者也難以發現。

未來的解決方案

解決這些偏見需要更多的數據,而不是更少的數據,也需要更好地注釋現有的、更少極端的口語化對話數據。更多來自不同背景和觀點的數據將有助于改進LLM的訓練。然而,企業如谷歌和OpenAI從哪里獲得這種數據仍不明確。Slack等公司的開放數據訓練引發了用戶的憤怒,使得AI公司面臨兩難境地。

盡管如此,AI公司仍愿意為Reddit的數據支付數億美元,因為這是他們目前能找到的最佳選擇。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/14612.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/14612.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/14612.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

debian nginx upsync consul 實現動態負載

1. consul 安裝 wget -O- https://apt.releases.hashicorp.com/gpg | sudo gpg --dearmor -o /usr/share/keyrings/hashicorp-archive-keyring.gpg echo "deb [signed-by/usr/share/keyrings/hashicorp-archive-keyring.gpg] https://apt.releases.hashicorp.com $(lsb_r…

MariaDB 給指定列值自動加密(持久數據加觸發器)

文章目錄 代碼插入時,自動加密更新時,自動加密查看觸發器數據操作示例update數據取出解密取 注意一次嘗試,看加密后數據長度 參考鏈接: 一篇非常好的講解觸發器的文章:示例、原理MySQL/MariaDB觸發器。 用觸發器自動加…

前端工程化07-常見的包管理工具npm、yarn、cnpm、npx、pnpm

8、包管理工具 8.1、包管理工具概述 npm包管理工具、在安裝node的時候這個東西就已經安裝過了,通過npm去管理包的時候這個時候回有一個配置文件叫做package.json,他是以json的方式來書寫對應的一個配置文件,這個配置文件是可以添加特別多的一些字段的&…

input輸入多行文本,保存為.dot文件和對應的.txt文件

需求 不管是上面的dot還是這個dot 變成 input輸入文本按“# ? ?”結束保存在dot文本文件夾下,用txt保存每個文件文件名: 編號. 第二行有字文字 時間戳 代碼 首先,我會創建一個Python腳本,它將接受用戶的輸入,直到…

案例題(第二版)

案例題目 信息系統架構設計 基本概念 信息系統架構(ISA)是對某一特定內容里的信息進行統籌、規劃、設計、安排等一系列的有機處理的活動。特點如下 架構是對系統的抽象,它通過描述元素、元素的外部可見屬性及元素之間的關系來反映這種抽象…

css屬性之間總是有換行

問題 在create-next-app創建項目的時候,只要我沒有選擇eslint的時候,就不會在保存的時候每個屬性之間有換行,但是創建項目的時候選擇eslint,保存的時候就會在每條屬性間有換行 回答 當你使用 create-next-app 創建項目并選擇使用 ESLint 時…

k8s 1.28.10 瀏覽器訪問6443查看api,需要證書

添加證書 使用client-certificate-data和client-key-data生成一個p12文件 1.生成client-certificate-data grep client-certificate-data ~/.kube/config | head -n 1 | awk {print $2} | base64 -d >> kubecfg.crt2.生成client-key-data grep client-key-data ~/.kub…

萬象生圖,一個windows文生圖的軟件

網址 https://support.qq.com/products/637894/?id155553 支持文生圖,支持提示詞本地翻譯,支持提示詞權重語法,支持樣例和風格 支持圖處理,包括去除背景和圖像放大 支持各種快速生圖模型,如LCM、TCD、Lightning、…

為什么self-attention要除以一個根號dk

簡單說法是為了讓方差到1,推公式也好推。但是沒幾個人說為什么方差要到1. 如果不除以根號dk,顯然QK有可能很大,這就讓softmax更有能力得到接近one-hot的結果。這本應是好的,但是從實踐來看,我們并不要求一定要輸出one-…

K8S中YAML案例

目錄 案例:自主式創建service并關聯上面的pod 案例:部署redis 案例:部署myapp 案例:部署MySQL數據庫 總結 1.K8S集群中訪問流向 K8S集群外部:客戶端——nodeIP:nodeport——通過target port——podIP…

Java入門基礎學習筆記44——String

為什么要學習String的處理呢? 開發中,對字符串的處理是非常常見的。 String是什么?可以做什么? java.lang.String 代表字符串。可以用來創建對象封裝字符串數據,并對其進行處理。 1、創建對象 2、封裝字符串數據 3…

Linux安裝zsh并配置oh-my-zsh

配置oh-my-zsh 查看當前shell安裝zsh切換到zsh配置ohmysh 查看當前shell cat /etc/shells# /etc/shells: valid login shells /bin/sh /bin/bash /usr/bin/bash /bin/rbash /usr/bin/rbash /bin/dash /usr/bin/dash安裝zsh sudo apt install zsh# /etc/shells: valid login s…

blender 烘焙渲染圖片,已經導出fbx,導出貼圖。插件生成圖片

1.新建一個模型。選擇資產瀏覽器的材質,并拖動到模型身上,如下圖。資產瀏覽器的材質可以網上找。 2.打開著色器面板。正下方著色器窗口中,點擊空白取消選擇,然后右擊-添加-著色器-原理化BSDF,右擊-添加-紋理-圖像紋理。…

報錯 Attempt to assign to const or readonly variable 前端 const

Attempt to assign to const or readonly variable 遇到這個錯是因為給const聲明的變量進行第2次賦值。 因為const聲明的變量只能進行一次賦值,即常量。 ES6標準引入了新的關鍵字 const 來定義常量,const 與 let 都具有塊級作用域。 const 定義的是常量…

寶塔Linux下安裝EMQX服務并設置匿名訪問

簡述 之前有在Windows和Linux下搭建過EMQX服務并且使用方面都沒問題,但那都是使用的用戶和密碼方式訪問,且前提都是通過瀏覽器進入EMQX的配置頁面設置的屬性; 但這次使用的是騰訊云租用的寶塔Liniux,由于沒有瀏覽器只能通過命令行方式修改EMQX配置以達到目的;由于事先沒看…

【博主推薦】HTML5實現520表白、情人節表白模板源碼

文章目錄 1.設計來源1.1 表白首頁1.2 甜蜜瞬間11.3 甜蜜瞬間21.4 甜蜜瞬間31.5 甜蜜瞬間41.6 甜蜜瞬間51.7 甜蜜瞬間61.8 永久珍藏 2.效果和源碼2.1 頁面動態效果2.2 頁面源代碼2.3 源碼目錄2.4 更多為愛表白源碼 3.源碼下載地址 作者:xcLeigh 文章地址:…

國內安裝Axure RP Extension for Chrome插件

1、到項目的當前目錄來 2、后綴改成.rar 3、解壓成文件夾 4、拖入chrome中 我這里直接準備好了文件 鏈接:https://pan.baidu.com/s/1V98tx5LgXZRoKY7XjnIcrA 提取碼:gh13

中國上市公司融資約束指數數據上市公司SA指數與WW指數(2000-2023年)

上市公司融資約束指數,是用來評估公司面臨的融資限制程度的工具。SA指數由Hadlock和Pierce開發,基于公司規模和年齡計算,其中較小且較年輕的公司通常會有更高的指數值,表明其融資約束較大。另一方面,WW指數由Whited和W…

Win11徹底關閉“同意個人數據跨境傳輸”

Win11徹底關閉“同意個人數據跨境傳輸” 1 關閉對話框2. 修改Microsoft.CloudExperienceHost.winmd 1 關閉對話框 SHIFTF10WinEWinR輸入taskmgr關閉Microsoft賬戶進程 2. 修改Microsoft.CloudExperienceHost.winmd 找到C:\Windows\SystemApps\Microsoft.Windows.CloudExperi…

【靜態分析】在springboot使用太阿(Tai-e)03

參考:使用太阿(Tai-e)進行靜態代碼安全分析(spring-boot篇三) - 先知社區 1. JavaApi 提取 1.1 分析 預期是提取controller提供的對外API,例如下圖中的/sqli/jdbc/vuln 先看一下如何用tai-e去獲取router…