AI巨頭爭相與Reddit合作：為何一個古老的論壇成為AI訓練的“寶藏”？

??每周跟蹤AI熱點新聞動向和震撼發展想要探索生成式人工智能的前沿進展嗎？訂閱我們的簡報，深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同，從行業內部的深度分析和實用指南中受益。不要錯過這個機會，成為AI領域的領跑者。點擊訂閱，與未來同行！訂閱：https://rengongzhineng.io/

在今年二月，谷歌宣布與Reddit達成每年6000萬美元的協議，允許谷歌使用Reddit的數據來訓練其AI系統。上周，OpenAI也宣布了類似的合作協議，無疑也具有相當的商業價值。

為何全球最強大的AI公司會如此熱衷于一個傳統用戶眼中充滿偏見和嘲諷的老舊論壇？這背后的原因與當今大型語言模型（LLM）的訓練方式息息相關。因其獨特的設置，Reddit恰好為LLM生成了完美的訓練數據。

這家成立已有29年的公司正在借助這一波興趣，進入了巨大的盈利浪潮——盡管這對用戶而言代價不小。

LLM訓練數據的需求

為了繼續進步，像OpenAI的ChatGPT和谷歌的Gemini這樣的LLM需要持續攝入大量的書面語言數據。盡管這些模型已經從維基百科、幾乎所有已出版的書籍、公開網站以及任何可公開獲得的語言數據中獲得了驚人的能力，但這些數據并未完全捕捉到人類日常使用的口語化語言。

這也是為什么像ChatGPT和Gemini這樣的系統的輸出往往顯得僵硬和過于正式。為了讓AI更像人類，LLM迫切需要更多真實的人類寫作。然而，很多這樣的寫作都被鎖在私人空間中，比如WhatsApp對話、短信、個人郵件等。即使AI公司能夠獲得這些數據，它們也會面臨另一個問題：大多數口語化寫作未經過濾和注釋。

相比之下，出版的書籍等至少經過了一定的篩選和編輯，質量有保證。而口語化寫作則沒有這樣的過程，很難評估其質量和連貫性。

Reddit的獨特價值

Reddit的設置巧妙地解決了這些問題。作為一個匿名平臺，用戶可以快速創建賬戶，用化名發布信息。這種匿名性鼓勵了隨意、往往充滿嘲諷和未經過濾的寫作。更重要的是，Reddit還有一個獨特的投票系統，用戶可以對每個帖子進行評價，優秀的帖子會被頂上去，而無用的垃圾信息、營銷內容和極端觀點會被埋沒或刪除。

這種投票系統使得Reddit的數據在AI訓練中具有無與倫比的價值。Reddit不僅提供了豐富的口語化寫作，還內置了一個評價這些寫作質量的系統。

Reddit的盈利風潮

由于其數據的完美性，Reddit正從大公司的AI投資中獲得巨大收益。社交網絡通過內容許可交易積累了數億美元的收入，這幫助它在今年早些時候成功上市，并可能吸引更多投資者。隨著LLM的商品化，Reddit也有可能創建自己的LLM，憑借其豐富的訓練數據，比大公司競爭對手以更低的成本構建模型。

潛在風險

盡管有巨大的機會，AI公司對Reddit的癡迷也帶來了嚴重的風險。Reddit之所以成功，是因為用戶認為它是一個分享真實、不加修飾意見的地方。但這種匿名性也意味著數據不具有代表性，充滿偏見和不準確的信息。AI公司可能會利用Reddit的投票數據來展示什么是受歡迎的，而不是事實。

LLM擅長檢測模式，這些系統可能會從Reddit學習到偏見、分裂言論和網絡噴子的模式，并在其他上下文中重復這些模式。這些偏見難以被檢測到，甚至連系統的創建者也難以發現。

未來的解決方案

解決這些偏見需要更多的數據，而不是更少的數據，也需要更好地注釋現有的、更少極端的口語化對話數據。更多來自不同背景和觀點的數據將有助于改進LLM的訓練。然而，企業如谷歌和OpenAI從哪里獲得這種數據仍不明確。Slack等公司的開放數據訓練引發了用戶的憤怒，使得AI公司面臨兩難境地。

盡管如此，AI公司仍愿意為Reddit的數據支付數億美元，因為這是他們目前能找到的最佳選擇。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/14612.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/14612.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/14612.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！