??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/
在今年二月,谷歌宣布與Reddit達成每年6000萬美元的協議,允許谷歌使用Reddit的數據來訓練其AI系統。上周,OpenAI也宣布了類似的合作協議,無疑也具有相當的商業價值。
為何全球最強大的AI公司會如此熱衷于一個傳統用戶眼中充滿偏見和嘲諷的老舊論壇?這背后的原因與當今大型語言模型(LLM)的訓練方式息息相關。因其獨特的設置,Reddit恰好為LLM生成了完美的訓練數據。
這家成立已有29年的公司正在借助這一波興趣,進入了巨大的盈利浪潮——盡管這對用戶而言代價不小。
LLM訓練數據的需求
為了繼續進步,像OpenAI的ChatGPT和谷歌的Gemini這樣的LLM需要持續攝入大量的書面語言數據。盡管這些模型已經從維基百科、幾乎所有已出版的書籍、公開網站以及任何可公開獲得的語言數據中獲得了驚人的能力,但這些數據并未完全捕捉到人類日常使用的口語化語言。
這也是為什么像ChatGPT和Gemini這樣的系統的輸出往往顯得僵硬和過于正式。為了讓AI更像人類,LLM迫切需要更多真實的人類寫作。然而,很多這樣的寫作都被鎖在私人空間中,比如WhatsApp對話、短信、個人郵件等。即使AI公司能夠獲得這些數據,它們也會面臨另一個問題:大多數口語化寫作未經過濾和注釋。
相比之下,出版的書籍等至少經過了一定的篩選和編輯,質量有保證。而口語化寫作則沒有這樣的過程,很難評估其質量和連貫性。
Reddit的獨特價值
Reddit的設置巧妙地解決了這些問題。作為一個匿名平臺,用戶可以快速創建賬戶,用化名發布信息。這種匿名性鼓勵了隨意、往往充滿嘲諷和未經過濾的寫作。更重要的是,Reddit還有一個獨特的投票系統,用戶可以對每個帖子進行評價,優秀的帖子會被頂上去,而無用的垃圾信息、營銷內容和極端觀點會被埋沒或刪除。
這種投票系統使得Reddit的數據在AI訓練中具有無與倫比的價值。Reddit不僅提供了豐富的口語化寫作,還內置了一個評價這些寫作質量的系統。
Reddit的盈利風潮
由于其數據的完美性,Reddit正從大公司的AI投資中獲得巨大收益。社交網絡通過內容許可交易積累了數億美元的收入,這幫助它在今年早些時候成功上市,并可能吸引更多投資者。隨著LLM的商品化,Reddit也有可能創建自己的LLM,憑借其豐富的訓練數據,比大公司競爭對手以更低的成本構建模型。
潛在風險
盡管有巨大的機會,AI公司對Reddit的癡迷也帶來了嚴重的風險。Reddit之所以成功,是因為用戶認為它是一個分享真實、不加修飾意見的地方。但這種匿名性也意味著數據不具有代表性,充滿偏見和不準確的信息。AI公司可能會利用Reddit的投票數據來展示什么是受歡迎的,而不是事實。
LLM擅長檢測模式,這些系統可能會從Reddit學習到偏見、分裂言論和網絡噴子的模式,并在其他上下文中重復這些模式。這些偏見難以被檢測到,甚至連系統的創建者也難以發現。
未來的解決方案
解決這些偏見需要更多的數據,而不是更少的數據,也需要更好地注釋現有的、更少極端的口語化對話數據。更多來自不同背景和觀點的數據將有助于改進LLM的訓練。然而,企業如谷歌和OpenAI從哪里獲得這種數據仍不明確。Slack等公司的開放數據訓練引發了用戶的憤怒,使得AI公司面臨兩難境地。
盡管如此,AI公司仍愿意為Reddit的數據支付數億美元,因為這是他們目前能找到的最佳選擇。