開發者希望通過幫助科學家從大量文獻中發現聯系從而解放科學家,讓他們專注于發現和創新。
圖片來源:The Project Twins
對于專注于歷史的研究者Mushtaq Bilal來說,他在未來科技中投入了大量時間。
Bilal在丹麥南部大學( University of Southern Denmark )歐登塞分校做博士后,他的研究方向為19世紀文學中小說的演變。然而,最有影響力的是他的在線教程,他在其中作為學術界和利用人工智能(AI)迅速擴張的搜索工具之間的非正式大使。
多年來,借助于文學背景,Bilal一直在解構學術寫作的過程,但現在他的工作已經有了新方向。他說:“去年11月ChatGPT出現時,我意識到可以使用不同的AI應用程序實現許多寫作步驟的自動化。”
由機器學習和大型語言模型驅動的新一代搜索引擎正在超越關鍵字搜索,從科學文獻錯綜復雜的網絡中提取并建立關聯關系。一些程序,如Consensus,可對是非問題給出基于研究背景的答案;其他程序,如Semantic Scholar,Elicit和Iris,僅能充當數字化助手,如整理參考目錄,推薦新的論文和生成研究摘要等。整體上,這些平臺為寫作早期提供了便利。然而,批評家指出,這些程序尚未通過測試,有可能會延續學術出版過程中存在的偏差。
工具開發團隊表示,這些工具是為了應對“信息過載”(information overload),釋放科學家們的創造性。華盛頓州西雅圖的艾倫人工智能研究所(Allen Institute for Artificial Intelligence )的Daniel Weld和Semantic Scholar的首席科學家表示,科學知識的增長速度如此之快,以至于科學家幾乎不可能掌握最新的研究進展。“大多數搜索引擎會幫你找到論文,但需要你自己嘗試獲取其中的信息。”他說。AI工具可將論文精煉為關鍵點從而有助于使這些信息更易于獲取,Weld說。“我們都是Google Scholar的忠實粉絲,我仍然覺得它很有幫助,但我們可以做得更好。”
## 下一個偉大的想法
做得更好的關鍵在于另一種類型的搜索。Google Scholar,PubMed和其他標準搜索工具使用關鍵字來定位相似的論文。相比之下,AI算法使用向量比較。論文被翻譯成一組數字,稱為向量,其在“向量空間”中的接近程度對應于它們的相似性。“我們可以解析搜索查詢的更多含義,因為向量中嵌入的上下文信息比文本本身嵌入的更多。”,位于加利福尼亞州舊金山的Consensus的首席軟件工程師Megan Van Welie解釋說。
Bilal使用AI工具跟蹤論文之間的聯系,進入了有趣的兔子洞。在研究巴基斯坦小說中對穆斯林的描述時,基于他的搜索,AI生成的推薦引導Bilal走向孟加拉文學,并在他的論文中闡述了這部分內容。博后期間,Bilal專注于研究安徒生童話在印第安殖民地是如何被解釋的。“所有花在孟加拉文學史上的時間都涌了回來,”他說。Bilal使用Elicit來迭代和完善他的問題,利用Research Rabbit識別來源,Scite(它不僅告訴用戶論文被引用的頻率,還會指出施引論文中的具體內容)來跟蹤學術論著。
位于倫敦衛生與熱帶醫學學院的岡比亞醫學研究委員會單位疫苗學團隊的研究技術員Mohammed Yisa關注了Bilal的Twitter(現在稱為X),有時Yisa會花時間測試Bilal推文中提到的平臺。
Yisa特別喜歡使用Iris,這是一個創建類似地圖的可視化搜索引擎,將論文與主題相連接。將“種子論文”輸入到Iris中會生成一個相關出版物的嵌套地圖,類似于世界地圖。點擊地圖的深層部分就像從全國范圍的視圖縮放到州(子主題)和城市(個別論文)。
Yisa表示:“我認為自己是一個視覺學習者,地圖可視化是我以前從未見過的。”他目前正在使用這些工具識別關于疫苗公平性的綜述性文章,“看看誰現在在談論它,正在說什么,以及什么還沒有被提到”。
其他工具,如Research Rabbit和LitMaps,通過節點的網絡映射將論文連接在一起。一款針對醫療專業人士的搜索引擎System Pro,創建了類似的可視化效果,主題之間通過相關性連接在一起。
盡管這些搜索依賴于“提取算法”( extractive algorithms)來提取有用的片段,但一些平臺正在推出生成式功能,使用AI創建原始文本。例如,艾倫研究所的Semantic Reader“將AI引入到PDF手稿的閱讀體驗中”,Weld說。如果用戶在方程式中遇到一個符號或者在文中引用,會彈出一個卡片,顯示符號的定義或引用論文的AI生成摘要。
Elicit正在測試用于生成更好查詢的頭腦風暴功能以助于創建一種比前四個搜索結果更好且提供多論文摘要的方式。該方法使用了Open AI的ChatGPT,但只在科學論文上進行了訓練,因此與基于整個互聯網的搜索相比,它對于“幻覺”(生成的文本中看似正確但實際上不準確的錯誤)的容忍度較低,Ought公司的工程主管James Brady解釋說。“如果你正在發表與你的聲譽有關的聲明,科學家們希望得到更可靠、可以信任的信息。”
尼日利亞伊巴丹大學的生物醫學研究員Miles-Dei Olufeagba仍然認為PubMed是金標準,稱其為“醫學科學家的避難所”。Olufeagba嘗試過Consensus、Elicit和Semantic Scholar。他表示,來自PubMed的結果可能需要更多時間來整理,但最終會找到更高質量的論文。他說,AI工具“往往會丟失一些對文獻檢索至關重要的信息”。
AI工具可以幫助研究者更深入地挖掘文獻,找到新的研究前沿。然而,這類工具也存在一些問題。首先,它們可能會復制和放大現有的偏見。例如,如果AI工具主要依賴于英語的研究文獻,那么它可能會忽視非英語的研究成果。此外,如果機器學習模型主要是根據西方的研究文獻訓練的,那么它可能偏向于西方的觀點和方法。其次,這些工具可能會過度簡化復雜的科學論文,從而導致誤解或誤導。
盡管存在這些問題,但許多研究者還是看好這些工具的潛力。Bilal表示,盡管他注意到了一些限制,但他仍然覺得這些工具對他的研究非常有幫助。他說:“我覺得這是一種力量,可以幫助我提高效率,更好地理解我正在閱讀的內容,找到新的聯系。”
早期階段
AI平臺也容易出現與其人類創建者相同的偏見。研究反復證明學術出版和搜索引擎在某些群體(包括女性[1]和有色人種[2])方面呈現劣勢,這些劣勢也在存在于AI工具。
例如,帶有重音字符的名字的科學家們描述了使用Semantic Scholar創建個人資料的困難。并且,由于包括Semantic Scholar和Consensus在內的幾個搜索引擎使用引用計數和影響因子等指標來確定排名,發表在著名期刊或引人注目的作品無論如何都會排在研究更相關的作品之前,從而產生了Weld所稱的“富者愈富效應”。(Consensus聯合創始人兼首席執行官Eric Olson表示,一篇論文與查詢的相關性始終是確定其排名的首要指標。)
這些引擎沒有明確將預印本標記為需要更嚴格審查的內容,并且將其與經正式同行評審的已發表論文一起顯示。而對于有爭議的問題,比如兒童疫苗是否導致自閉癥或人類是否對全球變暖,Consensus有時會返回延續錯誤或未經驗證的答案。對于這些充滿爭議的問題,Olson表示,團隊有時會手動審查結果并標記有爭議的論文。
然而,開發人員表示,最終驗證任何聲明是用戶的責任。這些平臺通常會標明何時進行beta測試,有些平臺還有標志指示論文的質量。除了一個“有爭議”的標簽外,Consensus目前正在開發一種方法來標注研究類型、參與者數量和資金來源,Elicit也有類似的功能。
但加拿大蒙特利爾的AI公司Hugging Face的科學家Sasha Luccioni警告說,一些AI公司過早的發布產品,是因為它們依賴用戶改進產品,這是科技初創企業界的常見做法,但與科學界不太契合。有些團隊不肯公開他們的模型,這使其很難通過倫理上審查。例如,Luccioni研究AI模型的碳足跡,但她表示很難獲得基本的數據,例如模型的大小或訓練期間的時間——“這些基本的東西并不會泄露任何機密”。而早期的Semantic Scholar等平臺會分享其基礎軟件,以便其他人可以在此基礎上進行開發(Consensus、Elicit、Perplexity、Connected Papers和Iris都使用Semantic Scholar語料庫),“現如今,公司不提供任何信息,所以這已經不再是科學的問題,而更多地成為了產品問題”。
對于Weld來說,這就更需要確保Semantic Scholar的透明度。“我確實認為人工智能發展很快,而‘讓我們領先于其他人’的動機可能會推動我們朝著危險的方向發展,”他說。“但我也認為人AI技術可以帶來巨大的益處。世界面臨的一些主要挑戰最好是通過真正充滿活力的研究計劃來解決的,這就是每天早上讓我充滿激情的原因——幫助提高科學家的生產力。”
參考文獻:
[1]. ?Ross, M. B. et al. Nature 608, 135–145 (2022).
[2]. ?Salazar , J. W. et al. JAMA Int. Med. 181, 1248–1251 (2021).
閱讀原文內容:
doi: https://doi.org/10.1038/d41586-023-01907-z
往期精品(點擊圖片直達文字對應教程)
機器學習