AI搜索引擎助力科學家創新

開發者希望通過幫助科學家從大量文獻中發現聯系從而解放科學家,讓他們專注于發現和創新。

f7aceee6385ffdc0e200d4cc39a0512f.png

圖片來源:The Project Twins

對于專注于歷史的研究者Mushtaq Bilal來說,他在未來科技中投入了大量時間。

Bilal在丹麥南部大學( University of Southern Denmark )歐登塞分校做博士后,他的研究方向為19世紀文學中小說的演變。然而,最有影響力的是他的在線教程,他在其中作為學術界和利用人工智能(AI)迅速擴張的搜索工具之間的非正式大使。

多年來,借助于文學背景,Bilal一直在解構學術寫作的過程,但現在他的工作已經有了新方向。他說:“去年11月ChatGPT出現時,我意識到可以使用不同的AI應用程序實現許多寫作步驟的自動化。”

由機器學習和大型語言模型驅動的新一代搜索引擎正在超越關鍵字搜索,從科學文獻錯綜復雜的網絡中提取并建立關聯關系。一些程序,如Consensus,可對是非問題給出基于研究背景的答案;其他程序,如Semantic Scholar,Elicit和Iris,僅能充當數字化助手,如整理參考目錄,推薦新的論文和生成研究摘要等。整體上,這些平臺為寫作早期提供了便利。然而,批評家指出,這些程序尚未通過測試,有可能會延續學術出版過程中存在的偏差。

工具開發團隊表示,這些工具是為了應對“信息過載”(information overload),釋放科學家們的創造性。華盛頓州西雅圖的艾倫人工智能研究所(Allen Institute for Artificial Intelligence )的Daniel Weld和Semantic Scholar的首席科學家表示,科學知識的增長速度如此之快,以至于科學家幾乎不可能掌握最新的研究進展。“大多數搜索引擎會幫你找到論文,但需要你自己嘗試獲取其中的信息。”他說。AI工具可將論文精煉為關鍵點從而有助于使這些信息更易于獲取,Weld說。“我們都是Google Scholar的忠實粉絲,我仍然覺得它很有幫助,但我們可以做得更好。”

## 下一個偉大的想法

做得更好的關鍵在于另一種類型的搜索。Google Scholar,PubMed和其他標準搜索工具使用關鍵字來定位相似的論文。相比之下,AI算法使用向量比較。論文被翻譯成一組數字,稱為向量,其在“向量空間”中的接近程度對應于它們的相似性。“我們可以解析搜索查詢的更多含義,因為向量中嵌入的上下文信息比文本本身嵌入的更多。”,位于加利福尼亞州舊金山的Consensus的首席軟件工程師Megan Van Welie解釋說。

Bilal使用AI工具跟蹤論文之間的聯系,進入了有趣的兔子洞。在研究巴基斯坦小說中對穆斯林的描述時,基于他的搜索,AI生成的推薦引導Bilal走向孟加拉文學,并在他的論文中闡述了這部分內容。博后期間,Bilal專注于研究安徒生童話在印第安殖民地是如何被解釋的。“所有花在孟加拉文學史上的時間都涌了回來,”他說。Bilal使用Elicit來迭代和完善他的問題,利用Research Rabbit識別來源,Scite(它不僅告訴用戶論文被引用的頻率,還會指出施引論文中的具體內容)來跟蹤學術論著。

位于倫敦衛生與熱帶醫學學院的岡比亞醫學研究委員會單位疫苗學團隊的研究技術員Mohammed Yisa關注了Bilal的Twitter(現在稱為X),有時Yisa會花時間測試Bilal推文中提到的平臺。

Yisa特別喜歡使用Iris,這是一個創建類似地圖的可視化搜索引擎,將論文與主題相連接。將“種子論文”輸入到Iris中會生成一個相關出版物的嵌套地圖,類似于世界地圖。點擊地圖的深層部分就像從全國范圍的視圖縮放到州(子主題)和城市(個別論文)。

Yisa表示:“我認為自己是一個視覺學習者,地圖可視化是我以前從未見過的。”他目前正在使用這些工具識別關于疫苗公平性的綜述性文章,“看看誰現在在談論它,正在說什么,以及什么還沒有被提到”。

其他工具,如Research Rabbit和LitMaps,通過節點的網絡映射將論文連接在一起。一款針對醫療專業人士的搜索引擎System Pro,創建了類似的可視化效果,主題之間通過相關性連接在一起。

盡管這些搜索依賴于“提取算法”( extractive algorithms)來提取有用的片段,但一些平臺正在推出生成式功能,使用AI創建原始文本。例如,艾倫研究所的Semantic Reader“將AI引入到PDF手稿的閱讀體驗中”,Weld說。如果用戶在方程式中遇到一個符號或者在文中引用,會彈出一個卡片,顯示符號的定義或引用論文的AI生成摘要。

Elicit正在測試用于生成更好查詢的頭腦風暴功能以助于創建一種比前四個搜索結果更好且提供多論文摘要的方式。該方法使用了Open AI的ChatGPT,但只在科學論文上進行了訓練,因此與基于整個互聯網的搜索相比,它對于“幻覺”(生成的文本中看似正確但實際上不準確的錯誤)的容忍度較低,Ought公司的工程主管James Brady解釋說。“如果你正在發表與你的聲譽有關的聲明,科學家們希望得到更可靠、可以信任的信息。”

尼日利亞伊巴丹大學的生物醫學研究員Miles-Dei Olufeagba仍然認為PubMed是金標準,稱其為“醫學科學家的避難所”。Olufeagba嘗試過Consensus、Elicit和Semantic Scholar。他表示,來自PubMed的結果可能需要更多時間來整理,但最終會找到更高質量的論文。他說,AI工具“往往會丟失一些對文獻檢索至關重要的信息”。

AI工具可以幫助研究者更深入地挖掘文獻,找到新的研究前沿。然而,這類工具也存在一些問題。首先,它們可能會復制和放大現有的偏見。例如,如果AI工具主要依賴于英語的研究文獻,那么它可能會忽視非英語的研究成果。此外,如果機器學習模型主要是根據西方的研究文獻訓練的,那么它可能偏向于西方的觀點和方法。其次,這些工具可能會過度簡化復雜的科學論文,從而導致誤解或誤導。

盡管存在這些問題,但許多研究者還是看好這些工具的潛力。Bilal表示,盡管他注意到了一些限制,但他仍然覺得這些工具對他的研究非常有幫助。他說:“我覺得這是一種力量,可以幫助我提高效率,更好地理解我正在閱讀的內容,找到新的聯系。”

早期階段

AI平臺也容易出現與其人類創建者相同的偏見。研究反復證明學術出版和搜索引擎在某些群體(包括女性[1]和有色人種[2])方面呈現劣勢,這些劣勢也在存在于AI工具。

例如,帶有重音字符的名字的科學家們描述了使用Semantic Scholar創建個人資料的困難。并且,由于包括Semantic Scholar和Consensus在內的幾個搜索引擎使用引用計數和影響因子等指標來確定排名,發表在著名期刊或引人注目的作品無論如何都會排在研究更相關的作品之前,從而產生了Weld所稱的“富者愈富效應”。(Consensus聯合創始人兼首席執行官Eric Olson表示,一篇論文與查詢的相關性始終是確定其排名的首要指標。)

這些引擎沒有明確將預印本標記為需要更嚴格審查的內容,并且將其與經正式同行評審的已發表論文一起顯示。而對于有爭議的問題,比如兒童疫苗是否導致自閉癥或人類是否對全球變暖,Consensus有時會返回延續錯誤或未經驗證的答案。對于這些充滿爭議的問題,Olson表示,團隊有時會手動審查結果并標記有爭議的論文。

然而,開發人員表示,最終驗證任何聲明是用戶的責任。這些平臺通常會標明何時進行beta測試,有些平臺還有標志指示論文的質量。除了一個“有爭議”的標簽外,Consensus目前正在開發一種方法來標注研究類型、參與者數量和資金來源,Elicit也有類似的功能。

但加拿大蒙特利爾的AI公司Hugging Face的科學家Sasha Luccioni警告說,一些AI公司過早的發布產品,是因為它們依賴用戶改進產品,這是科技初創企業界的常見做法,但與科學界不太契合。有些團隊不肯公開他們的模型,這使其很難通過倫理上審查。例如,Luccioni研究AI模型的碳足跡,但她表示很難獲得基本的數據,例如模型的大小或訓練期間的時間——“這些基本的東西并不會泄露任何機密”。而早期的Semantic Scholar等平臺會分享其基礎軟件,以便其他人可以在此基礎上進行開發(Consensus、Elicit、Perplexity、Connected Papers和Iris都使用Semantic Scholar語料庫),“現如今,公司不提供任何信息,所以這已經不再是科學的問題,而更多地成為了產品問題”。

對于Weld來說,這就更需要確保Semantic Scholar的透明度。“我確實認為人工智能發展很快,而‘讓我們領先于其他人’的動機可能會推動我們朝著危險的方向發展,”他說。“但我也認為人AI技術可以帶來巨大的益處。世界面臨的一些主要挑戰最好是通過真正充滿活力的研究計劃來解決的,這就是每天早上讓我充滿激情的原因——幫助提高科學家的生產力。”

參考文獻

[1]. ?Ross, M. B. et al. Nature 608, 135–145 (2022).

[2]. ?Salazar , J. W. et al. JAMA Int. Med. 181, 1248–1251 (2021).

閱讀原文內容

doi: https://doi.org/10.1038/d41586-023-01907-z

往期精品(點擊圖片直達文字對應教程)

3e0b800bcf53f37c893cc58816a096ac.jpeg

2d4f9f3030c6b655c6a525293b4ce97c.jpeg

2d9d2d68a587fbc9a524d8f5ff0ecf3b.jpeg

4564326ed8c3268585d10b11390eeff7.jpeg

d2b4d6afff7831ff7436c9c1a13e604f.jpeg

5aefda23c956babdc88aa7a7cee103ed.jpeg

90e121ceefce164c0fac57a8503d94eb.jpeg

3a9273dae0c55e13a9e577f64d5960bc.jpeg

0f3c66a2633da75e09c5db4f054dfb6a.jpeg

12f21091a4f2f2525c0468ef24709fe9.jpeg

24013c8c1435cdb66efb7007b2a2ac59.jpeg

bde5fd72c5ebc29ac577aa3c529823a5.jpeg

cfb02dc1c6da0404f62af6ad24f150dc.png

629ad0f4accf55d30d058628fb2ef8f3.png

9c3e3b03bc75e54a3a9f3c87cdbbf257.png

cb9dee2fd112fd83ae0a607c81580b34.png

3ffa4b67530209847ab1dc1c8295d6dc.jpeg

f5a63e15ee3db24d78c4aefc0f20a5fd.jpeg

99ea993e4e314c6a929ca3e7b1c13cea.jpeg

736d5dc0b43e0204229f5822cdd8c3f6.jpeg

edfd97ccfff0693724cb2f64eb4c7fad.png

9451cc04b5be2d8677bb9cfd9210eaa8.png

8783320b8e13c5f7bb4634158bd7be9f.jpeg

425a489ec2a81149dc5001f4f2496545.png

3bb58d71a4fb4c5ba1b3541eaa51414b.png

aa93fc686f30611de2f83f9c4610e122.jpeg

a81583bf40e3d9e99bd00b33d3f25e02.png

7ad41933e0ad8a4224990db7ec0f61f3.png

機器學習

28e5b4deb441376c700b269a8d564f56.png

e75074196c8f600e1ec52c00ed0c0bf9.jpeg

0e03e044407e0b09dfb2cefb77e3e93b.jpeg

5872267c8050a5d4a13087e632495e04.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/42979.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/42979.shtml
英文地址,請注明出處:http://en.pswp.cn/news/42979.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

預訓練GNN:GPT-GNN Generative Pre-Training of Graph Neural Networks

一.文章概述 本文提出了一種自監督屬性圖生成任務來預訓練GNN,使得其能捕圖的結構和語義屬性。作者將圖的生成分為兩個部分:屬性生成和邊生成,即給定觀測到的邊,生成節點屬性;給定觀測到的邊和生成的節點屬性&#xf…

自動駕駛港口車輛故障及事故處理機制

1、傳感器故障: (1)單一傳感器數據異常處理。自動駕駛電動平板傳感方案為冗余設置,有其他傳感器能夠覆蓋故障傳感器觀測區域,感知/定位模塊將數據異常情況發給到規劃決策模塊,由“大腦”向中控平臺上報故障…

視頻集中存儲/云存儲/磁盤陣列EasyCVR平臺接入RTSP設備出現離線情況的排查

安防視頻監控/視頻集中存儲/云存儲/磁盤陣列EasyCVR平臺可拓展性強、視頻能力靈活、部署輕快,可支持的主流標準協議有國標GB28181、RTSP/Onvif、RTMP等,以及支持廠家私有協議與SDK接入,包括海康Ehome、海大宇等設備的SDK等。平臺既具備傳統安…

QT處理日志文件

由于實際生產需要,軟件系統的運行,會產生大量的日志文件,有時候一天就能產生超過百萬條log記錄,那么為了能夠處理日志文件,查詢并且找到我們想要的報錯信息,因此不得不考慮怎么實現,打開大日志文…

ARM--day2(cpsr、spsr、數據搬移指令、移位操作指令、位運算操作指令、算數運算指令、比較指令、跳轉指令)

.text .global _gcd _gcd:mov r0,#9mov r1,#15b loop loop:cmp r0,r1beq stopsubhi r0,r1bhi loopsubcc r1,r0bcc loopstop:b stop.end用for循環實現1~100之間和5050 .text .global _gcd _gcd:mov r0,#0x0mov r1,#0x1mov r2,#0x64b loop loop:cmp r1,r2bhi stopadd r0,r0,r1ad…

【Unity】坐標轉換經緯度方法(應用篇)

【Unity】坐標轉換經緯度方法(應用篇) 解決地圖中經緯度坐標轉換與unity坐標互轉的問題。使用線性變換的方法,理論上可以解決小范圍內所以坐標轉換的問題。 之前有寫過[Unity]坐標轉換經緯度方法(原理篇),在實際使用中&#xff0c…

R語言實現免疫浸潤分析(2)

原始數據承接免疫浸潤分析&#xff08;1&#xff09;&#xff0c;下面展示免疫浸潤結果&#xff1a; #直接使用IOBR包內的cell_bar_plot pic<-cell_bar_plot(input quantiseq_immo_de[1:20,], title "quanTiseq Cell Fraction") #使用ggplot2 library(ggplot2)…

大疆飛卡30運載無人機技術分享

大疆飛卡30是大疆公司面向運輸領域推出的一款專業運載無人機。它采用了優秀的設計,裝備了多種先進傳感器,以解決運輸中的難題。以下我們來了解一下其主要特點: 【應用領域】 飛卡30適用于山地救災、農業化肥施用、工程材料運送等交通不便的山區應用,也適用于海島聯通等運輸鏈…

管理類聯考——邏輯——真題篇——按知識分類——匯總篇——二、論證邏輯——削弱——第一節 推理論證

文章目錄 第七章 削弱質疑第一節 削弱-題型1-推理論證-論證為預測結果題-削弱質疑-預測-推理論證-分類1-削弱論點真題(2019-24)-削弱質疑-預測-推理論證-分類1-削弱論點真題(2019-42)-削弱質疑-預測-推理論證-分類1-削弱論點真題(2011-32)-削弱質疑-預測-推理論證-分類…

機器學習基礎之《分類算法(3)—模型選擇與調優》

作用是如何選擇出最好的K值 一、什么是交叉驗證&#xff08;cross validation&#xff09; 1、定義 交叉驗證&#xff1a;將拿到的訓練數據&#xff0c;分為訓練和驗證集。以下圖為例&#xff1a;將數據分成5份&#xff0c;其中一份作為驗證集。然后經過5次(組)的測試&#x…

通過請求頭傳數據向后端發請求

axios &#xff08;get post請求、頭部參數添加&#xff09;傻瓜式入門axios_axiospost請求參數_web_blog的博客-CSDN博客

ByteBuffer 使用

ByteBuffer 使用 1 java.nio包中的類定義的緩沖區類型2 緩沖區常用屬性2.1緩沖區的容量(capacity)2.2 緩沖區的位置(position)2.3 緩沖區的限制(limit)2.4 緩沖區的標記(mark)2.5 剩余容量 remaining/hasRemaining 3 緩沖區常用方法3.1 創建緩沖區3.1.1 allocate方法3.1.2 wrap…

【mybatis】mapper.xml中foreach的用法,含批量查詢、插入、修改、刪除方法的使用

一、xml文件中foreach的主要屬性 foreach元素的屬性主要有 collection&#xff0c;item&#xff0c;index&#xff0c;separator&#xff0c;open&#xff0c;close。 collection: 表示集合&#xff0c;數據源 item &#xff1a;表示集合中的每一個元素 index &#xff1a;用于…

blender 發射體粒子

發射體粒子的基礎設置 選擇需要添加粒子的物體&#xff0c;點擊右側粒子屬性&#xff0c;在屬性面板中&#xff0c;點擊加號&#xff0c;物體表面會出現很多小點點&#xff0c;點擊空格鍵&#xff0c;粒子會自動運動&#xff0c;像下雨一樣&#xff1b; bender 粒子系統分為兩…

【100天精通python】Day40:GUI界面編程_PyQt 從入門到實戰(完)_網絡編程與打包發布

目錄 8 網絡編程 8.1 使用PyQt 網絡模塊進行網絡通信 服務器端示例 客戶端示例 8.2 處理網絡請求和響應 9 打包和發布 9.1 創建可執行文件或安裝程序 9.2 解決依賴問題 9.3 發布 PyQt 應用到不同平臺 9.3.1 發布到 Windows 9.3.2 發布到 macOS 9.3.3 發布到 Linux 9…

sap ui5刷新頁面的方式

1.第一種 window.location.reload();2.第二種 如果你想在UI5應用程序中使用MVC模式來處理頁面刷新,可以通過重新加載當前路由來實現刷新。首先,確保你有一個Router對象實例: var oRouter = sap.ui.core.UIComponent.getRouterFor(this);然后&

[保研/考研機試] KY43 全排列 北京大學復試上機題 C++實現

題目鏈接&#xff1a; 全排列https://www.nowcoder.com/share/jump/437195121692001512368 描述 給定一個由不同的小寫字母組成的字符串&#xff0c;輸出這個字符串的所有全排列。 我們假設對于小寫字母有a < b < ... < y < z&#xff0c;而且給定的字符串中的字…

Docker vs. Kubernetes:選擇合適的場景

在決定使用 Docker 還是 Kubernetes 之前&#xff0c;讓我們看看一些實際的場景&#xff0c;以便更好地理解它們的適用性。 使用 Docker 的場景 假設您正在開發一個微服務應用程序&#xff0c;其中每個微服務都需要一些特定的依賴項和環境。在這種情況下&#xff0c;Docker 是一…

HJ6 質數因子

描述 功能:輸入一個正整數&#xff0c;按照從小到大的順序輸出它的所有質因子&#xff08;重復的也要列舉&#xff09;&#xff08;如180的質因子為2 2 3 3 5 &#xff09; 數據范圍&#xff1a; 1≤n≤210914 1≤n≤210914 輸入描述&#xff1a; 輸入一個整數 輸出描述&…

學習Vue:聲明式路由和程序式路由

在Vue.js中&#xff0c;路由與導航是構建單頁應用程序&#xff08;SPA&#xff09;的關鍵概念。在使用Vue Router時&#xff0c;您可以使用兩種方式來進行路由與導航&#xff1a;聲明式路由和程序式導航。本文將詳細介紹這兩種方式&#xff0c;幫助您理解它們的用法和優勢。 聲…