搜索問答技術概述：基于知識圖譜與MRC的創新應用

一、問答系統應用分析

二、搜索問答技術與系統

（一）需求和信息分析

問答需求類型

多樣的數據源

文本組織形態

（二）主要問答技術介紹

發展和成熟度分析

重點問答技術基礎：KBQA和DeepQA

KBQA（基于知識圖譜的問答）

DeepQA（深度問答）

機器閱讀理解（Machine Reading Comprehension，MRC）

（三）系統整體架構

三、KBQA：基于知識圖譜的問答系統

（一）圖譜數據與檢索

數據更新方向

直接三元組索引查詢

通過圖數據庫存儲檢索

（二）語義解析

（三）深度學習

擴展：漢語詩詞類、單實體類、多實體關系類

四、DeepQA：基于搜索+機器閱讀理解的問答系統

（一）基本背景分析

（二）短答案MRC

基本功能

面臨挑戰：搜索結果噪聲過多

面臨挑戰：答案出現常識性錯誤

面臨挑戰：魯棒性問題

面臨挑戰：答案歸一化和多span問題

（三）長答案MRC

基本功能

長答案MRC-組合式問答

長答案MRC-判斷類觀點問答

五、總結

主要學習資料

干貨分享，感謝您的閱讀！

在這個信息如洪水般涌來的時代，大家是否曾經有過這樣的體驗：在網上搜索一個問題，結果得到的信息比你家里打翻的書架還要雜亂無章？你想要一個簡單明了的答案，卻像是在尋找針掉進了大海。別擔心，我們不是要給你送來一艘救生艇，而是要帶你潛入深海，探索搜索問答技術的奇妙世界！

本文將為你揭開搜索問答的神秘面紗，帶你了解如何通過知識圖譜和機器閱讀理解（MRC）這兩位“智能助手”，將復雜的信息變得井井有條。就像你身邊的“超級無敵萬能學霸”，無論問題多刁鉆，它們都能幫你輕松搞定。準備好了嗎？讓我們一起開始這場信息尋寶之旅吧！背景：重點學習來源于QQ瀏覽器搜索中的智能問答技術

一、問答系統應用分析

問答的核心是通過理解語言和運用知識來進行提問和回答。從應用角度看，由于人類有獲取信息的需求和旺盛的好奇心，問答的場景無處不在；從研究角度看，問答是認知智能的前沿之一。問答系統在搜索中有廣泛的應用，它們可以提高信息檢索的效率和質量。以下是問答在搜索中的應用：

自然語言搜索： 傳統搜索引擎主要依賴于關鍵詞匹配，但自然語言搜索允許用戶提出問題，而不僅僅是關鍵詞。問答系統可以理解用戶的問題，并返回相關的答案，這提供了更直觀、準確的搜索體驗。
信息檢索： 問答系統可以根據用戶的問題提供相關的文檔、文章或網頁。它們可以分析問題并從大量文本數據中篩選出最相關的信息，幫助用戶更快速地找到他們需要的內容。
智能助手： 問答系統被用作虛擬助手，比如Siri、Google Assistant和Alexa。用戶可以通過語音提問，系統會理解問題并提供相應的答案或執行任務，如設置提醒、發送消息等。
知識圖譜： 問答系統被用于構建知識圖譜，這是一個結構化的知識數據庫，其中包含實體、屬性和關系。用戶可以通過問答來探索和查詢知識圖譜，以獲取相關信息。
專業領域搜索： 在專業領域，問答系統可以用于檢索專門領域的知識，如醫學、法律、科學等。這些系統可以幫助專業人士快速獲得專業領域的答案和信息。
智能客服： 問答系統被用于網站和應用的在線客服功能。它們可以回答常見問題，提供支持和解決問題，以減輕人工客服的負擔。
教育和培訓： 問答系統可以用于在線教育平臺，幫助學生提出問題并獲取關于課程內容的答案。它們還可以用于培訓材料的檢索和解釋。
社交媒體： 一些社交媒體平臺使用問答系統來推薦內容、回答用戶的問題，并提供個性化建議。
智能搜索引擎： 問答系統可以提高搜索引擎的智能程度，使其更好地理解用戶的意圖，提供更精確的搜索結果。

總之，問答系統在搜索中的應用為用戶提供了更智能、更個性化的信息檢索體驗，有助于滿足用戶的知識需求。這些系統利用自然語言處理和人工智能技術，不斷改進和擴展其功能，以適應不同領域和用戶需求。

二、搜索問答技術與系統

為滿足搜索中問答的需求，現代搜索引擎和問答系統需要結合自然語言處理、信息檢索和數據整合技術。它們必須能夠理解用戶問題、從各種數據源中檢索信息，分析和排名答案，并以用戶友好的方式呈現結果。這個領域的不斷發展和創新，旨在提供更準確、全面和個性化的搜索體驗。

（一）需求和信息分析

問答需求類型

25%的明確需求占比表明了用戶在搜索過程中經常需要具體的答案，而不僅僅是相關的文本或鏈接。這種需求可以涵蓋各種領域和問題類型，包括事實類問題（如"今天的天氣如何？"）和非事實類問題（如"如何減肥？"）。

多樣的數據源

問答系統需要訪問和整合多種數據源，包括網頁、UGC（用戶生成內容）和PGC（專業生成內容）。這意味著系統必須能夠檢索、理解和分析不同來源的信息以滿足用戶需求。

文本組織形態

數據的組織形態可以分為結構化、半結構化和無結構化。

不同類型的數據需要不同的處理方法。結構化數據，如知識圖譜，通常更容易處理，因為信息有明確的格式和關系。半結構化數據，如社區問答對，通常有一定的格式和模式，但可能不如結構化數據那么嚴格。無結構化數據，如普通網頁文本，最具挑戰性，因為信息通常以自由文本形式存在，需要自然語言處理技術來理解和提取信息。

（二）主要問答技術介紹

發展和成熟度分析

搜索中的問答技術一直處于不斷發展和成熟的階段，這是一個涵蓋多個領域的綜合性領域，包括自然語言處理、信息檢索、知識圖譜和機器學習。以下是搜索中問答技術的發展和成熟度的整體介紹：

總體而言，搜索中的問答技術在不斷演化，以滿足用戶對信息檢索的更高期望。它們結合了多個領域的知識和技術，包括自然語言處理、機器學習、知識圖譜等。未來，隨著技術的不斷發展，搜索中的問答技術將變得更加精確、全面和個性化，以滿足用戶的知識需求。

重點問答技術基礎：KBQA和DeepQA

KBQA和DeepQA是兩種不同類型的問答技術，它們分別用于處理不同種類的數據和問題需求。

KBQA（基于知識圖譜的問答）

數據類型： KBQA主要針對結構化數據，其基礎是離線構建的知識圖譜，其中包含實體、屬性和關系的信息。
工作流程： KBQA系統通過問題解析，將用戶提出的問題映射到知識圖譜上的實體、關系和屬性，然后執行圖譜查詢和推理，以獲取答案。
應用范圍： KBQA系統適用于事實類問題，因為知識圖譜主要包含關于實體之間的事實性信息，如"誰是美國第一位總統？"。

DeepQA（深度問答）

數據類型： DeepQA技術可以處理更廣泛的非結構化數據（半結構化和無結構化），包括各種文本來源，如網頁、文檔和用戶生成內容。
工作流程： DeepQA系統依賴離線構建的問答內容，使用機器學習和自然語言處理技術，通過搜索引擎獲取候選文檔，然后使用機器閱讀理解技術來抽取答案。
應用范圍： DeepQA技術更靈活，可以解決更多不同類型的問題需求，包括事實類問題和非事實類問題，因為它可以處理多樣性的文本數據。

在實際應用中，可以根據具體需求構建不同類型的DeepQA系統：

獨立檢索系統： 這種系統依賴于高質量的問答數據源，以提供準確的答案。它可以用于特定領域或垂直市場，以提供深度問題回答。
通用問答系統： 這種系統結合了在線搜索和機器閱讀理解技術，能夠處理廣泛的問題，通過搜索引擎獲得相關文檔，并從中提取答案。
端到端問答系統： 這種系統更為綜合，可以處理多模態輸入（如文本、圖片、語音），并提供更綜合的問題解答服務。

總之，KBQA和DeepQA都是重要的問答技術，它們分別適用于不同類型的數據和問題場景，以滿足用戶多樣化的信息需求。在實際應用中，可以根據需求選擇合適的技術和系統。

機器閱讀理解（Machine Reading Comprehension，MRC）

當涉及到深度問答（DeepQA）時，機器閱讀理解（Machine Reading Comprehension，MRC）是其中一個核心組成部分，因為它為系統提供了能力來理解文本并從中提取答案。以下是有關MRC的一些關鍵方面：

MRC的工作原理： MRC系統旨在使計算機能夠像人類一樣閱讀文本并回答問題。它們使用自然語言處理技術，將問題和文本進行匹配，然后定位并抽取文本中的答案。這通常涉及到命名實體識別、實體關系抽取、句法分析等技術。
訓練數據： MRC系統通常需要大量的標記數據，包括問題和對應的答案，以便進行機器學習。這些數據可以來自各種來源，包括人工標注的數據集和已有的文本文檔。
多樣性： MRC系統需要處理多樣性的文本，包括新聞文章、百科全書、科技文檔、小說等各種領域和風格的文本。
應用領域： MRC技術可應用于多個領域，包括搜索引擎、虛擬助手、教育、醫療保健、法律等。它們可以用于回答關于這些領域的問題，提供更好的信息檢索和交互體驗。
評估： MRC系統的性能通常使用標準的評估指標，如準確性、召回率、F1分數等來衡量。這些系統經常參與自然語言處理和機器學習競賽，如SQuAD（Stanford Question Answering Dataset）。

總的來說，MRC是深度問答系統中的一個關鍵組件，使系統能夠理解文本并提取答案，從而為用戶提供精確的問題回答。它是問答技術中的一個重要發展方向，將自然語言處理和信息檢索融合在一起，以改進搜索和問題解答的能力。

（三）系統整體架構

離線部分是問答內容的構建和理解，比如對專業生產內容做質量和權威性分析、從全網數據中進行問答對的挖掘和選取等；

數據源包括網頁庫、優質問答庫和知識圖譜；

在線部分包括搜索問答結果的召回和排序、段落匹配和答案抽取、知識圖譜檢索和推理計算等，以及問答融合決策從多源結果中決定最終展現給用戶的答案。

三、KBQA：基于知識圖譜的問答系統

（一）圖譜數據與檢索

圖譜問答系統的數據依據不同實體更新的要求分為三路，數據通過直接的三元組索引查詢或者圖數據庫存儲檢索系統應用。

數據更新方向

對于圖譜問答系統，數據更新通常可以分為以下三個主要方向：

自動更新： 這是一種基于自動化流程的數據更新方式，其中系統可以定期或實時地從各種數據源獲取信息，并將其整合到知識圖譜中。這可以包括爬蟲程序從互聯網上抓取新的信息，或從結構化數據源（例如數據庫）中自動更新知識圖譜。自動更新確保了知識圖譜的及時性和準確性。
半自動更新： 在這種方式下，數據更新涉及人工干預，但仍采用自動化工具來輔助。人類操作者可能需要審核、編輯或標注從外部源獲得的數據，以確保數據的質量和一致性。半自動更新方法通常用于需要高度精準性和可控性的知識圖譜。
手動更新： 手動更新是最傳統的數據更新方式，其中數據管理人員或領域專家負責手動添加、編輯和刪除知識圖譜中的實體和關系。手動更新通常用于小規模的知識圖譜或需要高度人工干預的情況，例如專業領域的圖譜。

這三種更新方式可以根據知識圖譜的規模、復雜性和數據源的特點選擇和組合。對于大規模知識圖譜，通常采用自動或半自動更新來確保及時性和數據完整性，而手動更新可能更適合小規模、專業領域或需要高度精準性的場景。

直接三元組索引查詢

直接使用三元組索引查詢知識圖譜的方式是知識圖譜問答系統中常見的數據檢索方式。在這種方法中，知識圖譜中的數據以三元組的形式存儲，每個三元組包含實體、屬性和值，例如 (巴黎, 是首都, 法國)。用戶提出問題時，系統會直接查詢這些三元組，以找到與問題相關的信息。這種方式的主要特點包括：

直接查詢： 查詢是基于三元組的實際數據，因此系統可以直接與知識圖譜中的實體和關系交互。
高度結構化： 由于數據以結構化形式存儲，這種方法適合于處理事實類問題，如 "法國的首都是什么？"。
高效性： 三元組索引通常可以實現高效的查詢，尤其是在知識圖譜數據的規模較小的情況下。

這種方法適用于需要高度結構化和精確答案的問題。然而，它可能不夠靈活，難以處理非結構化文本的問題，如用戶以自然語言形式提出的開放性問題。為了滿足更廣泛的問題需求，某些系統可能結合其他技術，如自然語言處理和機器閱讀理解，以在更復雜的情境中提供答案。

通過圖數據庫存儲檢索

數據存儲在圖數據庫中，并通過圖數據庫來進行檢索的方法，同時還應用了圖數據庫技術。這種方法在知識圖譜的構建和問答系統中相當常見。以下是一些相關特點：

圖數據庫存儲： 在這種方法中，知識圖譜的數據以圖形結構的方式存儲在專門的圖數據庫中。圖數據庫可以有效地表示實體、關系和屬性，以及它們之間的連接。
圖數據庫查詢： 當用戶提出問題時，系統可以使用圖數據庫的查詢語言來檢索相關的實體、關系和屬性。這通常涉及到圖的遍歷和查詢操作，以查找與問題相關的數據。
關系和推理： 圖數據庫允許進行復雜的關系分析和推理。系統可以通過圖數據庫來查找實體之間的路徑、計算關系的權重，甚至執行一些基本的推理操作。
適用性： 這種方法更適合需要處理復雜關系和多步問題的問答系統。它適用于專業領域、復雜推理和知識圖譜中的非平凡問題。
性能： 圖數據庫的性能通常較好，特別是當需要執行復雜的查詢和關系分析時。這使得它適用于大規模知識圖譜的情況。

通過將圖數據庫與知識圖譜問答系統相結合，系統能夠更有效地處理知識圖譜中的關系和實體，提供更復雜的問題解答服務。這種方法使得知識圖譜問答系統能夠進行高級的關系分析和推理，從而更全面地回答用戶的問題。

（二）語義解析

在線圖譜問答的流水線之一是語義解析的方法，系統先對查詢進行領域分類以裝配不同類型的處理流程（例如漢語詩詞類、單實體類、多實體關系類），然后對查詢進行語法樹分析和形式邏輯規約，在三元組中遞歸查詢和拼裝得到最終答案。該方法的優點是支持一些復雜的查詢推理，且在規則適用的范疇內準確率較高。

在線圖譜問答流水線涉及了多個關鍵步驟，包括領域分類、語法樹分析、形式邏輯規約和三元組查詢。這些步驟有助于系統理解用戶查詢并從知識圖譜中檢索相關信息以生成答案。以下是這些步驟的詳細解釋：

領域分類： 首先，系統對用戶的查詢進行領域分類。這是為了確定用戶查詢的主題或領域，以便裝配適當的處理流程。不同領域可能需要不同的處理方法，因此領域分類有助于系統選擇正確的處理策略。
語法樹分析： 一旦系統確定了查詢的領域，它會對用戶的查詢進行語法樹分析。這個步驟涉及將自然語言查詢分解成一個結構化的語法樹，其中包括詞匯、短語和語法關系。語法樹分析有助于系統理解查詢的結構和含義。
形式邏輯規約： 接下來，系統進行形式邏輯規約，將自然語言查詢轉化為邏輯表示。這有助于系統將用戶查詢與知識圖譜中的數據進行匹配。規約過程可以包括識別實體、屬性和關系，并將它們映射到知識圖譜中的對應項。
三元組查詢和拼裝： 一旦查詢被規約為邏輯表示，系統可以進行三元組查詢。這意味著系統會遞歸地查詢知識圖譜中的三元組，以找到與查詢匹配的數據。系統會檢索包含所需信息的三元組，然后逐步拼裝這些信息以生成最終答案。這可能涉及到多次查詢和關系的拼接。

整個流水線的目標是將用戶自然語言查詢轉化為結構化查詢，然后使用查詢引擎從知識圖譜中檢索相關信息，最終生成準確的答案。這種方法允許系統處理各種類型的查詢，包括事實類問題、關系查詢和復雜的問題需求。它結合了自然語言處理和知識圖譜檢索技術，以提供高效的問答服務。

（三）深度學習

另一種流水線是基于深度學習的方法，系統首先識別出具有問答意圖的查詢，然后通過深度模型識別查詢問題中的實體，對實體屬性和查詢表達進行深度語義匹配映射，計算出候選結果并進行清洗和排序得到答案。該方法的優點是對查詢語義理解較好，泛化性強，召回率較高。

這種基于深度學習的流水線方法是現代問答系統中的常見方式，它結合了自然語言處理和機器學習技術，以理解用戶的查詢并生成答案。以下是關于這一方法的詳細解釋：

識別問答意圖： 流水線的第一步是識別用戶查詢的意圖，以確定用戶是否正在尋找特定的答案或信息。這可以通過自然語言處理技術和深度學習模型來實現，例如遞歸神經網絡（RNN）或卷積神經網絡（CNN）。
實體識別： 一旦系統確定了用戶的意圖，它會使用深度學習模型來識別查詢中的實體。這可以包括命名實體識別（NER），其中系統嘗試標識出查詢中的特定名詞、地點、日期等。
深度語義匹配： 接下來，系統會進行深度語義匹配，以理解查詢中的實體、屬性和關系。這可能涉及到使用深度學習模型來將用戶查詢與知識圖譜中的數據進行語義匹配，以找到最相關的信息。
候選結果計算： 系統會計算候選結果，這些結果可能包括多個可能的答案。深度學習模型通常用于計算答案的置信度和相關性。
清洗和排序： 最后，系統會對候選答案進行清洗和排序，以確定最終的答案。這可以包括排除不相關的結果、處理模棱兩可的查詢和根據答案的可信度進行排序。

這種深度學習流水線方法允許系統自動從大規模的文本和知識庫中提取信息，以滿足用戶的需求。這種方法具有適應性，能夠處理各種查詢類型，包括事實類問題和非事實類問題，因為它強調了語義理解和深度匹配。深度學習模型通常需要大量的訓練數據和計算資源，以便在多樣化的查詢中表現良好。

擴展：漢語詩詞類、單實體類、多實體關系類

"漢語詩詞類"、"單實體類" 和 "多實體關系類" 是不同類型的查詢或問答類別，這些類別在問答系統中需要不同的處理方式：

漢語詩詞類： 這是一種問答類別，涉及回答與漢語詩歌和文學相關的問題。這些問題可能包括要求識別、解釋或引用古代或現代漢語詩歌的內容、作者和背景。對于漢語詩詞類問題，系統需要具有文學知識和文化理解能力，以回答與漢詩相關的問題。
單實體類： 單實體類問題是那些與單個實體（通常是一個名詞或專有名詞）相關的問題。這類問題可能包括實體的定義、屬性、特征或與實體相關的其他信息。例如，"巴黎是哪個國家的首都？" 是一個單實體類問題，其中實體是 "巴黎"。
多實體關系類： 多實體關系類問題涉及多個實體之間的關系或交互。這些問題可能需要系統理解和分析多個實體之間的關系，以提供答案。例如，"誰是巴黎的市長？" 是一個多實體關系類問題，其中涉及 "巴黎"（城市）和 "市長"（職位）之間的關系。

每種類別的問題都需要不同的處理策略和語義解析方法。對于漢語詩詞類問題，需要文學知識和語言處理技巧；對于單實體類問題，需要實體識別和屬性提取；對于多實體關系類問題，需要理解實體之間的關系和進行復雜的語義匹配。因此，問答系統需要能夠分類和處理這些不同類型的問題，以提供準確的答案。

四、DeepQA：基于搜索+機器閱讀理解的問答系統

（一）基本背景分析

早期的DeepQA系統具有非常復雜的流水線，例如IBM的Waston，以及2017年第一版“立知“問答。系統包括多個數據挖掘和機器學習模塊，在問題分析、答案候選的特征抽取、評分排序等諸多環節都可能有錯誤的傳播和積累，可擴展性不強。

2017年以后，斯坦福的陳丹琦等人提出了一個面向規模文檔集的開放域問答系統——DrQA，系統定義了一種新的開放域問答實現方式，即通過檢索和深度機器閱讀理解（MRC）產生答案。在SQuAD等公開數據集和評測的推動下，深度機器閱讀理解發展迅速，在查詢和文檔語義建模、上下文信息交互建模、答案抽取和預測方式建模上都不斷涌現新的方法，2019年機器閱讀理解系統甚至在事實類問答上超過了人類水平。

然而在真實的搜索場景中，DeepQA仍然面臨著很多挑戰。首先是用戶的需求紛繁復雜，表達方式也千差萬別，而互聯網數據規模巨大，需求檢索匹配的難度很大。其次是網頁數據多種多樣，頁面類型和格式繁多、質量參差、答案的形式不一，機器閱讀理解面臨較大的挑戰。

（二）短答案MRC

基本功能

短答案機器閱讀理解（MRC）任務的定義是從搜索結果的多個文檔中抽取唯一的答案片段，同時提供支持答案的文本來源。這一任務旨在讓機器理解自然語言問題，并從大規模文本語料庫中定位并提取與問題相關的答案片段，從而為用戶提供準確的答案，并展示答案來自哪些文本資源或文檔。短答案MRC任務通常用于評估機器理解自然語言的能力和信息檢索技術的效果。

面臨挑戰：搜索結果噪聲過多

噪聲包括不相關結果、不一致答案等。短答案抽取模型是一個多文檔段落抽取的模型，將搜索排名topN（常用N=10）的文檔段落輸入到BERT中進行表示建模，然后預測段落中答案的起始位置。

為了解決輸入文檔不相關的問題，將“答案存在性判別”和“答案起止位置預測”兩個目標進行聯合訓練；為了應對各文檔的答案不一致問題們加入了多文檔交互，將多個文檔中包含答案概率最大的片段拼接起來進行建模，信息融合之后再預測文檔包含答案的概率。

面臨挑戰：答案出現常識性錯誤

常識性錯誤即模型輸出無意義答案，例如邊界錯誤、答案類型錯誤。

優化做法是引入一些外部知識，例如百科、知識圖譜等，給候選文檔中符合答案類型的實體打上特殊的標記，在建模過程中加強對它們的關注。

面臨挑戰：魯棒性問題

魯棒性問題指的是由于過擬合導致模型輸出不穩定。Dropout是一種有效的減少過擬合的方式，但它的缺點是不能保持輸出的一致性。

優化應用了R-Drop，通過將Dropout作用于輸出層，降低了訓練和測試的不一致性，同時引入對稱KL散度作為正則項，增強了輸出的穩定性。在實驗過程中發現對輸出層使用兩次dropout效果較好。此外還對訓練數據進行了同語義問題的數據增強，加入相同語義query下的段落輸出部分的KL-Loss，增強了模型的穩定性。

面臨挑戰：答案歸一化和多span問題

在抽取式閱讀理解中，由于多文檔表述的不一致，往往會遇到答案歸一化的問題，比如“安全帶使用期限是幾年”的問題答案可能有“3到5年”、“3年至5年等”；而且還有答案并不是連續判斷，比如“沉魚落雁指的是誰”這個問題中，答案可能對應文檔中兩個片段（span）。為了解決上述問題，我們嘗試用生成式閱讀理解方法，以Fusion-in-Decoder（FiD）為例，將檢索得到的多文檔分別進行編碼表示，拼接起來輸入到decoder生成統一的答案。

實踐中利用大規模點擊日志文檔生成查詢進行預訓練，利用短答案日志構建大量弱監督數據進行自訓練，有效提升了生成式閱讀理解的效果。由于生成模型輸出的答案得分其實是語言模型的困惑度，不能很好地刻畫答案本身的置信度，我們訓練了一個生成答案的置信度預測模型，對答案輸出進行決策。

（三）長答案MRC

基本功能

長答案機器閱讀理解（MRC）任務類似于短答案MRC，但在答案的形式上有所不同。在長答案MRC任務中，系統需要從大規模文本語料庫中尋找較長的文本段落，而不僅僅是短答案片段。

具體來說，長答案MRC任務的定義如下：

長答案MRC任務是從一組文檔中，針對給定的自然語言問題，尋找并提取包含詳細信息、較長文本段落作為答案。這些文本段落通常包括更廣泛的背景信息，以回應問題，而不僅僅是簡短的答案片段。系統需要確定哪些段落包含與問題相關的信息，并將它們提供給用戶作為答案。

長答案MRC任務更側重于理解問題的上下文和信息背景，并從大規模文本語料庫中檢索和提取包含詳細信息的文本段落。這種任務在需要更詳細解釋和推理的問題情境中非常有用，例如提供關于某一主題的全面解釋或包含多個方面的答案。長答案MRC任務通常要求系統在更廣泛的文本背景中查找答案，這對于信息檢索和自然語言理解領域的進展具有重要意義。

長答案MRC-組合式問答

針對長答案包含信息量大、不連續的特點，提出了一種“組合式問答”的任務形式：從搜索結果的單個文檔中抽取出一組片段來合成精選摘要答案。任務輸入為給定問題和文檔的完整片段組合，輸出為答案片段組合。評價方式為片段預測的F1和人工評價相結合。

組合式問答模型的整體框架基于BERT，輸入是問題和進行了啟發式分句的文檔句子序列，輸出是每個句子是否是答案的概率。引入了兩個非常有用的設計，具體見參考文章即可：

第一個是引入頁面的結構信息。由于網頁的HTML能夠一定程度上反映頁面結構、文本關聯以及展示內容的重要度等特征，我們選擇了部分網頁標簽作為符號輸入到模型中。
第二個是引入針對性的預訓練任務。—般預訓練都是建模句子級別的關系，沒有有效挖掘文檔結構的信息；我們引入了兩類相關的預訓練任務，一類是問題選擇（QS），即隨機替換一個問題并預測；另一類是節點選擇（NS），可以對句子和符號進行隨機替換或打亂順序。這樣的預訓練任務可以讓模型更深刻地理解問題和長文本的內容。

長答案MRC-判斷類觀點問答

對于判斷類觀點問答任務，考慮到用戶不會僅僅滿足于論斷，而會更關心論據，設計了一個模型，首先抽取能夠回答問題的長答案，即論據，然后根據該論據做論斷的分類，產生一個短答案。

模型的整體結構是基于長答案模型結構的改進，在抽取長答案的同時，將query、title和長答案抽取過程中最高概率答案句拼接起來輸入判斷模塊。通過論據抽取和論點分類兩個目標的聯合學習，模型可以解決短答案抽取無法解決的問題。比如在下圖的例子中，對于“把兔子關在籠子里好嗎”這個問題，短答案抽取并不能直接抽取出“好”或者“不好”的答案片段，而通過分類可以知道它是一個否定的回答。