論文《learning to link with wikipedia》

learning to link with wikipedia

一、本文目標:

???????? 如何自動識別非結構化文本中提到的主題,并將其鏈接到適當的Wikipedia文章中進行解釋。

?

二、主要借鑒論文:

???? Mihalcea and Csomai----Wikify!: linking documents to encyclopedic knowledge

???????? 第一步:detection(identifying the terms and phrases from which links should be made):

link probabilities:它作為錨的維基百科文章數量,除以提及它的文章數量。

?????? 第二步:disambiguation:從短語和上下文的單詞中提取特征。

??????

???? Medelyan et al.---- Topic Indexing with Wikipedia.

???????? Disambiguation:

Balancing the commonness (or prior probability) of each sense and how the sense relates to its surrounding context.

?

?

?

三、兩大步驟:link disambiguation and link detection

Link disambiguation:

????? Commonness and Relatedness

  1.The commonness of a sense is defined by the number of times it is used as a destination in Wikipedia.

?

  2.Our algorithm identifies these cases by comparing each possible sense with its surrounding context. This is a cyclic problem because these terms may also be ambiguous

????????

???????? where a and b are the two articles of interest, A and B are the sets of all articles that link to a and b respectively, and W is set of all articles in Wikipedia.

????????

????? Some context terms are better than others

???????? 1.單詞The是明確的,因為它只用于鏈接到文章的語法概念,但是對于消除其他概念的歧義,它沒有任何價值。

?????? link probability 可以解決這個問題。很多文章提到the,但沒有把它作為鏈接使用。

  2. 許多上下文術語都是與文檔的中心無關的. 我們可以使用Relatedness的度量方法,通過計算一個術語與所有其他上下文術語的平均語義關聯,來確定該術語與這個中心線程的關系有多密切。

  

  These two variables—link probability and relatedness—are averaged to provide a weight for each context term.

????????

????? Combining the features

圖中,大多關于“樹”是與本文是不相關的,因為該文檔顯然是關于計算機科學的。如果在上下文不明確或混淆的情況下,則應選擇最常用。這在大多數情況下都是正確的。

?????? 引入最后一個feature: context quality

???????? This takes into account the number of terms involved, the extent they relate to each other, and how often they are used as Wikipedia links.

????????

???????? the commonness of each sense,its relatedness to the surrounding context,context quality

這三個feature來訓練一個分類器。

注:這個分類器并不是為每一項選擇最好的詞義,而是獨立考慮每一種候選,并產生它的概率。

????????

?

???????? 訓練階段需要考慮的問題:參數,分類器。

?????????????????? 參數:specifies the minimum probability of senses that are considered by the algorithm.

??????????????????????????? ---- 2%

?????????????????? 分類器:C4.5

?

????????

?

link detection:

link detection首先收集文檔中的所有n-grams,并保留那些概率超過非常低的閾值(這用于丟棄無意義的短語和停止詞)。使用分類器消除所有剩余短語的歧義。

?

?

1.會有幾個鏈接與之相關的情況。就像Democrats and Democratic Party的情況一樣。

? 2.如果分類器發現多個可能的情況,術語可能指向多個候選。例如,民主黨人可以指該黨或任何民主的支持者。

Features of these articles are used to inform the classifier about which topics should and should not be linked:

Link Probability

Mihalcea and Csomai’s link probability to recognize the majority of links

???????? 引入兩個feature: the average and the maximum

???????? the average: expected to be more consistent

???????? the maxinum: be more indicative of links

比如:Democratic Party 比 the party 有更高的鏈接可能性。

Relatedness

此文中,讀者更可能對克林頓、奧巴馬和民主黨感興趣,而不是佛羅里達州或密歇根州。

希望與文檔中心線相關的主題更有可能被鏈接。

引入feature: ?the average relatedness

between each topic and all of the other candidates.

Disambiguation Confidence

使用分類器的結果作為置信度。

引入兩個feature: average and maximum values

Generality

對于讀者來說,為他們不知道的主題提供鏈接要比為那些不需要解釋的主題提供鏈接更有用。

為一個鏈接定義一個generality表示它位于Wikipedia類別樹中的最小深度。

通過從構成Wikipedia組織層次結構根的基本類別開始執行廣度優先搜索來計算。

Location and Spread

? ? ? ? ?三個feature: Frequency ??????? first occurrence??????? last occurrence

???????? 第一次和最后一次出現的距離用于體現文檔討論主題的一致性。????????

?

  訓練階段唯一要配置的變量是初始鏈接概率閾值,用于丟棄無意義的短語和停止單詞。

???????? --6.5%

?

四.WIKIFICATION IN THE WILD

???????? Data: Xinhua News Service, the New York Times, and the Associated Press.

????????

?

????????

?

轉載于:https://www.cnblogs.com/dhName/p/11078596.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/247714.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/247714.shtml
英文地址,請注明出處:http://en.pswp.cn/news/247714.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java類的結構:構造器 —(13)

1.構造器(或構造方法):Constructor 構造器的作用: 1.創建對象2.初始化對象的信息 2.使用說明: 1.如果沒顯式的定義類的構造器的話,則系統默認提供一個空參的構造器2.定義構造器的格式:權限修…

java面向對象的特征二:繼承性 —(14)

1.為什么要有類的繼承性?(繼承性的好處) ① 減少了代碼的冗余,提高了代碼的復用性② 便于功能的擴展③ 為之后多態性的使用,提供了前提 圖示: 2.繼承性的格式: class A extends B{} A:子類、派生類、s…

vuejs怎么在服務器上發布部署

首先VUE 是一個javascript的前端框架,注定了它是運行在瀏覽器里的,對服務器本地沒有任何要求,只要一個靜態文件服務器能通過http訪問到其資源文件就足矣!無論你是用apache ,ngnix 就算你要用node 自己實現一個靜態文件服務器&…

C#入門詳解(14)

接口,依賴反轉,單元測試 接口是協約是規定,所以必須是公開的,只能是public; static void Main(string[] args){int[] num1 new int[] { 1, 2, 3, 4, 5 };Console.WriteLine(Sum(num1).ToString());Console.WriteLine(""…

SpringBoot操作MongoDB實現增刪改查

本篇博客主講如何使用SpringBoot操作MongoDB。 SpringBoot操作MongoDB實現增刪改查 &#xff08;1&#xff09;pom.xml引入依賴 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-mongodb</artifac…

java面向對象的特征三:多態性 —(15)

1.多態性的理解&#xff1a;可以理解為一個事物的多種形態。 2.何為多態性&#xff1a; 對象的多態性&#xff1a;父類的引用指向子類的對象&#xff08;或子類的對象賦給父類的引用&#xff09; 舉例&#xff1a; Person p new Man(); Object obj new Date(); 3.多態性的…

vue 中$index $key 已移除

之前可以這樣: 123456<ulid"example"><liv-for"item in items">{{$index}}{{$key}}</li></ul>現在已經移除,如果還用的話就會報錯:Uncaught ReferenceError: $index is not defined; 現在這樣寫: 123456<ul id"example&qu…

vue-resource全攻略

Vue.js——vue-resource全攻略 概述 上一篇我們介紹了如何將$.ajax和Vue.js結合在一起使用&#xff0c;并實現了一個簡單的跨域CURD示例。Vue.js是數據驅動的&#xff0c;這使得我們并不需要直接操作DOM&#xff0c;如果我們不需要使用jQuery的DOM選擇器&#xff0c;就沒有必要…

java面向對象:關鍵字 —(16)

static:靜態的 1.可以用來修飾的結構&#xff1a;主要用來修飾類的內部結構 屬性、方法、代碼塊、內部類 2.static修飾屬性&#xff1a;靜態變量&#xff08;或類變量&#xff09; 2.1 屬性&#xff0c;是否使用static修飾&#xff0c;又分為&#xff1a;靜態屬性 vs 非靜態…

《少年先瘋隊》第九次團隊作業:Beta沖刺與團隊項目驗收

博文簡要信息表&#xff1a; 項目內容軟件工程https://www.cnblogs.com/nwnu-daizh/本次實驗鏈接地址https://www.cnblogs.com/nwnu-daizh/p/11056511.html團隊名稱少年先瘋隊作業學習目標&#xff08;1&#xff09;掌握軟件黑盒測試技術&#xff1b;&#xff08;2&#xff09;…

vue-resource jsonp跨域問題解決方法

最近在學習vue.js 碰到個ajax跨域請求的問題&#xff0c;之前知道可以用jsonp解決&#xff0c;但是一直沒實踐過&#xff0c;這次用發現里面好多問題&#xff0c;所以現在記錄下來&#xff0c;希望可以給剛接觸使用jsonp的同學一點幫助&#xff01; 關于什么是jsonp&#xff0c…

虛擬機無法連接至網絡

問題&#xff1a; 虛擬機中的win XP系統無法連接至外部win10系統網絡 嘗試解決方法&#xff1a; 1&#xff09;換用橋接模式和NAT模式&#xff0c;無效 2&#xff09;恢復虛擬機網絡屬性至默認狀態&#xff0c;無效 最終解決方法&#xff1a; 換用外部無線網絡&#xff0c;即能…

java面向對象:關鍵字 —(17)

interface:接口 1.使用說明&#xff1a; 1.接口使用interface來定義 2.Java中&#xff0c;接口和類是并列的兩個結構3.如何定義接口&#xff1a;定義接口中的成員 3.1 JDK7及以前&#xff1a;只能定義全局常量和抽象方法>全局常量&#xff1a;public static final的.但是…

原生js來實現對dom元素class的操作方法

jQuery操作class的方式非常強大 寫了一個利用原生js來實現對dom元素class的操作方法 1.addClass:為指定的dom元素添加樣式 2.removeClass:刪除指定dom元素的樣式 3.toggleClass:如果存在(不存在)&#xff0c;就刪除(添加)一個樣式 4.hasClass:判斷樣式是否存在 下面為一toggleC…

python+selenium配置Edge瀏覽器

Chrome, Firefox只需要修改conftest.py文件中的 pytest.fixture(scopesession)def browser(): return BzwUtil.read_yml(config.yml,WEB_INFO,BROWSER) add option in pytest command line def pytest_addoption(parser): parser.addoption("--browser", actio…

JSON.parse和JSON.stringify方法

JSON.parse() JSON.parse()方法將json字符串轉化為Javascript值或對象。 語法 JSON.parse(text[,reviver]) 參數 text:要被解析成Javascript值的字符串 reviver:若是一個函數則規定了原始值(text)如何被解析改造&#xff0c;在被返回前。 示例 JSON.parse({}); //…

java面向對象:異常處理 —(18)

1. 異常的體系結構 java.lang.Throwable |-----java.lang.Error:一般不編寫針對性的代碼進行處理。|-----java.lang.Exception:可以進行異常的處理|------編譯時異常(checked)|-----IOException|-----FileNotFoundException|-----ClassNotFoundException|------運行時異常(un…

vue請求簡單配置

簡單記錄一下vue的http請求配置相關 測試環境請求接口設置:   1. config/dev.env.js添加&#xff1a;     module.exports merge(prodEnv, {       NODE_ENV: "development",       API_ROOT: "http://", //配置http請求頭     })…

【vue報錯】——listen EADDRINUSE :::8080 解決方案

問題原因&#xff1a; 此項錯誤表示 8080 端口被占用 解決方案一&#xff1a; 打開cmd 輸入&#xff1a;netstat -ano 查看所有端口信息&#xff0c;如圖&#xff0c;找到端口 8081&#xff0c;以及對應的 PID 輸入&#xff1a;tskill PID 即可殺死進程 解決方案二&#xff1a…

記錄_20190626

java.lang.ArithmeticException: Non-terminating decimal expansion; no exact representable decimal result異常的解決方法 原來JAVA中如果用BigDecimal做除法的時候一定要在divide方法中傳遞第二個參數&#xff0c;定義精確到小數點后幾位&#xff0c;否則在不整除的情況下…