用實體識別模型提取每一條事實性句子的關鍵詞(實體),并保存到 JSON 文件中

示例代碼:

# Generate Keywords
import torch
import os
from tqdm import tqdm
import json
import nltk
import numpy as npfrom span_marker import SpanMarkerModelmodel = SpanMarkerModel.from_pretrained("tomaarsen/span-marker-mbert-base-multinerd")
model.cuda()
# pipe = pipeline("token-classification", model="jasminejwebb/KeywordIdentifier", aggregation_strategy="simple",device= 'cuda')# Function to write a dictionary to a JSON file
def wr_dict(filename, dic):data = []if os.path.isfile(filename):with open(filename, 'r') as f:data = json.load(f)data.append(dic)with open(filename, 'w') as f:json.dump(data, f)# Function to remove a file
def rm_file(file_path):if os.path.exists(file_path):os.remove(file_path)with open('datasource/news_filter_fact_out_same.json', 'r') as file:data = json.load(file)save_path = 'datasource/news_filter_entity.json'
rm_file(save_path)
save_list = []fact_count = sum(len(d['fact_list']) for d in data)
print(f'Before: {fact_count}')# Run inference
for item in tqdm(data):fact_list = item['fact_list']item['fact_key'] = []for sample in fact_list:facts = {}sample = sample.strip()if not sample.endswith('.'):continue    facts['fact'] = sampletokens = nltk.word_tokenize(sample)length = len(tokens)if length<18:continueentity_list = []entities = model.predict(sample)for e in entities:entity_list.append(e['span'])if len(entity_list)==0:continue# stripped_text = []# for group in generated_text:#     if group['entity_group'] == 'LABEL_1':#         stripped_text.append(group['word'].strip())# generated_text = generated_text[0]['generated_text']# generated_text = generated_text.split(',')stripped_text = [text.strip() for text in entity_list]print(stripped_text)facts['keywords'] = stripped_text# RAKE# rake_nltk_var.extract_keywords_from_text(sample)# keywords = rake_nltk_var.get_ranked_phrases()# print(facts['keywords'])item['fact_key'].append(facts)# print(item['fact_key'])save_list.append(item)with open(save_path, "w") as json_file:json.dump(save_list, json_file)fact_count = sum(len(d['fact_key']) for d in data)
print(f'After: {fact_count}')

代碼的目的是:用實體識別模型提取每一條事實性句子的關鍵詞(實體),并保存到 JSON 文件中。

代碼的結構和運行流程:


🔧 一、模型加載

from span_marker import SpanMarkerModel
model = SpanMarkerModel.from_pretrained("tomaarsen/span-marker-mbert-base-multinerd")
model.cuda()
  • 使用了 SpanMarker 這個庫,它是一種更先進的實體識別方法(NER),相比傳統的 BIO 標注性能更高。
  • tomaarsen/span-marker-mbert-base-multinerd 是一個已經訓練好的多語言實體識別模型。
  • .cuda() 表示把模型加載到 GPU 上,加快推理速度。

📂 二、數據準備

with open('datasource/news_filter_fact_out_same.json', 'r') as file:data = json.load(file)
  • 這一步讀取已經過濾并處理好的新聞數據,每一項 data[i] 是一條新聞,里面有多個事實性句子(fact)。
{"title": "...","fact_list": ["xxx.", "yyy.", ...]
}

🧹 三、清理舊文件 + 初始化變量

save_path = 'datasource/news_filter_entity.json'
rm_file(save_path)
save_list = []
  • rm_file 刪除舊的結果文件(如果存在)。
  • save_list 用來保存新生成的數據。

📊 四、統計原始句子數量

fact_count = sum(len(d['fact_list']) for d in data)
print(f'Before: {fact_count}')
  • 統計一共多少個“事實性句子”準備處理。

🔁 五、主循環(核心邏輯)

for item in tqdm(data):

對每一條新聞循環:

1. 拿出其中的事實性句子列表:
fact_list = item['fact_list']
item['fact_key'] = []
2. 對每個句子進行處理:
for sample in fact_list:sample = sample.strip()if not sample.endswith('.'):continue    
  • 只處理以英文句號結尾的句子(.endswith('.'))。
    tokens = nltk.word_tokenize(sample)if len(tokens) < 18:continue
  • nltk 對句子進行分詞,句子太短(小于 18 個詞)就跳過,避免提取沒意義的實體。
3. 用模型預測實體:
    entities = model.predict(sample)for e in entities:entity_list.append(e['span'])
  • span-marker 模型提取實體。
  • 每個實體是一個 e['span'] 字段(即:這段文本里的實體字符串)。
  • 例如句子中可能識別出:['United States', 'Donald Trump', 'White House']
4. 保存實體
    facts = {'fact': sample, 'keywords': stripped_text}item['fact_key'].append(facts)
  • 保存格式是:
{"fact": "原始句子","keywords": ["實體1", "實體2", ...]
}

💾 六、最終保存

save_list.append(item)
with open(save_path, "w") as json_file:json.dump(save_list, json_file)
  • 把每一條新聞及其抽取出的實體(關鍵詞)保存到 news_filter_entity.json 文件中。

📈 七、統計處理后數據量

fact_count = sum(len(d['fact_key']) for d in data)
print(f'After: {fact_count}')
  • 輸出提取成功的句子數量。

🔚 總結

步驟作用
加載模型SpanMarker 加載多語言實體識別模型
讀取數據加載事實性句子列表
循環處理每條句子判斷格式、長度,使用模型提取實體
保存數據每條句子提取到的實體寫入 JSON 文件

? 輸出格式(簡化):

{"title": "Some News","fact_list": [...],"fact_key": [{"fact": "Joe Biden visited China on Tuesday.","keywords": ["Joe Biden", "China", "Tuesday"]},...]
}

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/77639.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/77639.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/77639.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

E8流程多行明細行字符串用I分隔,賦值到主表

需求&#xff1a;明細行摘要字段賦值到主表隱藏字段&#xff0c;隱藏摘要字段在標題中顯示 代碼如下&#xff0c;代碼中的獲取字段名獲取方式&#xff0c;自行轉換成jQuery("#fieldid").val()替換。 //1:參數表單id 2:流程字段名 3:0代表主表&#xff0c;1代表明細…

優化你的 REST Assured 測試:設置默認主機與端口、GET 請求與斷言

REST Assured 是一個功能強大的 Java 庫&#xff0c;用于測試 RESTful Web 服務。它簡化了 API 測試流程&#xff0c;提供了一整套用于高效驗證響應的工具。在本篇博客中&#xff0c;我們將深入探討幾個核心概念&#xff0c;包括如何設置默認主機和端口、如何發起 GET 請求以及…

3.1.3.4 Spring Boot使用使用Listener組件

在Spring Boot中&#xff0c;使用Listener組件可以監聽和響應應用中的各種事件。首先&#xff0c;創建自定義事件類CustomEvent&#xff0c;繼承自ApplicationEvent。然后&#xff0c;創建事件監聽器CustomEventListener&#xff0c;使用EventListener注解標記監聽方法。接下來…

【 vue + js 】引入圖片、base64 編譯顯示圖片

一、引入普通圖片 1、代碼示例&#xff1a; <div class"question"><!-- 錯誤寫法 --><el-empty image"../assets/noinformation.svg" description"暫無問卷"><el-button type"primary">按鈕</el-button&…

JVM 之 String 引用機制解析:常量池、堆內存與 intern 方法

關于常量池中的String類型的數據&#xff0c;在JDK6中只可能是對象&#xff0c;在JDK7中既可以是對象也可以是引用 案例一&#xff1a; String s1 new String("1"); String s2 "1"; System.out.println(s1 s2);s1: 執行 new String("1")&am…

數據庫管理-第313期 分布式挑戰單機,OceanBase單機版試玩(20250411)

數據庫管理313期 2025-04-11 數據庫管理-第313期 分布式挑戰單機&#xff0c;OceanBase單機版試玩&#xff08;20250411&#xff09;1 環境說明2 操作系統配置2.1 關閉防火墻2.2 關閉SELinux2.3 配置hosts文件2.4 配置本地yum源2.5 配置sysctl.conf2.6 配置limits.conf2.7 創建…

AI 之 LLM(大語言模型)是如何生成文本的!

你是不是也曾在朋友面前自信滿滿地說&#xff1a;“AI我可太熟了&#xff01;”然后隨便丟一句“寫篇短文”給大模型&#xff0c;坐等它秒出結果&#xff1f;但你有沒有想過&#xff0c;那幾秒鐘里&#xff0c;AI到底干了什么&#xff1f;從你敲下的幾個字&#xff0c;到屏幕上…

STL之序列式容器(Vector/Deque/List)

序列式容器 序列式容器包括&#xff1a;靜態數組 array 、動態數組 vector 、雙端隊列 deque 、單鏈表 forward_ list 、雙鏈表 list 。這五個容器中&#xff0c;我們需要講解三個 vector 、 deque 、 list 的使 用&#xff0c;包括&#xff1a;初始化、遍歷、尾部插入與刪除、…

swift菜鳥教程6-10(運算符,條件,循環,字符串,字符)

一個樸實無華的目錄 今日學習內容&#xff1a;1.Swift 運算符算術運算符比較運算符邏輯運算符位運算符賦值運算區間運算符其他運算符 2.Swift 條件語句3.Swift 循環4.Swift 字符串字符串屬性 isEmpty字符串常量let 變量var字符串中插入值字符串連接字符串長度 String.count使用…

泛微ECOLOGY9 記 數據展現集成 自定義開窗測試中對SQL 的IN語法轉換存在BUG

背景 搭建流程時&#xff0c;需將明細表1中的合同字段 供明細表2中的合同開窗查詢使用。 最終實現如下圖&#xff1a; 選擇 發票號時&#xff0c;自動帶出明細表1中的采購合同號清單&#xff0c;然后在明細表2中開窗采購合同號時&#xff0c;只跳出明細表1中有的采購合同號&am…

(自用)藍橋杯準備(需要寫的基礎)

要寫的文件 led_app lcd_app key_app adc_app usart_app scheduler LHF_SYS一、外設引腳配置 1. 按鍵引腳 按鍵引腳配置如下&#xff1a; B1&#xff1a;PB0B2&#xff1a;PB1B3&#xff1a;PB2B4&#xff1a;PA0 2. LCD引腳 LCD引腳配置如下&#xff1a; GPIO_Pin_9 /* …

PM2 完全指南:Node.js 應用后臺啟動、關閉與重啟詳解

文章目錄 **PM2 完全指南&#xff1a;Node.js 應用后臺啟動、關閉與重啟詳解****1. 什么是 PM2&#xff1f;****2. 安裝 PM2****全局安裝****驗證安裝** **3. 使用 PM2 啟動 Node.js 應用****基本啟動****指定應用名稱****集群模式&#xff08;多進程負載均衡&#xff09;****監…

Linux環境變量詳解

引言 在Linux系統中&#xff0c;環境變量是一種非常重要的概念&#xff0c;它影響著系統的運行方式和應用程序的行為。無論你是Linux新手還是經驗豐富的管理員&#xff0c;深入理解環境變量都能幫助你更高效地使用和管理Linux系統。本文將從基礎概念到高級應用&#xff0c;全面…

408 計算機網絡 知識點記憶(8)

前言 本文基于王道考研課程與湖科大計算機網絡課程教學內容&#xff0c;系統梳理核心知識記憶點和框架&#xff0c;既為個人復習沉淀思考&#xff0c;亦希望能與同行者互助共進。&#xff08;PS&#xff1a;后續將持續迭代優化細節&#xff09; 往期內容 408 計算機網絡 知識…

@linux系統SSL證書轉換(Openssl轉換PFX)

在Linux中&#xff0c;你可以使用OpenSSL工具將PFX/P12格式的證書轉換為單獨的CRT&#xff08;證書&#xff09;、KEY&#xff08;私鑰&#xff09;文件以及提取證書鏈 1. 提取私鑰文件(.key) openssl pkcs12 -in your_certificate.pfx -nocerts -out private.key -nodes系統會…

DAOS系統架構-組件

如上圖所示&#xff0c;一個完整的DAOS系統是由管理節點組件、客戶端節點組件、服務端節點組件以及網絡通信組件四個部分組成。管理節點組件通過管理網絡通道&#xff08;藍色&#xff09;對DAOS服務管理和監控。客戶端節點組件通過數據網絡通道&#xff08;紅色&#xff09;與…

制作一款打飛機游戲教程2:背景滾動

滾動原型開發 接下來&#xff0c;我們開始聚焦滾動原型的開發。我們需要確定游戲關卡的長度以及背景滾動的速度。 地圖與精靈空間限制 在開發過程中&#xff0c;我們遇到了地圖與精靈空間限制的問題。PICO 8的地圖編輯器下半部分與精靈表共享空間&#xff0c;這意味著我們只…

計算機組成原理——CPU與存儲器連接例題

計算機組成原理——CPU與存儲器連接例題 設CPU共有16根地址線和8根數據線&#xff0c;并用(MREQ) ?作為訪存控制信號&#xff08;低電平有效&#xff09;&#xff0c;(WR) ?作為讀/寫命令信號&#xff08;高電平讀&#xff0c;低電平寫&#xff09;。現有下列存儲芯片&#…

GNSS靜態數據處理

1 安裝數據處理軟件&#xff1a;儀器之星&#xff08;InStar &#xff09;和 Trimble Business Center 做完控制點靜態后&#xff0c;我們需要下載GNSS數據&#xff0c;對靜態數據進行處理。在處理之前需要將相關軟件在自己電腦上安裝好&#xff1a; 儀器之星&#xff08;InS…

Process Explorer 性能調優實戰:精準定位資源泄漏與高負載進程

一、下載與安裝 ?下載地址? Process Explorer安裝包下載&#xff1a;https://pan.quark.cn/s/950c36ba5364下載后解壓壓縮包&#xff0c;運行 procexp.exe&#xff08;32 位系統&#xff09;或 procexp64.exe&#xff08;64 位系統&#xff09;?。 ?界面概覽? 主界面以樹…