NER 數據集格式轉換

NER 數據集格式

格式一

某些地方的數據和標簽拆成兩個文件了

sentences.txt

如 何 解 決 足 球 界 長 期 存 在 的 諸 多 矛 盾 , 重 振 昔 日 津 門 足 球 的 雄 風 , 成 為 天 津 足 壇 上 下 內 外 到 處 議 論 的 話 題 。
該 縣 一 手 抓 農 業 技 術 推 廣 , 一 手 抓 農 民 科 技 教 育 和 農 技 水 平 的 提 高 。
而 創 新 的 關 鍵 就 是 知 識 和 信 息 的 生 產 、 傳 播 、 使 用 。
聯 合 國 秘 書 長 安 南 2 0 日 發 表 講 話 , 敦 促 有 關 各 方 采 取 克 制 態 度 , 以 避 免 塞 島 緊 張 局 勢 進 一 步 升 級 。
他 出 任 總 理 后 因 怕 惹 怒 美 國 才 改 抽 多 米 尼 加 生 產 的 雪 茄 。
同 時 , 三 毛 集 團 自 身 也 快 速 擴 張 , 企 業 新 創 造 了 3 0 0 0 多 個 就 業 崗 位 , 安 置 了 一 大 批 下 崗 職 工 。
金 融 人 員 一 旦 犯 法 , 自 己 進 監 獄 不 說 , 上 司 也 要 受 懲 罰 , 而 且 所 在 公 司 名 譽 會 受 損 害 , 這 是 非 常 嚴 重 的 事 情 。
我 想 以 這 句 話 向 母 親 說 明 女 兒 也 同 樣 愛 她 , 同 樣 在 遠 方 思 念 著 她 , 雖 然 在 她 身 旁 時 , 我 總 違 心 地 說 我 不 想 家 。
韓 國 人 向 國 外 借 款 、 投 資 和 發 行 海 外 證 券 , 外 國 人 在 韓 國 投 資 和 購 買 不 動 產 , 原 則 上 將 不 予 限 制 。
現 在 , 全 球 經 濟 逐 漸 融 合 , 世 界 性 的 知 識 經 濟 時 代 已 經 來 臨 , 在 新 的 經 濟 形 勢 下 , 鄉 鎮 企 業 更 應 抓 住 機 遇 , 開 拓 進 取 。

tags.txt

O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O
B-ORG I-ORG I-ORG O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O
O O O O O O O O O O B-LOC I-LOC O O O B-LOC I-LOC I-LOC I-LOC O O O O O O
O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
B-LOC I-LOC O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O

格式二

{"text": "如何解決足球界長期存在的諸多矛盾,重振昔日津門足球的雄風,成為天津足壇上下內外到處議論的話題。", "label": {"LOC": {"津門": [[21, 22]], "天津": [[31, 32]]}}}
{"text": "聯合國秘書長安南20日發表講話,敦促有關各方采取克制態度,以避免塞島緊張局勢進一步升級。", "label": {"ORG": {"聯合國": [[0, 2]]}, "PER": {"安南": [[6, 7]]}, "LOC": {"塞島": [[32, 33]]}}}
{"text": "他出任總理后因怕惹怒美國才改抽多米尼加生產的雪茄。", "label": {"LOC": {"美國": [[10, 11]], "多米尼加": [[15, 18]]}}}
{"text": "同時,三毛集團自身也快速擴張,企業新創造了3000多個就業崗位,安置了一大批下崗職工。", "label": {"ORG": {"三毛集團": [[3, 6]]}}}
{"text": "韓國人向國外借款、投資和發行海外證券,外國人在韓國投資和購買不動產,原則上將不予限制。", "label": {"LOC": {"韓國": [[0, 1], [23, 24]]}}}
{"text": "當有了一定的實力后,他就成立了武義縣重點實用菌公司,不僅負責為菇農提供技術指導和菌種,而且負責原料代購,產品回收,經自己加工,或出口、或內銷,從而使高溫香菇栽培技術迅速擴散到浙西南山區的10多個縣市,100多個鄉鎮,栽培規模由1991年的23萬袋增加到1995年的3000萬袋,僅此一項就使當地農民增加收入1億多元。", "label": {"ORG": {"武義縣重點實用菌公司": [[15, 24]]}, "LOC": {"浙": [[87, 87]]}}}
{"text": "四十九歲的田春美曾是老三屆下鄉知青,返城時已是二十七八歲的老姑娘,倉促成婚。", "label": {"PER": {"田春美": [[5, 7]]}}}
{"text": "阿巴查8日晨因心臟病突發在首都阿布賈去世。", "label": {"PER": {"阿巴查": [[0, 2]]}, "LOC": {"阿布賈": [[15, 17]]}}}
{"text": "例如,要對社會主義市場經濟與公有制為主體、多種所有制經濟共同發展的基本經濟制度如何結合的問題,加強社會主義民主法制建設與政治體制改革問題,以及社會主義市場經濟條件下的文化建設和價值觀念問題,進行深入研究和剖析,為不斷豐富我們對有中國特色社會主義發展規律的認識,避免盲目性和片面性,提供更有效的理論支持。", "label": {"LOC": {"中國": [[114, 115]]}}}
{"text": "”由于設備先進科技水平高、管理嚴格,天象生產的“文林”牌鉛筆各項技術標準均達到國際先進水平,暢銷近40個國家和地區。", "label": {"ORG": {"天象": [[18, 19]]}}}

我個人比較喜歡這種格式,json解析

格式1轉格式2

import re
from collections import defaultdictwith open('sentences.txt', 'r') as f:sentences = f.readlines()sentences = [i.strip().split(' ') for i in sentences]with open('tags.txt', 'r') as f:tags = f.readlines()tags = [i.strip().split(' ') for i in tags]dataset = []
for s, t in zip(sentences,tags):assert(len(s) == len(t))text = ''.join(s)features = [i.split('-')[0] for i in t]entities = [i.split('-')[-1] for i in t]biotags = ''.join(features)pattern = re.compile('BI*')ne_label = re.finditer(pattern, biotags)ne_list = []label = {}for ne in ne_label:start, end = int(ne.start()), int(ne.end())entity_group = entities[start]words = text[start: end]if entity_group in label:if words in label[entity_group]:label[entity_group][words] += [[start, end-1]]else:label[entity_group][words] = [[start, end-1]]else:label[entity_group] = {words: [[start, end-1]]}if len(label) > 0:sample = {"text": text, "label": label}dataset.append(sample)import json
with open('msra.train.json', 'w') as file:for i in dataset:file.write(json.dumps(i, ensure_ascii=False))file.write('\n')

中文NER數據集:https://www.cluebenchmarks.com/dataSet_search_modify.html?keywords=ner

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/14632.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/14632.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/14632.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【Spring Cloud】全面解析服務容錯中間件 Sentinel 持久化兩種模式

文章目錄 推送模式本地文件持久化(拉模式)配置yml編寫處理類添加配置演示 配置中心持久化(推模式)修改nacos在sentinel中生效引入依賴配置文件 修改sentinel在nacos中生效下載源碼更改代碼演示 總結 推送模式 Sentinel 規則的推送…

allegro 無法刪除Xnet

allegro 無法刪除Xnet Orcad中打開Constraint Manager之后,再生成網表,導入PCB后就會出現一堆Xnet網絡。無法去除Xnet。 解決辦法 在原理圖ORCAD中, 1、打開Edit Object properties 2、選擇Filter by:Capture 3、點擊New Property 4、設置…

火山引擎邊緣云亮相 Force 原動力大會,探索 AI 應用新范式

5月15日,2024 春季火山引擎 FORCE 原動力大會在北京正式舉辦。大會聚焦 AI 主題,以大模型應用為核心、以 AI 落地為導向,展示了火山引擎在大模型、云計算領域的實踐應用,攜手汽車、手機終端、金融、消費、互聯網等領域的專家和企業…

2024042102-array-list

數組 Array 一、前言 數組是數據結構還是數據類型? 數組只是個名稱,它可以描述一組操作,也可以命名這組操作。數組的數據操作,是通過 idx->val 的方式來處理。它不是具體要求內存上要存儲著連續的數據才叫數據,而…

js積累三(web頁面一段時間未操作,退出登錄)

//核心代碼,已封裝function CountDownLogout() {/* if 30 seconds no operation then logout */var maxTime 30; // seconds,可自行修改時長var time_time maxTime;/* 鼠標點擊事件 */$(document).mousedown(function(){time_time maxTime; //…

Spring Aop對本地事務的影響

1.Transactional聲明式事物也是基于aop實現的,public方法加了Transactional注解后,已經成功的創建了事務,但是當前方法仍在方法攔截器中 2.業務方法發生異常之后的處理 判斷回滾條件: 如果自定義了RollbackRuleAttribute列表&am…

EI會議的最佳論文獎是什么?如何申請?

EI會議的最佳論文獎通常是指在EI(工程索引,Engineering Index)收錄的學術會議中,評選出的表現最優秀的論文獎項。以下是關于該獎項的一些基本信息及申請步驟: 最佳論文獎的含義 評選標準:最佳論文獎通常基…

多線程、進程、線程五種狀態、synchronized、volatile、Lock、CAS、死鎖、ThreadLocal

1、并發編程 并發編程三要素 原子性:只一個操作要么全部成功,要么全部失敗可見性:一個線程對共享變量的修改,其他線程能夠立刻看到有序性:程序執行的順序按照代碼的先后順序執行 synchronized,Lock解決原…

前端vue 動態加載ts文件,動態調用ts內的方法

業務場景: 在某個業務場景中, 我們需要在數據庫配置ts文件路徑,和需要調用的函數名稱, 前端需要再指定的場景下,觸發對應的函數, 并執行處理邏輯,返回結果. 實現: 這是一個數據庫配置生成的動態表單 動態校驗的例子, 需要引用動態的函數校驗 任意一個js文件, common1.ts c…

大模型日報|今日必讀的 13 篇大模型論文

大家好,今日必讀的大模型論文來啦! 1.MIT新研究:并非所有語言模型特征都是線性的 最近的研究提出了線性表征假說:語言模型通過操作激活空間中概念(“特征”)的一維表征來執行計算。與此相反,來…

CHI dataless 傳輸——CHI(4)

上篇介紹了read的操作類型,本篇我們來介紹一下dataless 目錄 一、dataless操作概覽 二、Non-CMO (Non-Cache Maintenance Operation) 1、CleanUnique 2、StashOnce and StashOnceSep 3、Evict 三、CMO (Cache Maintenance Operation) 一、dataless操作概覽 名…

C# 中的 Dictionary<TKey, TValue> 類

Dictionary<TKey, TValue> 是 C# 中的一個泛型集合類,它提供了一種鍵值對的存儲結構,可以用來存儲和快速訪問數據。它的主要特點如下: 鍵值對結構: Dictionary 中的每個元素都是一個鍵值對,鍵必須是唯一的,值可以重復。 快速訪問: Dictionary 基于哈希表實現,可以提供 O…

大白話聊聊MySQL查詢之五子句(知識簡單但重要)

前言&#xff1a; 在日常開發中&#xff0c;查詢數據占很大的比重&#xff0c;在使用 MySQL 數據庫進行查詢時&#xff0c;我們經常需要通過各種條件和規則來篩選和排序數據。要實現這些功能&#xff0c;就不得不使用以下這些子句&#xff1a;WHERE、ORDER BY、GROUP BY、HAVI…

物聯網層次架構設計

物聯網可以分為三個層次&#xff0c;底層是用來感知數據的感知層&#xff0c;即利用傳感器、二維碼、RFID等設備隨時隨地獲取物體的信息。第二層是數據傳輸處理的網絡層&#xff0c;即通過各種傳感網絡與互聯網的融合&#xff0c;將對象當前的信息實時準確地傳遞出去。第三層則…

忍の摸頭之術游戲娛樂源碼

本資源提供給大家學習及參考研究借鑒美工之用&#xff0c;請勿用于商業和非法用途&#xff0c;無任何技術支持&#xff01; 忍の摸頭之術游戲娛樂源碼&#xff0c;抖音上面非常火的摸頭殺畫面,看得我眼花繚亂,源碼拿去玩吧&#xff1b; 目錄說明 忍の摸頭之術&#xff1a;域…

輕松同步:將照片從三星手機傳輸到iPad的簡便方法

概括 想要在新 iPad 上查看三星照片嗎&#xff1f;但是&#xff0c;如果您不知道如何將照片從三星手機傳輸到 iPad&#xff0c;則無法在 iPad 上查看圖片。為此&#xff0c;本文分享了 7 個有用的方法&#xff0c;以便您可以使用它們在不同操作系統之間輕松發送照片。現在&…

EfficientSAM分割對象后求其中圖像中的高

1 分割對象 EfficientSAM https://github.com/yformer/EfficientSAM 2 計算在圖像中最高點即y值最小點 import os import cv2def read_images(folder_path):image_files [f for f in os.listdir(folder_path) iff.endswith(".jpg") or f.endswith(".png&quo…

c語言之運算符練習題

C語言中的運算符是執行特定操作的符號&#xff0c;它們是編程中不可或缺的部分。C語言提供了多種類型的運算符&#xff0c;包括算術運算符、關系運算符、邏輯運算符、位運算符、賦值運算符等。以下是一些常見的C語言運算符練習題&#xff0c;可以幫助你熟悉和練習這些運算符的使…

虛擬化技術[1]之服務器虛擬化

文章目錄 虛擬化技術簡介數據中心虛擬化 服務器虛擬化服務器虛擬化層次寄居虛擬化裸機虛擬化VMM無法直接捕獲特權指令解決方案 服務器虛擬化底層實現CPU虛擬化內存虛擬化I/O設備虛擬化 虛擬機遷移虛擬機動態遷移遷移內容&#xff1a;內存遷移遷移內容&#xff1a;網絡資源遷移遷…

小短片創作-組裝場景(一)

1、項目基礎設置 通過第三人稱模板&#xff0c;創建1個項目 1.自動曝光&#xff1a;關閉&#xff0c;因為要做專業的小短片&#xff0c;曝光需要手動控制。 2.擴展自動曝光中的默認亮度范圍&#xff1a;啟用 3.全局光照系統&#xff1a;選擇屏幕空間光照&#xff08;SSGI&am…