用算法實現 用統計的方式實現 用自然語言處理的方法實現 用大模型實現 專利精益化統計分析

我們可以從算法、統計、自然語言處理(NLP)和大型語言模型(LLM)這四個方面,探討如何實現對專利社區、作者重要性以及共同作者貢獻度的分析。


1. 如何體現專利的社區 (社群效應)

🤖 用算法實現

  • 網絡分析算法:
    • 社群檢測 (Community Detection): 應用如 Louvain 算法、Girvan-Newman 算法等在專利引用網絡(專利A引用專利B形成連接)或合作網絡(共同發明人、共同受讓人)中識別出緊密連接的專利集群或機構集群,這些集群可以被視為一個“社區”。
    • 中心性算法 (Centrality Algorithms): 使用 PageRank、介數中心性 (Betweenness Centrality)、度中心性 (Degree Centrality) 等算法,識別社區中的核心專利、關鍵連接者(發明人/機構)。
  • 聚類算法 (Clustering Algorithms):
    • 基于專利的技術分類號 (IPC/CPC)、關鍵詞、摘要文本特征等,使用 K-Means、DBSCAN 等算法將相似的專利聚集在一起,形成技術主題社區。

📊 用統計的方式實現

  • 引文分析 (Citation Analysis):
    • 統計前向/后向引用的數量、頻率、引用機構的多樣性等,高頻互引的專利集合可視為一個社區。
    • 計算共被引分析 (Co-citation Analysis) 和文獻耦合分析 (Bibliographic Coupling),識別共同關注或共同基礎的專利群組。
  • 共現分析 (Co-occurrence Analysis):
    • 統計技術關鍵詞、IPC/CPC 分類號、發明人、受讓人的共現頻率。高頻共現的實體對表明它們可能屬于同一技術社區或合作網絡。
  • 地理空間統計:
    • 分析發明人或受讓人的地理位置分布,識別創新活動的地理聚集區,即地理上的創新社區。
  • 趨勢分析:
    • 分析特定技術領域內或特定機構群體的專利申請量隨時間的變化,觀察社區的形成、發展和演變。

🗣? 用自然語言處理 (NLP) 的方法實現

  • 主題建模 (Topic Modeling):
    • 應用 LDA (Latent Dirichlet Allocation)、NMF (Non-negative Matrix Factorization) 等模型從專利的摘要、權利要求或全文中提取隱藏的主題。具有相似主題分布的專利可以被認為屬于同一技術社區。
  • 文本相似度計算:
    • 使用詞袋模型 (Bag-of-Words)、TF-IDF、詞嵌入 (Word Embeddings like Word2Vec, GloVe, BERT embeddings) 等技術計算專利文獻之間的文本相似度,將高度相似的專利歸為一類。
  • 命名實體識別 (NER):
    • 從專利文本中自動抽取出關鍵的技術術語、化學物質、基因序列、組織機構名等,用于構建更精細的知識圖譜,從而識別和定義社區。
  • 關系抽取 (Relation Extraction):
    • 識別專利文本中實體之間的關系(例如,“技術A應用于產品B”,“公司X與大學Y合作研發”),構建社區內的關系網絡。

🧠 用大模型 (LLM) 實現

  • 語義聚類與檢索:
    • 利用 LLM 強大的語義理解能力,對專利摘要或權利要求進行向量化表示 (embeddings),然后在向量空間中進行聚類,比傳統 NLP 方法能更好地捕捉深層語義聯系,形成概念上更相關的社區。
    • 通過自然語言提問,LLM 可以檢索出與特定技術問題或概念相關的專利集合,間接定義一個圍繞該問題的“社區”。
  • 社區描述生成:
    • 在識別出專利社區后,LLM 可以分析社區內專利的共同特征(如核心技術點、主要參與者、發展趨勢),并自動生成對該社區的描述性摘要。
  • 知識圖譜構建輔助:
    • LLM 可以從大量專利文本中提取實體和關系,輔助構建專利知識圖譜,更全面地展現社區結構和動態。

2. 如何體現一個作者在這個領域的重要度

🤖 用算法實現

  • 基于引文的排序算法:
    • 計算發明人的 H-index、G-index 等學術評價指標(應用于專利引用)。
    • 在發明人合作網絡或其專利被引網絡中,使用 PageRank 或其他中心性算法給發明人打分,排名靠前的可能更重要。
  • 機器學習預測模型:
    • 構建一個模型,輸入發明人的多維度特征(專利數量、被引次數、合作者數量、專利技術領域廣度等),輸出其重要性評分或等級。

📊 用統計的方式實現

  • 基礎指標統計:
    • 專利數量: 該發明人在特定領域的專利申請/授權總量。
    • 被引次數: 其名下專利被后續專利引用的總次數或平均次數。
    • 專利家族大小: 其專利在多少個國家/地區獲得保護,反映國際影響力。
    • 獨立發明占比: 獨立完成發明的比例。
  • 高級指標統計:
    • 領域加權影響力指數 (Category Normalized Citation Impact - CNCI): 考慮不同技術領域引用行為的差異,進行標準化后的影響力評估。
    • 核心專利持有情況: 統計發明人是否擁有在其領域內被認為是開創性或顛覆性的高價值專利(通常通過高被引、專利審查員引用、或在標準中的地位等判斷)。
    • 合作網絡廣度與深度: 合作發明人數量、合作機構的多樣性等。

🗣? 用自然語言處理 (NLP) 的方法實現

  • 專利文本分析:
    • 分析發明人專利權利要求的廣度、新穎性和技術先進性。例如,使用 NLP 技術評估其專利描述的技術方案與現有技術的差異程度。
    • 對其專利組合進行主題建模,識別其核心技術貢獻領域和影響力范圍。
  • 情感與影響力分析(間接):
    • 如果能獲取到關于其專利的法律訴訟文件、許可協議新聞等,可以分析其中的描述來間接判斷其專利的重要性和市場影響力。

🧠 用大模型 (LLM) 實現

  • 貢獻總結與評估:
    • LLM 可以閱讀分析一個發明人的所有專利(至少是摘要和權利要求),并生成對其技術貢獻、創新點和潛在影響力的總結性描述。
    • 通過與領域內其他專利進行語義比較,LLM 可以輔助判斷其發明的獨特性和先進性。
  • 問答式影響力探究:
    • 向 LLM 提問,例如:“[發明人A]在[某領域]最重要的貢獻是什么?”或“[發明人A]的哪些專利對后續技術發展影響最大?” LLM 結合其知識庫和分析能力給出答案。
  • 影響力敘事生成:
    • LLM 可以基于該發明人的專利數據、引用情況、合作網絡等信息,撰寫一段關于其領域重要性的敘事性報告。

3. 如何體現同一篇專利不同作者的貢獻度

前提:如前所述,僅從公開的專利文件本身很難直接、準確地判斷不同發明人的具體貢獻比例。專利法通常賦予所有列名發明人平等的權利。以下方法更多是探索性的,或依賴于額外信息。

🤖 用算法實現

  • 基于排序的啟發式方法(高度依賴約定):
    • 如果某個組織內部有明確且一致的關于發明人排序與其貢獻度相關的規則(例如,主要貢獻者排第一),那么可以簡單地根據排序來賦予權重。但這缺乏普遍適用性。
  • 基于外部數據的算法:
    • 如果能獲取到與專利相關的內部貢獻聲明(如某些公司要求發明人填寫的表格)或關聯的學術論文(其中有作者貢獻聲明),可以設計算法來解析這些結構化或半結構化數據,并量化貢獻。

📊 用統計的方式實現

  • 基于歷史數據的間接推斷(非常粗略):
    • 分析一個發明人在其所有專利中通常處于什么位置(第一發明人、中間發明人、最后發明人),以及不同位置的發明人其專利的平均被引次數等。但這只能反映一般模式,不能確定單篇專利的具體貢獻。
    • 對于單篇專利,統計方法幾乎無法直接區分貢獻度。

🗣? 用自然語言處理 (NLP) 的方法實現

  • 基于權利要求和發明人專長的關聯分析(高難度、主觀):
    • 如果能將專利的每項權利要求(或技術點)通過 NLP 技術與每位發明人已知的技術專長領域(通過分析他們各自的其他專利或論文獲得)進行匹配,或許可以推測誰對哪個技術點貢獻更大。這非常復雜且主觀性強。
  • 分析實驗室筆記或內部文檔(需額外數據源):
    • 如果能獲得詳細記錄發明過程的內部文檔(如實驗室記錄、項目報告),NLP 可以嘗試從中提取描述各個發明人具體行動和貢獻的文本片段,然后進行量化或定性評估。

🧠 用大模型 (LLM) 實現

  • 基于文本理解的貢獻推測(非常依賴上下文和額外信息):
    • 如果LLM能夠訪問到描述發明過程的詳細文本(例如,發明人提交給專利代理人的技術交底書,其中可能非正式地描述了各自的角色),LLM 或許可以從中提煉出關于貢獻度的線索。但這同樣超出了標準專利數據范圍。
    • 直接詢問(如果模型被特定數據訓練過): 如果一個LLM被用包含明確貢獻度聲明的數據集進行了微調(這在當前是不現實的通用場景),或許可以直接提問。
    • 角色識別與歸因(探索性): 比如,如果一個發明人主要負責實驗驗證,另一人主要負責理論構建,LLM 在理解了技術細節后,結合發明人各自的背景,或許能做出一些非常初步的、啟發式的貢獻角色劃分,但這不能等同于法律或實際意義上的貢獻度比例。

總結來說,對于前兩個問題(專利社區和作者重要性),算法、統計、NLP 和 LLM 都有較多可行的實現路徑。但對于第三個問題(共同作者貢獻度),由于專利制度本身的設計,僅靠公開數據用任何技術手段都難以精確實現,更多時候需要依賴機構內部的約定或補充信息。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/82063.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/82063.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/82063.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入淺出IIC協議 - 從總線原理到FPGA實戰開發 -- 第五篇:多主仲裁與錯誤恢復

第五篇:多主仲裁與錯誤恢復 副標題 :從總線沖突到故障自愈——構建高可靠I2C系統的終極指南 1. 多主仲裁機制 1.1 仲裁原理與硬件實現 仲裁流程圖解 : 仲裁失敗處理 : 立即切換為從機模式 監測總線空閑后重試(隨機…

146. LRU Cache

題目描述 146. LRU Cache 哈希表雙向鏈表 詳見代碼和注釋: class LRUCache { private:int capacity_{0};int size_{0};struct Node{int key{0};int val{0};Node* pre{nullptr};Node* next{nullptr};Node(int k,int v,Node* pr,Node* nex):key(k),val(v),pre(pr),…

docker network 自定義網絡配置與管理指南

Docker 自定義網絡配置與管理指南 1. 網絡基礎概念 Docker 網絡是容器間通信和與外部世界交互的基礎。通過自定義網絡,可以實現容器間的隔離、靜態 IP 分配和服務發現。 關鍵術語: 子網(Subnet):IP 地址的邏輯分組,例如 172.1…

linux strace調式定位系統問題

strace 的基本功能 strace 的主要功能包括: 跟蹤系統調用:顯示進程執行時調用的系統函數及其參數和返回值。監控信號:記錄進程接收到的信號。性能分析:統計系統調用的執行時間和次數。調試支持:幫助定位程序崩潰、性…

告別手抖困擾:全方位健康護理指南

手抖,醫學上稱為震顫,是常見的身體癥狀,可能由多種原因引發,了解其成因并采取科學護理措施,對改善癥狀、維護健康至關重要。 生理性手抖往往因情緒激動、過度勞累、大量飲用咖啡或酒精等引起,這種手抖通常較…

華為2025年校招筆試真題手撕教程(一)

一、題目 輸入: 第一行為記錄的版本迭代關系個數N,范圍是[1,100000]; 第二行到第N1行:每行包含兩個字符串,第一個字符串為當前版本,第二個字符串為前序版本,用空格隔開。字符串包含字符個數為…

Qt 的多線程

Qt 中的多線程主要用于處理耗時操作,避免阻塞主線程(UI 線程),從而提高程序的響應性和運行效率。以下是 Qt 多線程的相關技術總結: 常見的多線程實現方式 繼承 QThread 類 :最基礎的實現方式,具…

基于ITcpServer/IHttpServer框架的HTTP服務器

https://www.cnblogs.com/MuZhangyong/p/16839231.html 在基于ITcpServer/IHttpServer框架的HTTP服務器實現中,OnBody方法主要用于接收HTTP請求體數據,而觸發HTTP響應通常是在OnMessageComplete方法中完成。以下是完整的響應觸發機制說明: sequenceDiagramClient->>…

Windows 下 Qt 項目配置 FFmpeg 簡明指南

一、作用 在qt項目中配置ffmpeg庫 二、步驟 1、直接使用已經編譯好的ffmpeg庫文件,分為win32版本和win64版本; 2、win32版本下載地址:https://github.com/sudo-nautilus/FFmpeg-Builds-Win32/releases/tag/latest 3、win64版本下載地址&a…

Attu下載 Mac版與Win版

通過Git地址下載 Mac 版選擇對于的架構進行安裝 其中遇到了安裝不成功,文件損壞等問題 一般是兩種情況導致 1.安裝版本不對 2.系統權限限制 https://www.cnblogs.com/similar/p/11280162.html打開terminal執行以下命令 sudo spctl --master-disable安裝包Git下載地…

SpringBoot3集成Oauth2.1——5資源地址配置

配置問題說明 如下所示,代碼配置了兩個,過濾器,一個是資源保護,一個是不保護。 /** Description: 配置需要保護的資源* author: 胡濤* mail: hutao_2017aliyun.com* date: 2025年5月23日 下午2:28:20*/BeanOrder(2)public Securi…

Python urllib.parse 模塊中的 urljoin 方法

Python urllib.parse 模塊中的 urljoin 方法 urljoin 是 Python 標準庫中 urllib.parse 模塊的一個方法,用于將基礎 URL 和相對路徑拼接成完整的 URL。它會根據傳入的基礎 URL 自動處理協議、域名以及路徑的部分匹配邏輯。 以下是關于該方法的具體說明和示例&…

AI大模型和SpringAI簡介

一、Spring AI 簡介 SpringAI整合了全球(主要是國外)的大多數大模型,而且對于大模型開發的三種技術架構都有比較好的封裝和支持,開發起來非常方便。 不同的模型能夠接收的輸入類型、輸出類型不一定相同。SpringAI根據模型的輸入…

在TIA 博途中下載程序時找不到對應的網卡怎么辦?

1. 檢查物理連接 確認網線已正確連接PLC和PC,接口指示燈正常。 嘗試更換網線或交換機端口,排除硬件故障。 2. 確認網卡驅動已安裝 設備管理器檢查: 右鍵點擊“此電腦” → “管理” → “設備管理器”。 展開“網絡適配器”,確…

Zabbix實踐!客戶端自動發現

在線答疑:樂維社區 一、客戶端狀態檢查 1.檢查客戶端的zabbix-agent2是否正常 [rootnode1 ~]# systemctl is-active zabbix-agent2.service active 2.從服務端檢查是否可以獲得客戶端信息 [rootIT-01 ~]# zabbix_get -s ‘192.168.200.135’ -p 10050 -k ‘agent.p…

動態規劃中的 求“最長”、“最大收益”、“最多區間”、“最優策略” 雙重 for + 狀態轉移

以最長遞增子序列為例 🎯 首先明確目標 以最長上升子序列(LIS)為例,假設輸入是: nums : []int{10, 9, 2, 5, 3, 7, 101, 18}我們定義: dp[i]:以 nums[i] 為結尾的最長上升子序列長度目標&…

SEO關鍵詞與長尾詞高效布局

內容概要 在SEO優化實踐中,關鍵詞布局的科學性與系統性直接影響流量的獲取效率與可持續性。本文以核心關鍵詞篩選為起點,結合長尾詞挖掘工具與語義關聯分析技術,逐步構建覆蓋用戶全搜索場景的內容矩陣。通過金字塔結構模型,實現高…

考研數一公式筆記

考研數學(一)核心結論與易錯點詳細筆記 第一部分:高等數學 一、函數、極限、連續 (一) 重要結論與公式 等價無窮小替換 (僅限乘除運算,極限過程為 x → 0 或某特定值導致因子→0): sin x ~ x tan x ~ x arcsin x …

Debezium TableSchemaBuilder詳解

Debezium TableSchemaBuilder詳解 1. 類的作用與功能 1.1 核心作用 TableSchemaBuilder是Debezium中負責構建表Schema的核心類,主要功能包括: Schema構建:將數據庫表結構轉換為Kafka Connect的Schema定義主鍵處理:生成表的主鍵Schema值Schema處理:生成表的非主鍵字段Sc…

49 python Matplotlib之Pandas 數據可視化

Pandas 是 Python 中用于數據處理的核心庫,其內置了基于 Matplotlib 的可視化功能,可通過 DataFrame.plot() 和 Series.plot() 方法快速生成常見圖表,無需手動編寫繪圖代碼,大幅提升效率。 一、Pandas 核心繪圖方法 基礎語法如下:該代碼為偽代碼,僅做語法說明,無法執行…