python | spacy，一個神奇的 Python 庫！

本文來源公眾號“python”，僅用于學術分享，侵權刪，干貨滿滿。

原文鏈接：spacy，一個神奇的 Python 庫！

大家好，今天為大家分享一個神奇的 Python 庫 - spacy。

Github地址：https://github.com/explosion/spaCy

自然語言處理（NLP）是人工智能和數據科學中快速發展的領域。Python的spaCy庫是一個現代化的、工業級的NLP庫，提供了快速、高效和易于使用的API，適用于構建各種NLP應用。spaCy不僅支持多種語言，還包含豐富的預訓練模型和工具，能夠處理從分詞、詞性標注、命名實體識別到依存分析等任務。本文將詳細介紹spaCy庫，包括其安裝方法、主要特性、基本和高級功能，以及實際應用場景，幫助全面了解并掌握該庫的使用。

1 安裝

要使用spaCy庫，首先需要安裝它。可以通過pip工具方便地進行安裝。

以下是安裝步驟：

pip?install?spacy

安裝完成后，還需要下載預訓練模型。以下是下載英文模型的命令：

python?-m?spacy?download?en_core_web_sm

安裝完成后，可以通過導入spaCy庫來驗證是否安裝成功：

import?spacy
print("spaCy庫安裝成功！")

2 特性

高效的分詞和詞性標注：提供快速準確的分詞和詞性標注功能。
命名實體識別：內置命名實體識別（NER）模型，支持多種實體類型。
依存句法分析：支持依存句法分析，幫助理解句子結構。
詞向量支持：內置預訓練詞向量，支持詞嵌入和相似度計算。
多語言支持：支持多種語言，提供相應的預訓練模型。

3 基本功能

3.1 分詞和詞性標注

使用spaCy庫，可以方便地進行分詞和詞性標注。

以下是一個簡單的示例：

import?spacy#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?處理文本
doc?=?nlp("SpaCy?is?an?amazing?NLP?library.")#?分詞和詞性標注
for?token?in?doc:print(f"Token:?{token.text},?POS:?{token.pos_}")

3.2 命名實體識別

spaCy庫提供了強大的命名實體識別功能。

以下是一個示例：

import?spacy#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?處理文本
doc?=?nlp("Apple?is?looking?at?buying?U.K.?startup?for?$1?billion.")#?命名實體識別
for?ent?in?doc.ents:print(f"Entity:?{ent.text},?Label:?{ent.label_}")

3.3 依存句法分析

spaCy庫支持依存句法分析，以下是一個示例：

import?spacy#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?處理文本
doc?=?nlp("SpaCy?is?an?amazing?NLP?library.")#?依存句法分析
for?token?in?doc:print(f"Token:?{token.text},?Dependency:?{token.dep_},?Head:?{token.head.text}")

3.4 詞向量

spaCy庫內置了預訓練的詞向量，支持詞嵌入和相似度計算。

以下是一個示例：

import?spacy#?加載預訓練模型
nlp?=?spacy.load("en_core_web_md")#?獲取詞向量
token1?=?nlp("apple")
token2?=?nlp("orange")#?計算相似度
similarity?=?token1.similarity(token2)
print(f"相似度:?{similarity}")

4 高級功能

4.1 自定義分詞規則

spaCy允許用戶自定義分詞規則。

以下是一個示例：

import?spacy
from?spacy.tokenizer?import?Tokenizer#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?自定義分詞規則
def?custom_tokenizer(nlp):return?Tokenizer(nlp.vocab,?rules={"appleorange":?[{"ORTH":?"appleorange"}]})nlp.tokenizer?=?custom_tokenizer(nlp)#?處理文本
doc?=?nlp("I?have?an?appleorange?and?a?banana.")
for?token?in?doc:print(f"Token:?{token.text}")

4.2 自定義命名實體

spaCy支持添加自定義命名實體。

以下是一個示例：

import?spacy
from?spacy.tokens?import?Span#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?添加自定義命名實體
doc?=?nlp("Elon?Musk?is?the?CEO?of?SpaceX.")
org?=?Span(doc,?4,?5,?label="ORG")
doc.ents?=?list(doc.ents)?+?[org]for?ent?in?doc.ents:print(f"Entity:?{ent.text},?Label:?{ent.label_}")

4.3 訓練自定義模型

spaCy支持訓練自定義的NLP模型。

以下是一個示例，演示如何訓練自定義命名實體識別模型：

import?spacy
from?spacy.training.example?import?Example
from?spacy.util?import?minibatch,?compounding#?創建空白模型
nlp?=?spacy.blank("en")#?創建命名實體識別組件并添加到管道中
ner?=?nlp.add_pipe("ner")#?添加標簽
ner.add_label("ORG")#?準備訓練數據
TRAIN_DATA?=?[("SpaceX?is?a?company.",?{"entities":?[(0,?6,?"ORG")]}),("Google?is?another?company.",?{"entities":?[(0,?6,?"ORG")]})
]#?訓練模型
optimizer?=?nlp.begin_training()
for?itn?in?range(10):losses?=?{}batches?=?minibatch(TRAIN_DATA,?size=compounding(4.0,?32.0,?1.001))for?batch?in?batches:for?text,?annotations?in?batch:doc?=?nlp.make_doc(text)example?=?Example.from_dict(doc,?annotations)nlp.update([example],?drop=0.5,?sgd=optimizer,?losses=losses)print(losses)#?測試模型
doc?=?nlp("SpaceX?is?an?amazing?company.")
for?ent?in?doc.ents:print(f"Entity:?{ent.text},?Label:?{ent.label_}")

5 實際應用場景

5.1 文本分類

假設開發一個文本分類系統，用于將客戶反饋分類為不同的主題，可以使用spaCy庫實現這一功能。

import?spacy
from?spacy.training.example?import?Example#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?添加文本分類器
textcat?=?nlp.add_pipe("textcat",?last=True)
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")#?準備訓練數據
TRAIN_DATA?=?[("I?love?this?product!",?{"cats":?{"POSITIVE":?1,?"NEGATIVE":?0}}),("This?is?the?worst?experience?ever.",?{"cats":?{"POSITIVE":?0,?"NEGATIVE":?1}})
]#?訓練模型
optimizer?=?nlp.begin_training()
for?itn?in?range(10):losses?=?{}for?text,?cats?in?TRAIN_DATA:doc?=?nlp.make_doc(text)example?=?Example.from_dict(doc,?cats)nlp.update([example],?drop=0.5,?sgd=optimizer,?losses=losses)print(losses)#?測試模型
doc?=?nlp("I?hate?this!")
print(doc.cats)

5.2 情感分析

假設開發一個情感分析系統，用于分析社交媒體上的用戶情感，可以使用spaCy庫實現這一功能。

import?spacy
from?spacy.training.example?import?Example#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?添加文本分類器
textcat?=?nlp.add_pipe("textcat",?last=True)
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")#?準備訓練數據
TRAIN_DATA?=?[("I?am?very?happy?today!",?{"cats":?{"POSITIVE":?1,?"NEGATIVE":?0}}),("I?feel?so?sad?and?depressed.",?{"cats":?{"POSITIVE":?0,?"NEGATIVE":?1}})
]#?訓練模型
optimizer?=?nlp.begin_training()
for?itn?in?range(10):losses?=?{}for?text,?cats?in?TRAIN_DATA:doc?=?nlp.make_doc(text)example?=?Example.from_dict(doc,?cats)nlp.update([example],?drop=0.5,?sgd=optimizer,?losses=losses)print(losses)#?測試模型
doc?=?nlp("This?is?an?amazing?day!")
print(doc.cats)

5.3 實體識別與信息抽取

假設開發一個信息抽取系統，需要從新聞文章中提取公司名稱和產品名稱，可以使用spaCy庫實現這一功能。

import?spacy#?加載預訓練模型
nlp?=?spacy.load("en_core_web_sm")#?處理文本
doc?=?nlp("Apple?announced?the?release?of?the?new?iPhone?13?in?their?latest?event.")#?命名實體識別
for?ent?in?doc.ents:if?ent.label_?in?["ORG",?"PRODUCT"]:print(f"Entity:?{ent.text},?Label:?{ent.label_}")

6 總結

spaCy庫是一個功能強大且易于使用的自然語言處理工具，能夠幫助開發者高效地處理各種NLP任務。通過支持高效的分詞和詞性標注、命名實體識別、依存句法分析、詞向量、多語言處理等特性，spaCy庫能夠滿足各種自然語言處理需求。本文詳細介紹了spaCy庫的安裝方法、主要特性、基本和高級功能，以及實際應用場景。希望本文能幫助大家全面掌握spaCy庫的使用，并在實際項目中發揮其優勢。

THE END !

文章結束，感謝閱讀。您的點贊，收藏，評論是我繼續更新的動力。大家有推薦的公眾號可以評論區留言，共同學習，一起進步。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/19343.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/19343.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/19343.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！