自然語言處理NLP入門 -- 第十一節NLP 實戰項目 3: 文本摘要

1. 為啥需要文本摘要？

還記得小時候我們要寫“讀后感”或“觀后感”嗎？看完一篇長長的文章、一本書，甚至一部電影后，老師總是要我們用幾句話概括主要內容。其實，這就跟文本摘要的核心思路一樣——把那些最有價值、最能代表原文核心思想的內容給“撈”出來，讓別人一下子就知道“這篇文章”或“這個故事”到底講了啥。

在現實生活里，你可能會遇到這樣的場景：

新聞閱讀：想快速知道今天世界發生了什么事兒，但新聞一篇好幾千字，沒時間細看？一鍵自動生成摘要，讓你兩三句話就知道新聞說啥。
工作匯報：老板發來長篇郵件，沒空細讀？讓自動摘要工具抽取重點，你再補充修飾就行。
學術研究：你有一堆論文要看，每篇都是好幾頁甚至幾十頁？自動摘要能幫你快速判斷這篇論文值不值得深挖。

因此，有了文本摘要，我們的效率就能大大提升，也能節省大量寶貴時間。接下來，我們來看看如何輕松實現它。

2. 文本摘要怎么做？（兩大派系）

在NLP（自然語言處理）里，文本摘要主要有兩種方式，想象一下這是兩個“門派”：

抽取式摘要門派：
他們的招式是從原文中直接“摘取”關鍵詞句，重新組合成摘要，讀起來和原文內容很像。這就像你在商場買瓶礦泉水，直接拿起來就走，沒有對它進行任何改造。
- 好處：信息失真少，幾乎不會“瞎編”。
- 局限：可能讀起來有點“不連貫”，句子缺少潤色。
生成式摘要門派：
他們會“讀懂”文章，再“用自己的話”寫出一個精簡、流暢的新文本。這就像把礦泉水倒進自己的保溫杯，還可能加點檸檬片提升口感，最后讓你喝到完全不同體驗的飲品。
- 好處：內容更通順，風格更自然。
- 局限：有時會有“想象力過度”，可能對原文做出不準確的改寫。

現在，深度學習興起后，生成式摘要特別火。因此，咱們今天聚焦用 T5、GPT 等模型來做“生成式摘要”。

3. 用 T5 模型來“寫摘要”，就像找了個勤勞的小助理

3.1 T5 是啥？

T5（Text-To-Text Transfer Transformer）可以理解為一個“全能小助理”。它對絕大多數的文字處理任務都能上手，比如翻譯、寫摘要、問答等等，統統用“輸入文本 -> 輸出文本”這種形式來搞定。

優點：能幫你做各種文字任務，不用自己手動來回換工具。
如何使用：Hugging Face 庫提供了預訓練好的T5模型，我們拿來就能用，不用從零開始訓練。

3.2 代碼示例：給 T5 一個長文本，讓它幫你總結

在正式開始前，你需要安裝好 transformers 和 torch。

pip install transformers torch

然后，在 Python 里寫幾行代碼，就能讓 T5 接手你的文本，輸出簡潔摘要。示例如下：

from transformers import T5Tokenizer, T5ForConditionalGenerationmodel_name = "t5-small"  # 可換成 t5-base 或 t5-large
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)text = """
人工智能（AI）是計算機科學的一個分支，致力于讓機器擁有類似人類的智能，
涉及推理、規劃、學習、語言理解等多種技術領域。
它在機器人、醫療、金融、教育等行業都有廣泛應用。
"""
# 在句子前加上 "summarize: " 提醒 T5：老兄，這是摘要任務
input_text = "summarize: " + text# 分詞并編碼
encoding = tokenizer.encode_plus(input_text,max_length=512,truncation=True,return_tensors="pt"  # 返回 PyTorch 張量
)# 生成摘要
summary_ids = model.generate(encoding["input_ids"],num_beams=4,         # beam search寬度no_repeat_ngram_size=2, min_length=10, max_length=50,       # 生成的摘要長度early_stopping=True
)summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print("T5生成的摘要：", summary)

示例輸出：

看不懂的地方說明：

num_beams=4：這是一種尋找最佳句子的策略，讓模型有機會從多個候選里選出相對高質量的摘要。
max_length=50：輸出摘要的上限字數，別太長，否則就沒“摘要”意味了。
skip_special_tokens=True：去掉模型在生成時出現的特殊標記（比如 <pad>, <sep> 等）。

運行完，你就能得到一段簡短的摘要。雖然它可能沒有你自己寫的那么“貼心”，但作為一款自動化工具，已經很夠用了。

4. 用 OpenAI API 做摘要，像雇了個超級寫手

4.1 為什么用 OpenAI？

你不想做模型部署？不想配環境？沒問題。只需要一個 API Key，就能讓 GPT 系列（GPT-3.5、GPT-4 等）幫你寫摘要。
GPT 對中文和很多語言都擅長，能寫得像模像樣。

4.2 給 OpenAI API 發消息，讓它生成摘要

第一步，先安裝 openai：

pip install openai

然后寫一點點 Python 代碼，就能把文本交給 GPT，讓它幫你寫一段簡潔的摘要：

import openaiopenai.api_key = "你的OPENAI_API_KEY"def generate_summary(text):prompt = f"請用簡潔生動的語言概括以下文本：\n{text}\n摘要："response = openai.chat.completions.create(model = "gpt-4",messages = [{"role": "user", "content": prompt}],max_tokens = 50,temperature = 0.7)return response.choices[0].message.contentlong_text = """
自然語言處理是一門讓計算機能理解和生成自然語言（如中文、英語）的方法，
包括分詞、文本分類、情感分析、機器翻譯等。在人工智能大潮下，NLP 正日漸火熱。
"""print(generate_summary(long_text))

示例輸出：

自然語言處理是一種使計算機理解和產生自然語言的技術，包括分詞、文本分類、情感分析和機器翻譯等

prompt：給 GPT 的“指令”。像跟人聊天一樣，對它說“請概括下面的文本”。
temperature=0.7：控制文字生成的“創造力”，數字越高，生成越有個性；數字低，生成越穩當。

只要聯網并且 Key 沒失效，運行后 GPT 會迅速給你一個簡潔的概括。是不是感覺像給你配了個“寫手助理”？

5. 常見困難：模型也會“卡殼”？

摘要不夠準確：生成式模型（尤其是 GPT）有時“腦補”過頭，可能添加原文沒有的內容。所以使用后要做一下人工核對。
文本太長：T5 或 GPT 都有輸入長度限制，字數太多時得分段處理，然后把分段的摘要再合并總結。

6. 小練習，動動手更牢固

調參試驗：試著改變 T5 的 num_beams、max_length 等參數，看看最終摘要風格有什么不同。
多段合并：如果輸入段落很多，先給每段做摘要，再匯總這些摘要形成二次摘要。
事實校驗：選一篇有數字、時間等細節的新聞，讓 GPT 做摘要，對比是否和原文對得上。
多語言嘗試：如果手頭有英文或其他語言文章，看看 T5 或 GPT 會不會“翻車”？
比較抽取式和生成式：用一些抽取式工具（例如 gensim.summarization.summarize）跟 T5 或 GPT 做對比，體會兩者區別。

7. 總結

“文本摘要”就像是一個能快速為你篩選信息、抓住重點的小能手，不管你是在工作場景、閱讀新聞還是學術領域，都能讓你大大提升閱讀效率。本文介紹了兩條主要“捷徑”：

T5：在 Hugging Face 上直接調包，是個通用又強大的文字處理模型。
OpenAI API：付費獲取高級寫手“GPT”，幾行代碼搞定摘要。

對于零基礎的你，大可不必深陷復雜的數學公式，先把代碼跑起來，試驗一下效果，感受這些工具的神奇之處！等你對它們的能力和局限有了更深了解，再決定要不要繼續挖掘背后的深度學習原理。

祝你在文本摘要的世界里玩得愉快，也歡迎把這份經驗用到更多多語言場景，為低資源語言的自動化處理獻出一份力量！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/72238.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/72238.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/72238.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！