NLTK庫(1): 數據集-語料庫(Corpus)

1.簡介

NLTK (Natural Language Toolkit) 是自然語言處理(NLP)任務的 Python 庫,內置大量NLP數據集與計算包。

NLP數據集也叫語料庫 (Corpus), 若無特殊格式或標記,數據集通常來自txt等文本文件。

本教程內容適用版本:

  • nltk = 3.8.1
  • python = 3.7.2

1.1 主要模塊

涵蓋NLP基本操作和大量語料(英文為主):

Module功能描述 (EN / 中文)典型用途 / 算法術語
nltk.corpusText corpora and lexical resources / 文本語料庫和詞匯資源Brown、Gutenberg 等語料庫;WordNet 詞典、停用詞表等
nltk.tokenize / nltk.stemText tokenization and stemming (split text into words/sentences; remove affixes) / 文本分詞和詞干提取(拆分為單詞/句子;移除詞綴)單詞/句子分詞(word_tokenizesent_tokenize);Porter、Lancaster、Snowball 詞干算法
nltk.collocationsIdentify collocations (frequently co-occurring word combos) / 搭配詞發現(識別高頻共現詞組)雙字/三字搭配;關聯度量 (PMI, χ2, t-檢驗, 似然比)
nltk.tagPart-of-speech tagging (assign POS tags) / 詞性標注(為單詞分配詞性標簽)HMM、CRF、最大熵等詞性標注器
nltk.classify / nltk.clusterClassification & clustering / 分類與聚類文本分類(樸素貝葉斯、最大熵、SVM);聚類(K-means、EM)
nltk.chunkChunking (shallow parsing, phrase extraction) / 短語切分(淺層解析,如名詞短語提取)正則表達式分塊;IOB 標記;基礎名詞/動詞短語
nltk.parseParsing (syntactic analysis) / 句法分析(生成句子結構樹)CFG/PCFG 解析;移進-歸約、CKY、圖譜解析(Chart)
nltk.sem / nltk.inferenceSemantic interpretation & inference (represent meaning in logic) / 語義表示與邏輯推理一階邏輯 (FOL,表示含義);定理證明 (Prover9) 、模型構建 (Mace)
nltk.metricsEvaluation metrics / NLP評估指標Precision、Recall、F1、Accuracy(精確率、召回率、F1 值、BLEU、混淆矩陣分析等)
nltk.probabilityProbability distributions / 概率分布(頻率分布與條件概率分布)FreqDist、ConditionalFreqDist;最大似然估計 (MLE)、拉普拉斯平滑
nltk.lmLanguage modeling / 語言模型n-gram 模型(unigram/bigram, 基于統計);Kneser-Ney/Laplace 平滑;Perplexity (困惑度)
nltk.app / nltk.chatInteractive demos & chatbots / 交互式示例程序和聊天機器人GUI 演示(Chart Parser、WordNet 瀏覽器);Eliza/Zen 聊天機器人
nltk.toolboxToolbox format I/O / 田野語言學工具(處理 SIL Toolbox 格式)標準格式標記 (SFM) 解析器

1.2 Corpus內置方法

這里以小說nltk.corpus.gutenberg的圣經(‘bible-kjv.txt’)為例:

類別方法 / 屬性示例代碼說明
讀取文本結構fileids()gutenberg.fileids()獲取所有文本文件名
raw(fileid)gutenberg.raw('bible-kjv.txt')原始文本字符串
words(fileid)gutenberg.words('bible-kjv.txt')單詞列表(空格+標點分割)
sents(fileid)gutenberg.sents('bible-kjv.txt')二維句子列表
paras(fileid)x.paras() (部分語料支持)三維段落列表
文本分析FreqDist()FreqDist(gutenberg.words(...))詞頻分布
Text()Text(gutenberg.words(...))構建 NLTK Text 對象
.concordance(word)Text(...).concordance("God")查找關鍵詞上下文
.similar(word)Text(...).similar("God")查看上下文替換詞(語義近)
.common_contexts(["word1",...])Text(...).common_contexts(["God", "Lord"])查看共現上下文
.collocations()Text(...).collocations()常見詞組搭配(PMI)
分詞/句分割word_tokenize()word_tokenize(gutenberg.raw(...))精細化分詞,保留標點
sent_tokenize()sent_tokenize(gutenberg.raw(...))精細化句子切分
nltk.ngrams()list(ngrams(tokens, 3))n-gram 構造
詞性標注pos_tag()pos_tag(tokens[:50])給詞打詞性標簽
詞性標注表nltk.help.upenn_tagset('VB')help.upenn_tagset('NN')查看 Penn Treebank 詞性定義
其他常用Text(...).generate()Text(...).generate()基于詞序列生成文本(n-gram)

2. 語料庫簡介(Overview)

nltk.corpus 模塊中包含了多種類型的語料庫,可大致分為以下幾類:

2.1. 文本語料庫(Text Corpora)

用于自然語言處理中的分詞、句法、語義、風格等分析。
常見示例:

  • gutenberg:18 本經典英文文學作品
  • brown:1961 年的美國英語通用語料庫(500 文本)
  • reuters:路透社新聞分類語料(10,000+ 文本)
  • inaugural:歷屆美國總統就職演講
  • webtext:網絡體文本(Reddit、電影評論等)

2.2 詞匯資源(Lexical Resources)

用于詞性、語義關系、拼寫、發音等詞匯分析。
常見示例:

  • wordnet:英文詞義庫(支持同義詞、反義詞、上下義等)
  • cmudict:CMU 發音詞典
  • words:英語常見單詞列表
  • names:常見英文人名
  • stopwords:英文停用詞列表

2.3. 分類語料(Categorized Corpora)

帶標簽的數據,常用于分類、監督學習等任務。
常見示例:

  • movie_reviews:IMDb 影評,正/負情感標簽
  • reuters:每篇文章帶多個主題標簽
  • subjectivity:主觀/客觀句子分類
  • product_reviews_1:商品評論(分類任務)

2.4 標注語料(Tagged Corpora)

帶詞性標注的語料,適用于詞性標注訓練/測試。
常見示例:

  • treebank:賓州樹庫(句法分析)
  • brown(也有 POS 標簽版本)
  • conll2000:用于語塊(chunking)任務

2.5 多語言語料(Multilingual Corpora)

支持多種語言的語料庫。
常見示例:

  • udhr:世界人權宣言的多語言版本(Universal Declaration of Human Rights)
  • cess_cat / cess_esp:加泰羅尼亞語 / 西班牙語語料

2.6 聊天語料與對話(Chat Corpora)

  • nps_chat:在線聊天對話句子,帶標簽

2.7. 句法結構樹(Parsed Corpora)

  • treebank:提供帶結構樹的語法分析句子
  • dependency_treebank:依存句法分析樹

3.文本語料庫(Text Corpora)

3.1 古騰堡項目 Gutenberg

NLTK 的 gutenberg 語料庫來自 Project Gutenberg 項目,包含公開版權的經典文學作品(小說)。內容包含全部正文(不刪節)、 版權提示或書籍元信息(可手動清洗)。文本通常來源 .txt,沒有章節分隔符、元數據標簽等結構化信息。有時附帶序言、腳注等,比如莎士比亞文本中會包含劇本角色說明等附加內容。

  • 輸出gutenberg小說總數(即文件名):
import nltk
print(nltk.corpus.gutenberg.fileids())

當前版本包含 18 本文學作品,如《愛瑪》《雙城記》《圣經》:

[‘austen-emma.txt’, ‘austen-persuasion.txt’, ‘austen-sense.txt’, ‘bible-kjv.txt’, ‘blake-poems.txt’, ‘bryant-stories.txt’, ‘burgess-busterbrown.txt’, ‘carroll-alice.txt’, ‘chesterton-ball.txt’, ‘chesterton-brown.txt’, ‘chesterton-thursday.txt’, ‘edgeworth-parents.txt’, ‘melville-moby_dick.txt’, ‘milton-paradise.txt’, ‘shakespeare-caesar.txt’, ‘shakespeare-hamlet.txt’, ‘shakespeare-macbeth.txt’, ‘whitman-leaves.txt’]

具體信息如下:

ID文件名作品名稱(英文)作者(英文)中文簡介
1austen-emma.txtEmmaJane Austen簡·奧斯汀《愛瑪》
2austen-persuasion.txtPersuasionJane Austen簡·奧斯汀《勸導》
3austen-sense.txtSense and SensibilityJane Austen簡·奧斯汀《理智與情感》
4bible-kjv.txtBible (King James Version)多人編纂《圣經》欽定版(英王詹姆斯版)
5blake-poems.txtPoems (1789)William Blake威廉·布萊克詩集(如《天真與經驗之歌》)
6bryant-stories.txtStories to Tell to ChildrenSara Cone Bryant兒童故事集(薩拉·C·布萊恩特)
7burgess-busterbrown.txtBuster BrownThornton W. Burgess兒童故事《巴斯特·布朗》
8carroll-alice.txtAlice’s Adventures in WonderlandLewis Carroll劉易斯·卡羅爾《愛麗絲夢游仙境》
9chesterton-ball.txtThe Ball and the CrossG. K. Chesterton《球與十字架》
10chesterton-brown.txtThe Innocence of Father BrownG. K. Chesterton《布朗神父探案集》
11chesterton-thursday.txtThe Man Who Was ThursdayG. K. Chesterton《星期四出生的男人》
12edgeworth-parents.txtThe Parent’s AssistantMaria Edgeworth《父母助手》(教育寓言故事集)
13melville-moby_dick.txtMoby-Dick; or, The WhaleHerman Melville赫爾曼·梅爾維爾《白鯨》
14milton-paradise.txtParadise LostJohn Milton彌爾頓《失樂園》
15shakespeare-caesar.txtJulius CaesarWilliam Shakespeare莎士比亞《尤利烏斯·凱撒》
16shakespeare-hamlet.txtHamletWilliam Shakespeare莎士比亞《哈姆雷特》
17shakespeare-macbeth.txtMacbethWilliam Shakespeare莎士比亞《麥克白》
18whitman-leaves.txtLeaves of GrassWalt Whitman惠特曼《草葉集》

3.1 Bible (King James Version)-ID4

  • 數據信息:
    • 總詞數:約 1,010,654。
    • 總句數:約 30,103。
    • 詞匯量:約 13,769 個唯一單詞。
    • 最常見tokens:(‘,’, 70509), (‘the’, 62103), (‘:’, 43766), (‘and’, 38847)。
    • 平均句長:約 33.57 個單詞。
    • 常見搭配:(‘,’, ‘and’), (‘the’, ‘LORD’), (“'”, ‘s’), (‘of’, ‘the’) 等。
    • 包含 “God” 的句子:約 3,423 句。

以下是上述信息的部分輸出(bible-kjv.txt):

from nltk.corpus import gutenberg, stopwords
from nltk.tokenize import word_tokenize
import string# 獲取原始文本
bible_text = gutenberg.raw('bible-kjv.txt')
print(bible_text[:100])  # 打印前 100 個字符, 輸出示例: "[The King James Bible]\n\nThe Old Testament of ..."
print('----------')# 獲取單詞列表
bible_words = gutenberg.words('bible-kjv.txt')
print(bible_words[:10])  # 打印前 10 個單詞, 輸出示例: ['[', 'The', 'King', 'James', 'Bible', ']', 'The', 'Old', 'Testament', 'of']
print(len(bible_words))  # 統計總詞數, 輸出示例: 約 1,010,654 個單詞
print('----------')# # 獲取句子列表
bible_sents = gutenberg.sents('bible-kjv.txt')
print(bible_sents[:2])  # 打印前 2 個句子: [['[', 'The', 'King', 'James', 'Bible', ']'], ['The', 'Old', 'Testament', 'of', 'the', 'Holy', 'Bible']]
print(len(bible_sents))  # 統計總句數, 輸出示例: 約 30,103 個句子
print('----------')# # 詞匯量(去重后的單詞數)
vocab = set(bible_words)
print(f"詞匯量: {len(vocab)}")  # 輸出示例: 約 13, 769 個唯一單詞(詞匯量)
print('----------')# # 平均句長(單詞數)
avg_sent_len = sum(len(sent) for sent in bible_sents) / len(bible_sents)
print(f"平均句長: {avg_sent_len:.2f} 個單詞")  # 輸出示例: 約 33.57 個單詞
print('----------')# # 詞頻統計
from nltk import FreqDist
freq_dist = FreqDist(bible_words)
print(freq_dist.most_common(10))  
# 打印最常見的 10 個單詞: [(',', 70509), ('the', 62103), (':', 43766), 
# ('and', 38847), ('of', 34480), ('.', 26160), ('to', 13396), ('And', 12846), ('that', 12576), ('in', 12331)]
print('----------')# 分詞
raw_text = bible_text[:500]  # 取前 500 字符示例
tokens = word_tokenize(raw_text) # 格式區別sents()方法,其按列表元素分割句子, 句子內為粉刺
print(tokens[:10])  # 輸出示例: ['[', 'The', 'King', 'James', 'Bible', ']', 'The', 'Old', 'Testament', 'of']
print('----------')# 移除標點和停用詞
stop_words = set(stopwords.words('english') + list(string.punctuation))
cleaned_tokens = [w.lower() for w in tokens if w.lower() not in stop_words]
print(cleaned_tokens[:10])  # 輸出示例: ['king', 'james', 'bible', 'old', 'testament', 'king', 'james', 'bible', 'first', 'book']
# with open('cleaned_bible_words.txt', 'w') as f:
#     f.write('\n'.join(cleaned_tokens)) # 保存清洗后的單詞到文件
print('----------')# 對前 100 個單詞進行詞性標注
from nltk import pos_tag
words = bible_words[:100]
tagged_words = pos_tag(words)
print(tagged_words[:10])  # 打印前 10 個詞的詞性
# [('[', 'VB'), ('The', 'DT'), ('King', 'NNP'), ('James', 'NNP'), 
#('Bible', 'NNP'), (']', 'VBZ'), ('The', 'DT'), ('Old', 'NNP'), ('Testament', 'NNP'), ('of', 'IN')]
print('----------')# 查找包含 "God" 的句子
god_sents = [sent for sent in bible_sents if 'God' in sent]
print(f"包含 'God' 的句子數: {len(god_sents)}")  # 輸出示例: 約 3,423 句
print(god_sents[0])  # 打印第一個匹配的句子 
# 輸出示例: ['1', ':', '1', 'In', 'the', 'beginning', 'God', 'created', 'the', 'heaven', 'and', 'the', 'earth', '.']
print('----------')# 查找常見雙詞搭配
from nltk.collocations import BigramCollocationFinder
from nltk.metrics import BigramAssocMeasures
finder = BigramCollocationFinder.from_words(bible_words)
finder.apply_freq_filter(10)  # 過濾出現次數少于 10 的搭配
collocations = finder.nbest(BigramAssocMeasures.likelihood_ratio, 10)
print(collocations)  
# [(',', 'and'), ('the', 'LORD'), ("'", 's'), ('of', 'the'), 
#('shall', 'be'), ('I', 'will'), ('in', 'the'), ('said', 'unto'), (';', 'and'), ('thou', 'shalt')]
print('----------')

3.2 The Parent’s Assistant-ID12

  • 數據信息(總量約圣經的1/3-1/4):

    • 總詞數:約 210,663。
    • 總句數:約 10,230。
    • 詞匯量:約 9,593 個唯一單詞。
    • 最常見tokens:(‘,’, 15219), (‘the’, 7149), (‘.’, 6945), (‘to’, 5150)。
    • 平均句長:約 20.60 個單詞。
    • 常見搭配:(“'”, ‘s’), (‘,"’, ‘said’), (‘,’, ‘and’), (‘."’, ‘"’) 等。
    • 包含 “God” 的句子:約 17 句。
  • 小說信息:

《The Parent’s Assistant;》是瑪麗亞·埃奇沃斯(Maria Edgeworth)創作的兒童故事集,首次出版于1796年,由約瑟夫·約翰遜(Joseph Johnson)發行。這部作品是兒童文學史上的重要里程碑,反映了啟蒙時代關于兒童教育和道德培養的觀念。瑪麗亞·埃奇沃斯(1768-1849)是一位英裔愛爾蘭作家、教育家和小說家,以其對兒童文學和現實主義小說的貢獻而聞名。

作者出生于英格蘭牛津郡,后隨家人移居愛爾蘭朗福德郡,協助父親管理家族莊園。她深受啟蒙運動和盧梭教育理念的影響,強調通過故事培養兒童的道德感和理性思維。《The Parent’s Assistant》是她最早的兒童文學作品之一,旨在為父母和教育者提供寓教于樂的素材。

作品不僅面向兒童,也通過道德故事引導父母反思教育方式。創作這部作品時,正值18世紀末的動蕩時期(如法國大革命、愛爾蘭叛亂),但埃奇沃斯選擇通過“安靜的鄉村生活場景”傳遞道德信息,展現她對社會穩定的關注。

該作品是一部短篇故事集,每個故事獨立成篇,聚焦兒童的日常生活、道德困境和成長經歷。故事通過引人入勝的敘事傳遞道德教訓,強調美德、勤奮、誠實和責任感等價值觀,以下是各篇故事的簡要介紹:

故事標題中文譯名主題與寓意
Lazy Lawrence懶惰的勞倫斯批評懶惰,強調勤奮和自律的重要性。
Tarlton塔爾頓揭示輕信和不良同伴的危險,鼓勵兒童選擇正直的朋友。
The False Key假鑰匙故事教導誠實是最佳選擇,欺騙終將暴露。
The Orange Man賣橙人講述誠實與貪婪的對比,強調誠實、同情心和公平對待他人的重要性。
The Little Dog Trusty小狗特魯斯蒂通過小狗的忠誠和兒童的冒險,教導兒童信守承諾并珍惜可靠的伙伴。
The Barring Out, or Party Spirit罷課,或黨派精神批評盲目從眾,強調獨立思考與責任感。
The Birthday Present生日禮物批判盲目追隨時尚與虛榮的傾向,強調實用與節制。
Simple Susan單純的蘇珊贊揚純真與善良,強調同情心與家庭責任。
The Bracelets手鐲探討虛榮與真實價值,強調內在美的重要性。
The Little Merchants小商人通過兒童經營小生意的經歷,強調公平交易和誠實經商的重要性。
The Purple Jar紫色罐子探討選擇與后果,強調為自己的行為負責。
Old Poz老波茲講述假裝公正卻自私的偽善危害,以幽默方式傳達正義與公平理念。
The Mimic模仿者通過模仿他人缺點的故事警示盲目模仿的危險,教導保持自我并尊重他人
Mademoiselle Panache潘娜小姐批評虛榮與表面功夫,強調真實與誠實。
The Basket Woman籃子女人講述賣籃女通過勤勞和智慧改善生活,鼓勵尊重勞動者并學會自立。
The White Pigeon白鴿講述善良與回報的故事,強調善行的重要性。
The Orphans孤兒探討社會責任,鼓勵上層階級以知識和善行幫助弱勢群體。
Waste Not, Want Not勤儉節約通過兩個男孩對待食物的不同態度,教導避免浪費和規劃未來的重要性。
Forgive and Forget寬恕與遺忘通過兒童間的爭吵與和解,強調寬容與原諒,促進和諧人際關系。
Eton Montem伊頓蒙特姆通過伊頓公學, 探討集體活動的責任與紀律,鼓勵在群體中保持品格和理性。
  • 部分故事簡介:

    • 《The Orphans》:故事以愛爾蘭羅斯莫爾城堡廢墟附近的一位寡婦和她的四個孩子為背景。寡婦病重,臨終前囑咐長女瑪麗照顧弟妹。母親去世后,孤兒們面臨經濟困境和驅逐危機。瑪麗通過紡紗和勞作還清債務,帶領弟妹在城堡廢墟中找到庇護。社區的善意支持他們生存,展現了家庭忠誠和自力更生的主題。

    • 《The Purple Jar》:講述女孩羅莎蒙德在商店看到一個紫色罐子,執意要買,但母親讓她在罐子和實用鞋子間選擇。她選擇了罐子,卻發現它只是普通玻璃罐,毫無價值。這個故事教導兒童權衡選擇和延遲滿足的重要性。

  • 截取完整的一部小說

我們從該語料庫中截取一部完整的小說《THE WHITE PIGEON》:

import nltk
from nltk.corpus import gutenberg# 確保已下載所需的 NLTK 數據
nltk.download('gutenberg')# 加載文本
text = gutenberg.raw('edgeworth-parents.txt')# 定義故事的起始和結束標志
start_marker = 'THE WHITE PIGEON'
end_marker = 'THE BIRTHDAY PRESENT'# 查找起始和結束位置
start_index = text.find(start_marker)
end_index = text.find(end_marker)# 確保找到標志
if start_index != -1 and end_index != -1:# 提取故事內容story_text = text[start_index:end_index].strip() # 移除這些首尾字符 1.空格 ' ',2.制表符 \t,3.換行符 \n,4.回車符 \r# 保存到本地文件with open('the_white_pigeon.txt', 'w', encoding='utf-8') as f:f.write(story_text)print("《The White Pigeon》已成功保存到 'the_white_pigeon.txt' 文件中。")
else:print("未能找到指定的故事段落,請檢查標志是否正確。")

該故事token數量:3,936,唯一token數量:930

3.3 Reuters

  • 路透社新聞語料庫,當前版本有 10,788 篇新聞文章;
  • 每個新聞包含多個標簽(>=1),通過api提供,適合文本分類任務;

唯一不足,沒有新聞日期

  • 數據文件格式:

[‘test/14826’, ‘test/14828’, ‘test/14829’,…, ‘training/9994’, ‘training/9995’]

  • 數據信息
    • 新聞數量 (Total documents): 10,788
    • 總詞數 (Total tokens): 1,720,901
    • 總句數 (Sentences): 54,716
    • 詞匯量: 41,600
    • 平均句長: 31.45 個單詞
    • 最常見tokens:(‘.’, 94687), (‘,’, 72360), (‘the’, 58251), (‘of’, 35979)。
    • 常見搭配:(‘&’, ‘lt’), (‘lt’, ‘;’), (“'”, ‘s’), (‘,’, ‘000’)等。
    • 包含 “God” 的句子:1 句。

完整標簽包括:

[‘acq’, ‘alum’, ‘barley’, ‘bop’, ‘carcass’, ‘castor-oil’, ‘cocoa’, ‘coconut’, ‘coconut-oil’, ‘coffee’, ‘copper’, ‘copra-cake’, ‘corn’, ‘cotton’, ‘cotton-oil’, ‘cpi’, ‘cpu’, ‘crude’, ‘dfl’, ‘dlr’, ‘dmk’, ‘earn’, ‘fuel’, ‘gas’, ‘gnp’, ‘gold’, ‘grain’, ‘groundnut’, ‘groundnut-oil’, ‘heat’, ‘hog’, ‘housing’, ‘income’, ‘instal-debt’, ‘interest’, ‘ipi’, ‘iron-steel’, ‘jet’, ‘jobs’, ‘l-cattle’, ‘lead’, ‘lei’, ‘lin-oil’, ‘livestock’, ‘lumber’, ‘meal-feed’, ‘money-fx’, ‘money-supply’, ‘naphtha’, ‘nat-gas’, ‘nickel’, ‘nkr’, ‘nzdlr’, ‘oat’, ‘oilseed’, ‘orange’, ‘palladium’, ‘palm-oil’, ‘palmkernel’, ‘pet-chem’, ‘platinum’, ‘potato’, ‘propane’, ‘rand’, ‘rape-oil’, ‘rapeseed’, ‘reserves’, ‘retail’, ‘rice’, ‘rubber’, ‘rye’, ‘ship’, ‘silver’, ‘sorghum’, ‘soy-meal’, ‘soy-oil’, ‘soybean’, ‘strategic-metal’, ‘sugar’, ‘sun-meal’, ‘sun-oil’, ‘sunseed’, ‘tea’, ‘tin’, ‘trade’, ‘veg-oil’, ‘wheat’, ‘wpi’, ‘yen’, ‘zinc’]

3.4 布朗語料庫 Brown

1961 年的布朗語料庫,是經典的均衡英語語料;按體裁分類(新聞、小說、宗教、科技等),共 500 文本,總詞數約百萬級,句子偏短。

  • 數據信息

    • 新聞數量 (Total documents): 500
    • 總詞數 (Total tokens): 1,161,192
    • 總句數 (Sentences): 57,340
    • 詞匯量: 56,057
    • 平均句長: 20.25 個單詞
    • 最常見tokens:(‘the’, 62713), (‘,’, 58334), (‘.’, 49346), (‘of’, 36080)。
    • 常見搭配:無。
    • 包含 “God” 的句子:278 句。
  • 文件名前綴(分類)

原始數據的categories為簡寫(15類):

[‘adventure’, ‘belles_lettres’, ‘editorial’, ‘fiction’, ‘government’, ‘hobbies’, ‘humor’, ‘learned’, ‘lore’, ‘mystery’, ‘news’, ‘religion’, ‘reviews’, ‘romance’, ‘science_fiction’]

對應文件名與標簽對應,也為15類, 對于關系如下::

前綴類別名稱(Category)描述類別簡寫(categories)
caPress: reportage報刊報道news
cbPress: editorial報刊社論editorial
ccPress: reviews報刊評論reviews
cdReligion宗教文本religion
ceSkills and hobbies技能與愛好hobbies
cfPopular lore民間傳說、常識性話題lore
cgBelles lettres, biography, essays散文、美文、傳記等belles_lettres
chMiscellaneous雜項(政府、報告、傳單等)government
cjLearned (academic prose)學術文章learned
ckFiction: general一般小說fiction
clFiction: mystery推理小說
cmFiction: science fiction科幻小說
cnFiction: adventure冒險小說
cpFiction: romance言情小說
crFiction: humor幽默小說
  • 文件名

這里ca有44個,cb24個, cr9個…, 500個文件名如下:

[‘ca01’, ‘ca02’, ‘ca03’, ‘ca04’, ‘ca05’, ‘ca06’, ‘ca07’, ‘ca08’, ‘ca09’, ‘ca10’, ‘ca11’, ‘ca12’, ‘ca13’, ‘ca14’, ‘ca15’, ‘ca16’, ‘ca17’, ‘ca18’, ‘ca19’, ‘ca20’, ‘ca21’, ‘ca22’, ‘ca23’, ‘ca24’, ‘ca25’, ‘ca26’, ‘ca27’, ‘ca28’, ‘ca29’, ‘ca30’, ‘ca31’, ‘ca32’, ‘ca33’, ‘ca34’, ‘ca35’, ‘ca36’, ‘ca37’, ‘ca38’, ‘ca39’, ‘ca40’, ‘ca41’, ‘ca42’, ‘ca43’, ‘ca44’, ‘cb01’, ‘cb02’, ‘cb03’, ‘cb04’, ‘cb05’, ‘cb06’, ‘cb07’, ‘cb08’, ‘cb09’, ‘cb10’, ‘cb11’, ‘cb12’, ‘cb13’, ‘cb14’, ‘cb15’, ‘cb16’, ‘cb17’, ‘cb18’, ‘cb19’, ‘cb20’, ‘cb21’, ‘cb22’, ‘cb23’, ‘cb24’, ‘cb25’, ‘cb26’, ‘cb27’, ‘cc01’, ‘cc02’, ‘cc03’, ‘cc04’, ‘cc05’, ‘cc06’, ‘cc07’, ‘cc08’, ‘cc09’, ‘cc10’, ‘cc11’, ‘cc12’, ‘cc13’, ‘cc14’, ‘cc15’, ‘cc16’, ‘cc17’, ‘cd01’, ‘cd02’, ‘cd03’, ‘cd04’, ‘cd05’, ‘cd06’, ‘cd07’, ‘cd08’, ‘cd09’, ‘cd10’, ‘cd11’, ‘cd12’, ‘cd13’, ‘cd14’, ‘cd15’, ‘cd16’, ‘cd17’, ‘ce01’, ‘ce02’, ‘ce03’, ‘ce04’, ‘ce05’, ‘ce06’, ‘ce07’, ‘ce08’, ‘ce09’, ‘ce10’, ‘ce11’, ‘ce12’, ‘ce13’, ‘ce14’, ‘ce15’, ‘ce16’, ‘ce17’, ‘ce18’, ‘ce19’, ‘ce20’, ‘ce21’, ‘ce22’, ‘ce23’, ‘ce24’, ‘ce25’, ‘ce26’, ‘ce27’, ‘ce28’, ‘ce29’, ‘ce30’, ‘ce31’, ‘ce32’, ‘ce33’, ‘ce34’, ‘ce35’, ‘ce36’, ‘cf01’, ‘cf02’, ‘cf03’, ‘cf04’, ‘cf05’, ‘cf06’, ‘cf07’, ‘cf08’, ‘cf09’, ‘cf10’, ‘cf11’, ‘cf12’, ‘cf13’, ‘cf14’, ‘cf15’, ‘cf16’, ‘cf17’, ‘cf18’, ‘cf19’, ‘cf20’, ‘cf21’, ‘cf22’, ‘cf23’, ‘cf24’, ‘cf25’, ‘cf26’, ‘cf27’, ‘cf28’, ‘cf29’, ‘cf30’, ‘cf31’, ‘cf32’, ‘cf33’, ‘cf34’, ‘cf35’, ‘cf36’, ‘cf37’, ‘cf38’, ‘cf39’, ‘cf40’, ‘cf41’, ‘cf42’, ‘cf43’, ‘cf44’, ‘cf45’, ‘cf46’, ‘cf47’, ‘cf48’, ‘cg01’, ‘cg02’, ‘cg03’, ‘cg04’, ‘cg05’, ‘cg06’, ‘cg07’, ‘cg08’, ‘cg09’, ‘cg10’, ‘cg11’, ‘cg12’, ‘cg13’, ‘cg14’, ‘cg15’, ‘cg16’, ‘cg17’, ‘cg18’, ‘cg19’, ‘cg20’, ‘cg21’, ‘cg22’, ‘cg23’, ‘cg24’, ‘cg25’, ‘cg26’, ‘cg27’, ‘cg28’, ‘cg29’, ‘cg30’, ‘cg31’, ‘cg32’, ‘cg33’, ‘cg34’, ‘cg35’, ‘cg36’, ‘cg37’, ‘cg38’, ‘cg39’, ‘cg40’, ‘cg41’, ‘cg42’, ‘cg43’, ‘cg44’, ‘cg45’, ‘cg46’, ‘cg47’, ‘cg48’, ‘cg49’, ‘cg50’, ‘cg51’, ‘cg52’, ‘cg53’, ‘cg54’, ‘cg55’, ‘cg56’, ‘cg57’, ‘cg58’, ‘cg59’, ‘cg60’, ‘cg61’, ‘cg62’, ‘cg63’, ‘cg64’, ‘cg65’, ‘cg66’, ‘cg67’, ‘cg68’, ‘cg69’, ‘cg70’, ‘cg71’, ‘cg72’, ‘cg73’, ‘cg74’, ‘cg75’, ‘ch01’, ‘ch02’, ‘ch03’, ‘ch04’, ‘ch05’, ‘ch06’, ‘ch07’, ‘ch08’, ‘ch09’, ‘ch10’, ‘ch11’, ‘ch12’, ‘ch13’, ‘ch14’, ‘ch15’, ‘ch16’, ‘ch17’, ‘ch18’, ‘ch19’, ‘ch20’, ‘ch21’, ‘ch22’, ‘ch23’, ‘ch24’, ‘ch25’, ‘ch26’, ‘ch27’, ‘ch28’, ‘ch29’, ‘ch30’, ‘cj01’, ‘cj02’, ‘cj03’, ‘cj04’, ‘cj05’, ‘cj06’, ‘cj07’, ‘cj08’, ‘cj09’, ‘cj10’, ‘cj11’, ‘cj12’, ‘cj13’, ‘cj14’, ‘cj15’, ‘cj16’, ‘cj17’, ‘cj18’, ‘cj19’, ‘cj20’, ‘cj21’, ‘cj22’, ‘cj23’, ‘cj24’, ‘cj25’, ‘cj26’, ‘cj27’, ‘cj28’, ‘cj29’, ‘cj30’, ‘cj31’, ‘cj32’, ‘cj33’, ‘cj34’, ‘cj35’, ‘cj36’, ‘cj37’, ‘cj38’, ‘cj39’, ‘cj40’, ‘cj41’, ‘cj42’, ‘cj43’, ‘cj44’, ‘cj45’, ‘cj46’, ‘cj47’, ‘cj48’, ‘cj49’, ‘cj50’, ‘cj51’, ‘cj52’, ‘cj53’, ‘cj54’, ‘cj55’, ‘cj56’, ‘cj57’, ‘cj58’, ‘cj59’, ‘cj60’, ‘cj61’, ‘cj62’, ‘cj63’, ‘cj64’, ‘cj65’, ‘cj66’, ‘cj67’, ‘cj68’, ‘cj69’, ‘cj70’, ‘cj71’, ‘cj72’, ‘cj73’, ‘cj74’, ‘cj75’, ‘cj76’, ‘cj77’, ‘cj78’, ‘cj79’, ‘cj80’, ‘ck01’, ‘ck02’, ‘ck03’, ‘ck04’, ‘ck05’, ‘ck06’, ‘ck07’, ‘ck08’, ‘ck09’, ‘ck10’, ‘ck11’, ‘ck12’, ‘ck13’, ‘ck14’, ‘ck15’, ‘ck16’, ‘ck17’, ‘ck18’, ‘ck19’, ‘ck20’, ‘ck21’, ‘ck22’, ‘ck23’, ‘ck24’, ‘ck25’, ‘ck26’, ‘ck27’, ‘ck28’, ‘ck29’, ‘cl01’, ‘cl02’, ‘cl03’, ‘cl04’, ‘cl05’, ‘cl06’, ‘cl07’, ‘cl08’, ‘cl09’, ‘cl10’, ‘cl11’, ‘cl12’, ‘cl13’, ‘cl14’, ‘cl15’, ‘cl16’, ‘cl17’, ‘cl18’, ‘cl19’, ‘cl20’, ‘cl21’, ‘cl22’, ‘cl23’, ‘cl24’, ‘cm01’, ‘cm02’, ‘cm03’, ‘cm04’, ‘cm05’, ‘cm06’, ‘cn01’, ‘cn02’, ‘cn03’, ‘cn04’, ‘cn05’, ‘cn06’, ‘cn07’, ‘cn08’, ‘cn09’, ‘cn10’, ‘cn11’, ‘cn12’, ‘cn13’, ‘cn14’, ‘cn15’, ‘cn16’, ‘cn17’, ‘cn18’, ‘cn19’, ‘cn20’, ‘cn21’, ‘cn22’, ‘cn23’, ‘cn24’, ‘cn25’, ‘cn26’, ‘cn27’, ‘cn28’, ‘cn29’, ‘cp01’, ‘cp02’, ‘cp03’, ‘cp04’, ‘cp05’, ‘cp06’, ‘cp07’, ‘cp08’, ‘cp09’, ‘cp10’, ‘cp11’, ‘cp12’, ‘cp13’, ‘cp14’, ‘cp15’, ‘cp16’, ‘cp17’, ‘cp18’, ‘cp19’, ‘cp20’, ‘cp21’, ‘cp22’, ‘cp23’, ‘cp24’, ‘cp25’, ‘cp26’, ‘cp27’, ‘cp28’, ‘cp29’, ‘cr01’, ‘cr02’, ‘cr03’, ‘cr04’, ‘cr05’, ‘cr06’, ‘cr07’, ‘cr08’, ‘cr09’]

3.4 總統就職演講 Inaugural

包含 1789 年以來所有美國總統就職演講文本;雖不是“最長”,但跨度時間大、適合語言演變分析, 屬于長句子語料。

注:該數據集無分類標簽 (categories)

  • 數據信息

    • 新聞數量 (Total documents): 60
    • 總詞數 (Total tokens): 156,288
    • 總句數 (Sentences): 5,395
    • 詞匯量: 10,200
    • 平均句長: 28.97 個單詞
    • 最常見tokens:(‘the’, 9670), (‘,’, 7499), (‘of’, 7260), (‘and’, 5356)。
    • 常見搭配:無。
    • 包含 “God” 的句子:108 句。
  • 文件名

文件名包含《年齡》和《姓名》兩個信息:

[‘1789-Washington.txt’, ‘1793-Washington.txt’, ‘1797-Adams.txt’, ‘1801-Jefferson.txt’, ‘1805-Jefferson.txt’, ‘1809-Madison.txt’, ‘1813-Madison.txt’, ‘1817-Monroe.txt’, ‘1821-Monroe.txt’, ‘1825-Adams.txt’, ‘1829-Jackson.txt’, ‘1833-Jackson.txt’, ‘1837-VanBuren.txt’, ‘1841-Harrison.txt’, ‘1845-Polk.txt’, ‘1849-Taylor.txt’, ‘1853-Pierce.txt’, ‘1857-Buchanan.txt’, ‘1861-Lincoln.txt’, ‘1865-Lincoln.txt’, ‘1869-Grant.txt’, ‘1873-Grant.txt’, ‘1877-Hayes.txt’, ‘1881-Garfield.txt’, ‘1885-Cleveland.txt’, ‘1889-Harrison.txt’, ‘1893-Cleveland.txt’, ‘1897-McKinley.txt’, ‘1901-McKinley.txt’, ‘1905-Roosevelt.txt’, ‘1909-Taft.txt’, ‘1913-Wilson.txt’, ‘1917-Wilson.txt’, ‘1921-Harding.txt’, ‘1925-Coolidge.txt’, ‘1929-Hoover.txt’, ‘1933-Roosevelt.txt’, ‘1937-Roosevelt.txt’, ‘1941-Roosevelt.txt’, ‘1945-Roosevelt.txt’, ‘1949-Truman.txt’, ‘1953-Eisenhower.txt’, ‘1957-Eisenhower.txt’, ‘1961-Kennedy.txt’, ‘1965-Johnson.txt’, ‘1969-Nixon.txt’, ‘1973-Nixon.txt’, ‘1977-Carter.txt’, ‘1981-Reagan.txt’, ‘1985-Reagan.txt’, ‘1989-Bush.txt’, ‘1993-Clinton.txt’, ‘1997-Clinton.txt’, ‘2001-Bush.txt’, ‘2005-Bush.txt’, ‘2009-Obama.txt’, ‘2013-Obama.txt’, ‘2017-Trump.txt’, ‘2021-Biden.txt’, ‘2025-Trump.txt’]

  • 統計總統的演講次數
    • 代碼
#統計每位總統的演講次數
from collections import Counter
from nltk.corpus import inaugural
presidents = [fileid.split('-')[1].replace('.txt', '') for fileid in inaugural.fileids()]
president_counts = Counter(presidents)
print(president_counts)
  • 結果

Counter({‘Roosevelt’: 5, ‘Bush’: 3, ‘Washington’: 2, ‘Adams’: 2, ‘Jefferson’: 2, ‘Madison’: 2, ‘Monroe’: 2, ‘Jackson’: 2, ‘Harrison’: 2, ‘Lincoln’: 2, ‘Grant’: 2, ‘Cleveland’: 2, ‘McKinley’: 2, ‘Wilson’: 2, ‘Eisenhower’: 2, ‘Nixon’: 2, ‘Reagan’: 2, ‘Clinton’: 2, ‘Obama’: 2, ‘Trump’: 2, ‘VanBuren’: 1, ‘Polk’: 1, ‘Taylor’: 1, ‘Pierce’: 1, ‘Buchanan’: 1, ‘Hayes’: 1, ‘Garfield’: 1, ‘Taft’: 1, ‘Harding’: 1, ‘Coolidge’: 1, ‘Hoover’: 1, ‘Truman’: 1, ‘Kennedy’: 1, ‘Johnson’: 1, ‘Carter’: 1, ‘Biden’: 1})

  • 統計詞匯出現的情況

統計三個詞匯:

‘freedom’, ‘china’, ‘democracy’

  • 代碼
#繪制詞匯隨時間的變化(NLTK 自帶示例)
import matplotlib.pyplot as plt
from nltk.corpus import inaugural
from nltk import FreqDist
# 組織成 {年份: FreqDist對象}
cfd = nltk.ConditionalFreqDist((target, fileid[:4])for fileid in inaugural.fileids()for target in ['freedom', 'china', 'democracy']if target in inaugural.words(fileid))
cfd.plot(title='Keyword frequency in Inaugural Addresses')
  • 結果

3.5網絡體文本 webtext

包含瀏覽器的爬蟲文本、如電影評論等,該數據無標簽(categories)

  • 數據信息

    • 新聞數量 (Total documents): 6
    • 總詞數 (Total tokens): 396,733
    • 總句數 (Sentences): 25,728
    • 詞匯量: 21,538
    • 平均句長: 15.42 個單詞
    • 最常見tokens:(‘:’, 11501), (‘.’, 10530), (‘,’, 8668), (“'”, 8058)。
    • 常見搭配:無。
    • 包含 “God” 的句子:143 句。
  • 文件名:

[‘firefox.txt’, ‘grail.txt’, ‘overheard.txt’, ‘pirates.txt’, ‘singles.txt’, ‘wine.txt’]

文件名內容描述
firefox.txtMozilla Firefox 瀏覽器論壇討論
grail.txt《Monty Python and the Holy Grail》電影劇本
overheard.txt紐約地鐵上的對話(Overheard in NYC)
pirates.txt《加勒比海盜》電影評論
singles.txt網絡約會論壇發帖
wine.txt葡萄酒評論
  • 找出長詞
    • 代碼
long_words = [w for w in set(webtext.words('pirates.txt')) if len(w) > 10]
print(sorted(long_words)[:20])  # 按字母排序取前20個
  • 結果

[‘Complications’, ‘Fortunately’, ‘HEADQUARTERS’, ‘Proceededly’, ‘QUARTERMASTER’, ‘Scandinavian’, ‘Scandinavians’, ‘Technically’, ‘Unfortunately’, ‘accidentally’, ‘acquaintance’, ‘altercation’, ‘approaching’, ‘calculations’, ‘camouflaged’, ‘candleholder’, ‘circumstance’, ‘circumstances’, ‘confronting’, ‘consciousness’

檢索關鍵詞的上下文

查看firefox中browser的上下文:

  • 代碼
text = nltk.Text(webtext.words('firefox.txt'))
text.concordance("browser", width=60)
  • 結果
Displaying 25 of 484 matches:
trl - N should open a new browser when only download dialog
tab should switch tabs in browser favicon . ico colors rend[ cust ] cancel is buggy Browser is ignoring the attibute 
mark Add View -> Sidebars Browser Crash icons for customize
x is checking for default browser NO is missing from the buwhen closing main window browser long password can ' t wor
orts are not reflected in browser window url drop - down bothe download manager the browser crashes if you open the l
ron appears when starting browser Tab prefs should allow chopening View page Source browser opened from About Phoenixfor changing behavior of browser windows reusage Extension
fic Google search freezes browser . Open a bookmark folder 
flow only cares about the browser border . Bookmark propert
ory consumption increases Browser fails to display the correxternal sources in open browser implement restore previou
ment bookmark icon causes browser lock up Java Plug - in st
ascript from resizing the browser crash upon clicking a lin
a . tar extension Closing browser from File Menu closes allPhoenix crashes in forum Browser locked if timeout during build under BeOS setting browser . urlbar . autoFill does 
nal bookmarks ( stacked ) Browser hangs with flash plugin w
doesn ' t focus searchbar Browser crashes when pointer on m
solution favicons lost on browser shutdown + restart histor
ookmark Manager Crash the browser on loading if " reject po
Save Link As ..." crashes browser . Add context menu to boo

4.Ref

  • https://www.nltk.org/data.html
  • https://github.com/nltk/nltk
  • https://www.gutenberg.org/files/36132/36132-h/36132-h.htm
  • https://blog.csdn.net/weixin_40425640/article/details/124033677
  • https://blog.csdn.net/2201_75499313/article/details/128355707

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904367.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904367.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904367.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

spring詳解-循環依賴的解決

Spring循環依賴 重點提示: 本文都快寫完了,發現“丈夫” 的英文是husband… 在“②有AOP循環依賴” 改過來了,前面用到的位置太多了就沒改。我是說怎么idea的hansband英文下面怎么有波浪線。各位能夠理解意思就行,英文拼寫不要過…

隨機快速排序算法

一、隨機化原理 經典快速排序 選取固定的“樞軸”(通常取第一個或最后一個元素),在最壞情況下(如已經有序)會退化為 。 隨機快速排序 在每次分區前隨機地從當前區間 [p..r] 中等概率選取一個樞軸,將它與末…

數據可視化與分析

數據可視化的目的是為了數據分析,而非僅僅是數據的圖形化展示。 項目介紹 項目案例為電商雙11美妝數據分析,分析品牌銷售量、性價比等。 數據集包括更新日期、ID、title、品牌名、克數容量、價格、銷售數量、評論數量、店名等信息。 1、數據初步了解…

美團Java高級配送員面經分享|玩梗版

美團Java高級配送員面經分享!純玩梗!

在windows中卸載mysql

一、停止服務 winR快捷鍵 -->> 輸入services.msc -->> 進入服務窗口關閉Mysql服務 二、卸載程序(可選) 如果是通過解壓壓縮包安裝的則跳過這一步,如果是使用.msi文件驅動安裝則需要卸載 控制面板 -->> 程序和功能 -->…

https://juejin.cn/editor/drafts/7262346366541070395

.Net Core從零學習搭建權限管理系統教程 推薦一組WPF自定義控件開源項目。 項目簡介 這是基于WPF開發的,為開發人員提供了一組方便使用自定義組件,并提供了各種常用的示例。 包含組件:數據表格、屬性列表、樹形列表、選色器、單選框列表、…

三、網絡管理

網絡管理 一、IP地址 原理: 定義與作用:IP 地址是互聯網協議地址,用于在網絡中唯一標識一臺設備。它如同現實生活中的家庭住址,確保數據能準確無誤地從源設備傳輸到目標設備。地址分類:IP 地址分為 IPv4 和 IPv6 兩種…

Auto.js 腳本:清理手機數據但保留賬號

Auto.js 腳本:清理手機數據但保留賬號 以下是一個使用 Auto.js 實現的腳本,它可以幫你清理手機數據(類似恢復出廠設置),同時盡可能保留已登錄的賬號狀態。請注意,這個腳本不能完全等同于真正的恢復出廠設置…

LeetCode 熱題 100 279. 完全平方數

LeetCode 熱題 100 | 279. 完全平方數 大家好,今天我們來解決一道經典的動態規劃問題——完全平方數。這道題在 LeetCode 上被標記為中等難度,要求找到和為給定整數 n 的完全平方數的最少數量。 問題描述 給定一個整數 n,返回和為 n 的完全…

【coze】手冊小助手(提示詞、知識庫、交互、發布)

【coze】手冊小助手(提示詞、知識庫、交互、發布) 1、創建智能體2、添加提示詞3、創建知識庫4、測試智能體5、添加交互功能6、發布智能體 1、創建智能體 2、添加提示詞 # 角色 你是幫助用戶搜索手冊資料的AI助手 ## 工作流程 ### 步驟一:查詢知識庫 1.每…

一個基于Asp.Net Core + Angular + Bootstrap開源CMS系統

從零學習構建一個完整的系統 推薦一個功能強大、易于擴展、安全可靠的開源內容管理系統,適用于各種類型和規模的網站。 項目簡介 MixCoreCMS是一個基于.NET Core框架的開源內容管理系統(CMS),提供了豐富的的基礎功能和插件&…

【Python】常用命令提示符

Python常用的命令提示符 一、Python環境基礎命令【Windows】 于Windows環境下,針對Python,在CMD(命令提示符)常用的命令以及具體用法,怎么用; ??主要包含:運行腳本、包管理、虛擬環境、調試與…

提示詞優化:檢索歷史提示確定方向→生成候選提示并控制修改幅度→基于準確率迭代優化

提示詞優化器 Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient - based Model Optimizers 《Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient - …

如何設計一個網頁計算器?—— 從需求分析到測試的全流程

1. 需求分析與功能設計 核心功能 基礎運算:+ - * / 高級運算:% (取模)、^ (冪運算)、√ (開平方) 記憶功能:M+ (累加)、M- (累減)、MR (讀取)、MC (清除) 交互優化: 支持鍵盤輸入(0-9、Enter、Backspace) 實時計算(類似 Google 計算器,輸入 2+3= 自動顯示 5) 錯誤處理…

基于RT-Thread的STM32F4開發第二講第一篇——ADC

文章目錄 前言一、RT-Thread工程創建二、ADC工程創建三、ADC功能實現1.ADC.c2.ADC.h3.mian.c 四、效果展示和工程分享總結 前言 ADC是什么不多講了,前面裸機操作部分有很多講述。我要說的是RT-Thread對STM32的ADC外設的適配極其不好,特別是STM32G4系類&…

FoMo 數據集是一個專注于機器人在季節性積雪變化環境中的導航數據集,記錄了不同季節(無雪、淺雪、深雪)下的傳感器數據和軌跡信息。

2025-05-02,由加拿大拉瓦爾大學北方機器人實驗室和多倫多大學機器人研究所聯合創建的 FoMo 數據集,目的是研究機器人在季節性積雪變化環境中的導航能力。該數據集的意義在于填補了機器人在極端季節變化(如積雪深度變化)下的導航研…

vue3+ts繼續學習

我們再寫點東西,這里面都是vue2的語法,應該都能看明白!我們寫完直接去運行一下代碼! 發現什么都沒有發生!為什么呢?因為我們在App.vue中沒有引入!哈哈哈哈!這樣就好了!注…

LIO-Livox

用單臺Livox Horizon (含內置IMU) 實現高魯棒性的激光-慣性里程計,可在各類極端場景下魯棒運行,并達到高精度的定位和建圖效果。(城區擁堵、高速公路、幽暗隧道) 注:該系統主要面向大型室外環境中的汽車平臺設計。用戶可以使用 Livox Horizo…

day18-API(常見API,對象克隆)

課程目標 能夠熟練使用Math類中的常見方法 能夠熟練使用System類中的常見方法 能夠理解Object類的常見方法作用 能夠熟練使用Objects類的常見方法 能夠熟練使用BigInteger類的常見方法 能夠熟練使用BigDecimal類的常見方法 1 Math類 1.1 概述 tips:了解內容…

用OMS從MySQL遷移到OceanBase,字符集utf8與utf8mb4的差異

一、問題背景 在一次從MySQL數據庫遷移到OceanBase的MySQL租戶過程中,出現了一個轉換提示: [WARN][CONVER] he table charset:utf8->utf8mb4, 你可能會擔心這種轉換可能導致字符集不兼容的問題。但通過查閱相關資料可知,utf8m…