NLP-數據集介紹(并不全,文本類介紹)

目錄

  • 第一章 STS(語義文本相似度) (重點)
    • 一、SemEval STS 年度任務(2012-2017)
      • 1. SemEval-2012 STS
      • 2. SemEval-2013 STS
      • 3. SemEval-2014 STS
      • 4. SemEval-2015 STS
      • 5. SemEval-2016 STS
      • 6. SemEval-2017 STS
    • 二、STS Benchmark(2017)
    • 三、跨語言 STS(XSTS)
      • 1. XSTS-2016
      • 2. XLM-TSV
    • 四、領域專用 STS 數據集
      • 1. 醫療 STS(MedSTS)
      • 2. 法律 STS(Legal-STS)
    • 五、其他衍生數據集
      • 1. SICK 數據集
      • 2. MRPC(Microsoft Research Paraphrase Corpus)
  • 第二章 文本聚類任務:
    • 一、通用文本聚類數據集
      • 1. 20 Newsgroups
      • 2. Reuters-21578
      • 3. Amazon Product Reviews
    • 二、領域特定聚類數據集
      • 1. BBC News
      • 2. ArXiv論文摘要(CS子集)
      • 3. COVID-19開放研究數據集
    • 三、多語言聚類數據集
      • 1. Multi-Domain Sentiment Dataset (MDSD)
      • 2. THUCNews(中文)
    • 四、聚類評估數據集(帶真實標簽)
  • 第三章 無監督訓練數據集:
      • 1. Wikipedia 語料庫(訓練)
      • 2. Common Crawl
      • 3. BookCorpus
      • 4. Project Gutenberg
      • 5. OpenWebText(補充推薦)
  • 第四章 情感分析任務:
      • 1.MR (Movie Reviews)(重要)
      • 2.CR (Customer Reviews)(重要)
      • 3.SST (Stanford Sentiment Treebank)(重要)
      • 4.Tweet (Twitter Sentiment Analysis)
  • 第五章 文本立場/主觀性分類(Subjectivity/Stance)
      • 1.SUBJ (Subjectivity Dataset)(重要)
      • 2.MPQA (MPQA Opinion Corpus)(重要)
  • 第六章 問答與語義相似度(QA & Semantic Similarity)
      • 1.TREC (TREC Question Classification)(重要)
      • 2.MRPC (Microsoft Research Paraphrase Corpus)(重要)
      • 3.SS (Semantic Similarity)
  • 第七章 新聞與長文本分類(News & Long-Text)
      • 1.AG (AG News)
      • 2.G-T (Gutenberg-Times Corpus)
      • 3.G-TS (Gutenberg-Times with Timestamps)
  • 第八章 領域特定分類(Domain-Specific)
      • 1.Bio (BioText)
      • 2.Go-S (Gene Ontology Sentences)
      • 3.SO (Stack Overflow)
      • 4.TC (Text Classification, 如新聞分類)
      • 5.BS (可能為Bias Summarization或Book Summaries)
  • 第九章 句法與語法分析
      • 1.TreeD (Treebank Data, 如Penn Treebank)
      • 2.Tense
      • 3.CoordI (Coordination Identification)
  • 第十章 詞匯與語義任務
      • 1.WC (可能為Word Classification或Word Context)
      • 2.SubjN/ObjN (Subjective/Object Nouns)
      • 3.SOMO (可能為Semantic Orientation)
  • 第十一章、自然語言推理(NLI)
      • 1. SNLI (Stanford NLI)(重點)
      • 2. MultiNLI
      • 3. XNLI

第一章 STS(語義文本相似度) (重點)

是自然語言處理中的核心任務,目標是衡量兩個文本片段(句子或短語)在語義上的相似程度,輸出范圍為 0(完全不相關)到 5(完全等價)。

一、SemEval STS 年度任務(2012-2017)

每年任務通常包含 訓練集(Train) 和 測試集(Test),部分年份提供 開發集(Dev)。以下是具體劃分:

1. SemEval-2012 STS

  • 訓練集:無官方訓練集(依賴外部數據或遷移學習)。
  • 測試集:約 3,000 對句子(英語 + 西班牙語)。
  • 領域:新聞標題、機器翻譯輸出。
  • 語言:英語、西班牙語
  • 特點:首次引入跨語言相似度任務。

2. SemEval-2013 STS

  • 訓練集:約 1,500 對句子(英語 + 西班牙語)。
  • 測試集:約 2,000 對句子(新增阿拉伯語)。
  • 領域:新聞、論壇討論。
  • 語言:英語、西班牙語、阿拉伯語
  • 創新:增加阿拉伯語支持。

3. SemEval-2014 STS

  • 訓練集:約 4,500 對句子(英語 + 西班牙語)。
  • 測試集:約 3,750 對句子(含圖像描述對)。
  • 領域:新聞標題、Flickr30K 圖像描述。
  • 語言:英語、西班牙語
  • 亮點:引入圖像描述對(文本-圖像跨模態關聯)。

4. SemEval-2015 STS

  • 訓練集:約 8,000 對句子(英語 + 西班牙語)。
  • 測試集:約 1,000 對句子。
  • 領域:新聞、論壇、問答對。
  • 語言:英語、西班牙語
  • 數據量:約 9,000 對句子(含訓練集和測試集)。

5. SemEval-2016 STS

  • 訓練集:約 6,000 對句子(英語 + 阿拉伯語)。
  • 測試集:約 1,200 對句子。
  • 領域:新聞標題、學術文本。
  • 語言:英語、阿拉伯語
  • 挑戰:處理復雜句式(如否定、比喻)。

6. SemEval-2017 STS

  • 訓練集:約 5,000 對句子(英語 + 西班牙語 + 阿拉伯語)。
  • 測試集:約 1,500 對句子。
  • 語言:英語、西班牙語、阿拉伯語
  • 領域:新聞、社交媒體、問答對
  • 遺產:成為后續研究的基準參考。

二、STS Benchmark(2017)

  • 訓練集:5,499 對句子(來自 SemEval 2012-2016 的混合數據)。
  • 開發集:500 對句子(用于調參)。
  • 測試集:1,379 對句子(來自 SemEval 2017)。
  • 評分范圍:0-5 分(連續值)。
  • 用途:BERT、RoBERTa 等模型的通用評估基準。
  • 定位:標準化評估集(非年度任務)
  • 數據量:5,749 對句子(訓練集 5,499 / 開發集 500 / 測試集 1,379)
  • 領域:新聞標題、論壇討論、圖像描述、問答對

三、跨語言 STS(XSTS)

1. XSTS-2016

  • 訓練集:3,000 對句子(英語-西班牙語對齊)。
  • 測試集:1,000 對句子。
  • 評分:人工標注 0-5 分。
  • 任務目標:跨語言語義相似度(如英語-西班牙語)
  • 語言:英語-西班牙語對齊句子對。
  • 應用:評估跨語言嵌入模型(如 LASER、mBERT)。

2. XLM-TSV

  • 訓練集:50,000 對句子(多語言混合)。
  • 測試集:10,000 對句子(覆蓋 15 種語言)。
  • 特點:自動生成 + 人工修正。
  • 語言:多語言擴展(英語、德語、法語等)

四、領域專用 STS 數據集

1. 醫療 STS(MedSTS)

  • 訓練集:800 對臨床文本。
  • 測試集:200 對句子。
  • 評分:醫生標注 0-5 分。
  • 領域:臨床文本
  • 數據量:約 1,000 對句子

2. 法律 STS(Legal-STS)

  • 訓練集:600 對法律條款。
  • 測試集:200 對句子。
  • 挑戰:長文本(平均 50 詞/句)。
  • 領域:法律條款、合同
  • 數據量:約 800 對句子
  • 挑戰:專業術語和長文本匹配。

五、其他衍生數據集

1. SICK 數據集

  • 訓練集:4,500 對句子。
  • 開發集:500 對句子。
  • 測試集:4,927 對句子。
  • 標簽:語義關聯度(1-5 分) + 關系標簽(蘊含/矛盾/中立)。
  • 領域:常識推理
  • 數據量:10,000 對句子
  • 特點:包含語義關聯、矛盾、中立標簽。

2. MRPC(Microsoft Research Paraphrase Corpus)

  • 訓練集:4,076 對句子。
  • 測試集:1,725 對句子。
  • 標簽:二分類(1=復述,0=非復述)。
  • 任務:二分類(是否為復述)
  • 數據量:5,800 對句子
  • 用途:復述檢測基準(STS 的簡化版)。

第二章 文本聚類任務:

一、通用文本聚類數據集

1. 20 Newsgroups

  • 內容:約20,000篇新聞組文檔,分為20個主題(如計算機、宗教、體育等)。

  • 特點:主題明確,適合驗證聚類算法對粗粒度類別的區分能力。

  • 官方劃分

    • 訓練集:11,314篇(按日期早于測試集的文檔劃分)。
    • 測試集:7,532篇。
  • 類別分布:每個類別在訓練集和測試集中均勻分布(約600-700篇/類)。

  • 注意事項:實際聚類任務中通常合并全部數據(無監督學習),但可用測試集標簽評估聚類效果。

  • 獲取

    通過:

    scikit-learn
    

    直接加載:

    from sklearn.datasets import fetch_20newsgroups
    data = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))
    

2. Reuters-21578

  • 內容:路透社新聞文檔,包含90個類別(如金融、貿易、農業)。

  • 特點:部分文檔有多個標簽,適合多類別聚類或層次聚類。

  • 獲取:通過 Kaggle 或 nltk.corpus.reuters 下載。

  • 常用劃分(ModApte Split)

    • 訓練集:7,769篇(僅包含至少被標注1個類別的文檔)。
    • 測試集:3,019篇。
  • 類別分布:高度不均衡(如 earn 類占40%+),需注意長尾問題。

  • 獲取代碼

    from nltk.corpus import reuters
    train_docs = reuters.fileids(categories=['earn', 'acq', 'money-fx'])[:7769]  # 示例篩選
    

3. Amazon Product Reviews

  • 內容:亞馬遜商品評論,包含評分(1-5星)和產品類別(如電子產品、圖書)。
  • 特點:適合情感聚類(如正向/負向評論)或跨品類聚類。
  • 獲取:Amazon Review Data (2018)(需遵守使用協議)。
  • 無官方劃分:需自定義(如按時間劃分或隨機采樣)。
  • 建議比例
    • 訓練集:80%(用于生成嵌入或特征)。
    • 測試集:20%(評估聚類泛化性,需保留真實標簽)。
  • 領域適應:可跨品類劃分(如訓練集用電子產品,測試集用圖書評論)。

二、領域特定聚類數據集

1. BBC News

  • 內容:2,225篇BBC新聞文章,分為5類(商業、娛樂、政治、體育、科技)。
  • 特點:短文本,類別平衡,適合小規模聚類實驗。
  • 獲取:Kaggle鏈接。
  • 官方劃分:無固定劃分,需隨機分割。
  • 典型用法
    • 訓練集:1,600篇(80%)。
    • 測試集:400篇(20%)。
  • 類別平衡:每類約320-400篇(訓練集),80-100篇(測試集)。

2. ArXiv論文摘要(CS子集)

  • 內容:計算機科學領域的論文摘要,可自定義類別(如AI、數據庫、算法)。
  • 特點:學術長文本,適合主題建模與細粒度聚類。
  • 獲取:通過 arXiv API 爬取或使用預處理的 Hugging Face Datasets。
  • 時間劃分:按論文發表年份劃分(如2010-2018為訓練集,2019-2020為測試集)。
  • 動態主題挑戰:測試集可能包含新術語(如“GPT-4”),考驗聚類模型泛化能力。

3. COVID-19開放研究數據集

  • 內容:醫學論文摘要,涉及病毒傳播、疫苗研發等主題。
  • 特點:專業術語多,適合領域自適應聚類。
  • 獲取:CORD-19 Dataset。
  • 劃分建議:按研究主題(如訓練集含“病毒傳播”,測試集含“疫苗副作用”)。
  • 數據量:約400,000篇(持續更新),需過濾低質量文本。

三、多語言聚類數據集

1. Multi-Domain Sentiment Dataset (MDSD)

  • 內容:商品評論(英文、德文、法文),包含4個領域(圖書、DVD、電子產品、廚房用品)。
  • 特點:跨語言與跨領域聚類任務。
  • 獲取:MDSD官網。
  • 官方劃分:按語言和領域獨立劃分(如英文電子產品評論為訓練集,法文圖書評論為測試集)。
  • 跨語言聚類:需對齊不同語言的嵌入空間(如用LASER或mBERT)。

2. THUCNews(中文)

  • 內容:新浪新聞分類數據,14個類別(財經、房產、教育等),共74萬篇。
  • 特點:大規模中文長文本,需自行劃分訓練/測試集。
  • 獲取:THUCTC工具包 或 Hugging Face。
  • 官方劃分
    • 訓練集:65萬篇。
    • 測試集:9萬篇。
  • 類別分布:均勻分布(每類約4.6萬篇訓練,6,000篇測試)。

四、聚類評估數據集(帶真實標簽)

數據集名稱文本類型類別數用途
Iris結構化特征3基礎聚類算法驗證
MNIST手寫數字圖像10跨模態聚類(需文本化)
AG News新聞標題4短文本聚類效果對比
StackOverflow技術問答20長文本與標簽稀疏性測試

第三章 無監督訓練數據集:

1. Wikipedia 語料庫(訓練)

  • 內容:多語言維基百科全文(含元數據如頁面標題、鏈接等)。
  • 規模:英文版約 40 億詞,中文版約 10 億詞(2023 年數據)。
  • 用途:BERT、GPT 等模型的預訓練基礎語料。
  • 訓練/測試分布
    • 無官方劃分,通常按時間切分(如用 2020 年前數據訓練,2021 年后數據測試)。
    • 部分研究采用隨機抽取 1-5% 作為驗證集(如 BERT 訓練時)。
  • 獲取方式:通過 Wikimedia Dumps 按需下載特定語言版本。

2. Common Crawl

  • 內容:互聯網網頁抓取的原始文本(含 HTML 標簽,需清洗)。

  • 規模:每月新增約 200TB 原始數據,覆蓋 100+ 種語言。

  • 用途:訓練超大規模模型(如 GPT-3、T5)。

  • 訓練/測試分布

    • 無官方劃分,通常按時間或域名劃分(如 90% 訓練 + 10% 測試)。
    • 需注意數據去重(重復網頁可能影響模型性能)。
  • 語言分布示例

    語言占比
    英語46%
    俄語6%
    中文4%
    其他44%
  • 獲取方式:通過 Common Crawl 官網 下載 WARC 文件。


3. BookCorpus

  • 內容:未出版的英文小說書籍(涵蓋多種體裁)。
  • 規模:約 11,000 本書,總詞數 9.8 億。
  • 用途:長文本生成、語言模型微調。
  • 訓練/測試分布
    • 公開版本(如 Hugging Face 的 bookcorpus:默認無劃分,建議按 9:1 隨機分割。
    • 原始版本因版權限制需申請訪問權限。
  • 示例使用:BERT 的預訓練數據中,BookCorpus 占 25%(與 Wikipedia 組合使用)。
  • 替代版本
    • Books3(包含 19 萬本書,需通過 The Eye 下載)。
    • Project Gutenberg 子集(公開版權書籍,可自由使用)。

4. Project Gutenberg

  • 內容:版權過期的經典文學作品(含小說、詩歌、非虛構等)。
  • 規模:60,000+ 本電子書(以英文為主,含部分其他語言)。
  • 用途:文學風格分析、低資源語言模型訓練。
  • 訓練/測試分布
    • 無官方劃分,建議按作者或年代劃分(如 19 世紀作品訓練,20 世紀作品測試)。
    • 可過濾特定領域(如科幻 vs 現實主義小說)。
  • 獲取方式:直接通過 Project Gutenberg 批量下載。

5. OpenWebText(補充推薦)

  • 內容:Reddit 高贊帖子的外鏈網頁文本(清洗后)。
  • 規模:約 800 萬文檔,總詞數 400 億。
  • 用途:GPT-2 等模型的訓練數據。
  • 訓練/測試分布
    • 官方提供 預分割版本,默認按 95% 訓練 + 5% 測試。
  • 特點:包含網絡用語、非正式文本,貼近實際應用場景。

第四章 情感分析任務:

1.MR (Movie Reviews)(重要)

  • 任務:二分類(正/負面電影評論)
  • 數據量:10,662條句子
  • 分布:無固定劃分,通常使用交叉驗證或80%/20%隨機分割。

2.CR (Customer Reviews)(重要)

  • 任務:二分類(商品評論情感)
  • 數據量:約4,000條評論
  • 分布:無官方劃分,常用交叉驗證或隨機分割。

3.SST (Stanford Sentiment Treebank)(重要)

  • 任務:二分類(SST-2)或五分類(SST-5)
  • 數據量
    • SST-2:67,349條(訓練集 6,920,驗證集 872,測試集 1,821)
    • SST-5:11,855條(訓練集 8,544,驗證集 1,101,測試集 2,210)
  • 分布:官方固定劃分。

4.Tweet (Twitter Sentiment Analysis)

  • 任務:三分類(正/負/中性)
  • 數據量:約20,000條推文(如SemEval-2017)
  • 分布:官方劃分(訓練集 10k,測試集 10k)。

第五章 文本立場/主觀性分類(Subjectivity/Stance)

1.SUBJ (Subjectivity Dataset)(重要)

  • 任務:二分類(主觀/客觀句子)
  • 數據量:10,000條句子
  • 分布:通常按5k訓練 + 5k測試劃分。

2.MPQA (MPQA Opinion Corpus)(重要)

  • 任務:二分類(觀點極性)
  • 數據量:10,606條句子
  • 分布:無固定劃分,常用交叉驗證。

第六章 問答與語義相似度(QA & Semantic Similarity)

1.TREC (TREC Question Classification)(重要)

  • 任務:6分類或50分類(問題類型)
  • 數據量:5,952條訓練 + 500條測試
  • 分布:官方固定劃分。

2.MRPC (Microsoft Research Paraphrase Corpus)(重要)

  • 任務:二分類(句子對是否語義等價)
  • 數據量:5,801對(訓練集) + 1,500對(測試集)
  • 分布:官方劃分,標簽不均衡(約67%負樣本)。

3.SS (Semantic Similarity)

  • 任務:二分類(句子對是否語義相似)
  • 數據量:依賴子集(如STS-B約8,628對)
  • 分布:通常按訓練/驗證/測試劃分。

第七章 新聞與長文本分類(News & Long-Text)

1.AG (AG News)

  • 任務:四分類(新聞類別)
  • 數據量:127,600條(訓練集 120k,測試集 7.6k)
  • 分布:官方均衡劃分(每類訓練集30k,測試集1.9k)。

2.G-T (Gutenberg-Times Corpus)

  • 任務:歷史新聞分類
  • 數據量:約10,000篇文檔
  • 分布:需按時間或主題自定義劃分。

3.G-TS (Gutenberg-Times with Timestamps)

  • 任務:時間敏感分類
  • 數據量:同G-T,附帶時間戳
  • 分布:按時間劃分(如1900年前后)。

第八章 領域特定分類(Domain-Specific)

1.Bio (BioText)

  • 任務:二分類(生物醫學文獻關聯性)
  • 數據量:約20,000條
  • 分布:通常按80%/20%分割。

2.Go-S (Gene Ontology Sentences)

  • 任務:多標簽分類(基因功能)
  • 數據量:約50,000條
  • 分布:按文獻時間自定義劃分。

3.SO (Stack Overflow)

  • 任務:多標簽分類(代碼問題標簽)
  • 數據量:約10,000,000條(常用子集50k)
  • 分布:按時間或隨機劃分。

4.TC (Text Classification, 如新聞分類)

  • 任務:多分類(如新聞類別)
  • 分布:若為AG News,官方均衡劃分(訓練集 120k,測試集 7.6k)。

5.BS (可能為Bias Summarization或Book Summaries)

  • 任務:需進一步明確(假設為摘要偏見檢測)
  • 分布:依賴具體數據集,通常按70%/30%劃分。

第九章 句法與語法分析

1.TreeD (Treebank Data, 如Penn Treebank)

  • 任務:句法分析(依存/成分樹解析)
  • 分布:通常按章節劃分(如PTB:訓練集 2-21,驗證集 22,測試集 23)。

2.Tense

  • 任務:動詞時態分類(過去/現在/未來等)
  • 分布:需自定義劃分(常見按80%/20%分割)。

3.CoordI (Coordination Identification)

  • 任務:并列結構識別
  • 分布:依賴具體語料庫(如英文樹庫需自定義劃分)。

第十章 詞匯與語義任務

1.WC (可能為Word Classification或Word Context)

  • 任務:詞匯分類(如詞性標注)
  • 分布:若為詞性標注,常用樹庫劃分(如PTB)。

2.SubjN/ObjN (Subjective/Object Nouns)

  • 任務:主觀性名詞 vs. 客觀性名詞分類
  • 分布:需自定義劃分(類似SUBJ數據集)。

3.SOMO (可能為Semantic Orientation)

  • 任務:詞匯語義極性(正/負)
  • 分布:通常按詞典或語料庫自定義劃分。

第十一章、自然語言推理(NLI)

1. SNLI (Stanford NLI)(重點)

  • 任務: 三分類(蘊含/矛盾/中立)
  • 數據分布:
    • 訓練集: 549,367對
    • 驗證集: 9,842對
    • 測試集: 9,824對
  • 特點:
    • 所有句子對基于圖像描述生成,訓練集與測試集領域一致。
    • 測試集包含部分對抗樣本(如詞匯重疊但邏輯矛盾)。

2. MultiNLI

  • 任務: 多領域三分類
  • 數據分布:
    • 訓練集: 392,702對(覆蓋10種文本類型,如小說、政府報告)
    • 驗證集: 9,815對(匹配領域) + 9,832對(不匹配領域)
    • 測試集: 分兩部分:
      • 匹配領域(20,000對,與訓練集同領域)
      • 不匹配領域(20,000對,新領域如旅游指南)
  • 特點:
    • 測試集的“不匹配領域”用于評估模型跨領域泛化能力。

3. XNLI

  • 任務: 跨語言三分類(15種語言)
  • 數據分布:
    • 訓練集: 392,702對(僅英語,翻譯為其他語言)
    • 驗證集: 2,490對/語言
    • 測試集: 5,010對/語言
  • 特點:
    • 測試集包含低資源語言(如斯瓦希里語、烏爾都語),評估跨語言遷移能力。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/909284.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/909284.shtml
英文地址,請注明出處:http://en.pswp.cn/news/909284.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JS進階 Day01

1.作用域和作用域鏈 let不可訪問 var可訪問,因為沒有塊作用域這一說法 2.JS垃圾回收機制以及算法 下圖如上圖同理 下圖這個三個相互引用的,根部找不到,就進行清除。 3.JS閉包 4.變量和函數提升(了解) 5.函數剩余參數和展開運算符 還有種寫法 …

詳解Python當中的pip常用命令

想象一下,如果建造房屋時,每一塊磚、每一根鋼筋都需要你自己親手燒制和打造,那會是怎樣一番景象?軟件開發也是如此。如果沒有現成的、高質量的、可復用的代碼庫,開發者們就不得不重復“發明輪子”,效率低下…

LangChain面試內容整理-知識點10:文本嵌入模型(Embeddings)使用

文本嵌入(Embeddings)是將文字轉換為向量(高維數值向量)的過程和結果。在LangChain中,Embeddings模塊負責調用各種嵌入模型,將文本轉化為向量表示,以便后續在向量空間執行相似度搜索、聚類等操作。這在實現語義搜索、RAG中非常關鍵,因為向量可以讓計算機“理解”文本語…

To be or Not to be, That‘s a Token——論文閱讀筆記——Beyond the 80/20 Rule和R2R

本周又在同一方向上刷到兩篇文章,可以說,……同學們確實卷啊,要不卷卷開放場域的推理呢? 這兩篇都在講:如何巧妙的利用帶有分支能力的token來提高推理性能或效率的。 第一篇叫 Beyond the 80/20 Rule: High-Entropy Mi…

bisheng系列(三)- 本地部署(后端 1.2版本)

一、導讀 環境:Ubuntu 24.04、open Euler 23.03、Windows 11、WSL 2、Python 3.10 、bisheng 1.2.0 背景:需要bisheng二開商用,故而此處進行本地部署,便于后期調試開發 時間:20250612 說明:bisheng的1.2…

使用 PolarProxy+Proxifier 解密 TLS 流量

一、簡介 在分析惡意樣本或加密流量時,我們常常需要將 TLS 加密通信還原為明文。 本文介紹如何通過 PolarProxy 和Proxifier 解密 TLS 流量并保存為 pcap 文件,在 Wireshark 中進行進一步分析。 二、工具準備 ? PolarProxy(推薦 Windows x64 版本)? Proxifier(強制非瀏…

[技術積累]成熟的前端和后端開發框架

1、后端 1.1、低代碼開發框架 1.1.1、jeecg 官網:JEECG技術論壇 - 基于BPM的低代碼開發平臺 1.1.2、APIJSON github官網地址:https://github.com/APIJSON gitee官網地址:https://gitee.com/Tencent/APIJSON 官網地址:騰訊AP…

產品升級 | 新一代高性能數據采集平臺BRICK2 X11,助力ADAS與自動駕駛開發

隨著ADAS(高級駕駛輔助系統)和自動駕駛(AD)開發中對數據采集與處理的需求日益增長,高性能硬件的重要性愈發凸顯。 為此,康謀正式發布了其BRICK系列的最新產品——BRICK2 X11,作為BRICK2的直接升…

螞蟻集團法人變更:韓歆毅接任,公司治理的正常安排

企查查APP顯示,6月11日,螞蟻科技集團股份有限公司發生工商變更,井賢棟卸任法定代表人,由韓歆毅接任。同時,韓歆毅由董事、總經理變更為執行公司事務的董事、總經理。目前,井賢棟仍擔任該公司董事長職務。 接…

2025虛幻游戲逆向工程解包嘗試

2025虛幻游戲逆向工程解包 前言 在2025游戲模型提取攻略寫了,但是想要找的時候又忘了在哪篇文章中寫的,所以干脆專門寫一下。中間有許多坑。 一坑接一坑。 先說結論:用Umodel(UV Viewer)查看和導出模型。FModel雖然…

Qt學習及使用_第1部分_認識Qt---Qt開發基本流程

前言 學以致用,通過QT框架的學習,一邊實踐,一邊探索編程的方方面面. 參考書:<Qt 6 C開發指南>(以下稱"本書") 標識說明:概念用粗體傾斜.重點內容用(加粗黑體)---重點內容(紅字)---重點內容(加粗紅字), 本書原話內容用深藍色標識,比較重要的內容用加粗傾…

大模型的開發應用(十):對話風格微調項目(上):數據工程與模型選型

數據工程 1 項目介紹2 數據工程2.1 申請 API Key 并測試2.2 文本嵌入模型2.3 生成訓練集2.3.1 制作風格模板2.3.2 調用大模型獲取數據2.3.3 對大模型生成的數據進行質量過濾2.3.4 程序入口 2.4 數據轉換 3 模型選型3.1 候選模型與評估數據集3.2 模型評估 附錄&#xff08;對比不…

Jmeter壓測手冊:腳本配置、服務器環境搭建與運行

序 本文記錄了我在新公司的首次壓測遇到的一些問題以及解決方案。公司服務部署在國外&#xff0c;網絡延遲導致的壓不上去&#xff0c;需要本地調試腳本&#xff0c;然后用國外服務器壓測的過程。同時記錄了過程中遇到的一些問題&#xff0c;特別是Jmeter本身占用CPU資源&#…

立定跳遠--二分枚舉答案+cehck

P10909 [藍橋杯 2024 國 B] 立定跳遠 - 洛谷 #include<bits/stdc.h> using namespace std; #define N 100011 typedef long long ll; typedef pair<int,int> pii; int n,m; int a[N]; int an; bool check(int l) {int pos0;int c1;int wm;for(int i1;i<n;i){if…

藍橋杯20112 不同的總分值

問題描述 在今年藍橋杯的決賽中&#xff0c;一共有 10 道題目&#xff0c;每道題目的分數依次為 5 分&#xff0c;5 分&#xff0c;10 分&#xff0c;10 分&#xff0c;15 分&#xff0c;15 分&#xff0c;20 分&#xff0c;20 分&#xff0c;25 分&#xff0c;25 分。 假設某…

[論文閱讀] 系統架構 | 零售 IT 中的微服務與實時處理:開源工具鏈與部署策略綜述

零售IT中的微服務與實時處理&#xff1a;開源工具鏈與部署策略綜述 論文信息 Microservices and Real-Time Processing in Retail IT: A Review of Open-Source Toolchains and Deployment Strategies Aaditaa Vashisht (Department of Information Science and Engineering, …

【面板數據】A股上市公司注冊地所在地數據集(1991-2023年)

數據簡介&#xff1a;上市公司注冊地所在地數據指企業在工商行政管理部門登記注冊的法定住所信息&#xff0c;涵蓋省、市、區三級行政區劃及詳細地址。該數據是公司法律身份的核心標識&#xff0c;直接影響稅務管轄、訴訟歸屬、政策適用及市場準入等關鍵環節。更是連接企業行為…

21、Create React App的使用

Create React App 是官方支持的創建單頁 React 應用程序的方法。提供了一個現代的構建設置&#xff0c;無需配置。它雖然只是一個包&#xff0c;但不建議全局安裝。如果本地安裝過可先卸載&#xff0c;這樣能保證每次創建項目時使用最新版本的功能。 開始使用 可以使用npx&…

CSS盒子 flex彈性布局

使用flex彈性布局頁面效果圖&#xff08;源代碼在文章末尾&#xff09;&#xff1a; 目錄 flex彈性布局 一、基本容器 二、設置主軸方向 三、設置主軸對齊方式 四、設置交叉軸上的對齊方式 flex彈性布局 一、基本容器 Flexbox 是 CSS3 引入的一種一維布局模型&#xff0…

數據結構與算法-線性表-線性表的應用

1 線性表 1.5 線性表的應用 1.5.1 線性表的合并 【算法步驟】 分別獲取 LA 表長 m 和 LB 表長 n 。從 LB 中第 1 個數據元素開始&#xff0c;循環 n 次執行以下操作&#xff1a; 從 LB 中查找第 i 個數據元素賦給 e &#xff1b;在 LA 中查找元素 e &#xff0c;如果不存在&…