transformers文本相似度

在自然語言處理(NLP)中,文本相似度是衡量兩個文本之間語義或結構相似程度的一個重要概念。計算文本相似度的方法多種多樣,適應不同的應用場景和需求。以下是一些常見的文本相似度計算方法:

1、余弦相似度:
通過將文本轉換為向量表示(例如,使用詞袋模型、TF-IDF 或 word2vec、GloVe 等詞嵌入技術),然后計算這兩個向量之間的余弦夾角來評估相似度。
余弦相似度值范圍從-1到1,值越接近1,代表兩個向量越相似。

2、Jaccard相似度:
對于分詞后的文檔集合,可以計算它們的交集與并集的比例,以此作為相似度指標。

3、編輯距離(Levenshtein距離)或其它字符串距離:
用于衡量兩個字符串變換成另一個所需的最少單字符編輯操作次數(插入、刪除、替換)。
編輯距離較小,表明文本更相似。

4、詞重疊度:
計算兩篇文檔共有的詞匯數量及其權重占比。

5、TF-IDF cosine similarity:
使用TF-IDF對每個詞語的重要性進行加權后計算余弦相似度。

6、Word Mover’s Distance (WMD):
基于地球 mover 距離的概念,考慮詞語之間的語義關系,在詞嵌入空間中計算距離。

7、BERT等預訓練模型:
利用如BERT這樣的Transformer架構的預訓練模型,可以直接獲取句子級別的向量表示,然后計算這些向量之間的相似度。

8、Siamese Networks 和 Sentence-BERT (SBERT):
訓練網絡以學習將文本映射到一個固定大小的向量空間,其中相似的文本對應相近的向量,從而可以直接比較向量間的距離或相似度得分。

具體可根據任務的需求和數據特性,可以選擇合適的文本相似度計算方法。隨著深度學習的發展,基于神經網絡的模型因其能夠捕捉到更深層次的語義信息而成為近年來越來越流行的選擇。

下面介紹使用transformers解決文本相似度任務的一個簡單流程。

# 文本相似度任務 **ForSequenceClassification
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
from transformers import DataCollatorWithPadding
# 加載數據
dataset = load_dataset("json", data_files="./sentence_similarity/train_pair_1w.json", split="train")
print(dataset[:3])
# 劃分數據集
datasets = dataset.train_test_split(test_size=0.2)
print

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/711618.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/711618.shtml
英文地址,請注明出處:http://en.pswp.cn/news/711618.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2024年個人護理賽道選品風向在哪?這份賽盈分銷選品攻略必看!

2024年還會卷下去嗎?看到一位行業大佬分享的內容深有感觸:堅定做好產品,不做大賣,就不存在卷不卷。 有人出局,也會有人入局,并且深耕領域做大做強。 專注口腔護理的Bitvae入行不到兩年,憑借一款…

C#學習(十四)——垃圾回收、析構與IDisposable

一、何為GC 數據是存儲在內存中的,而內存又分為Stack棧內存和Heap堆內存 Stack棧內存Heap堆內存速度快、效率高結構復雜類型、大小有限制對象只能保存簡單的數據引用數據類型基礎數據類型、值類型- 舉個例子 var c new Customer{id: 123,name: "Jack"…

Java中String類有哪些常用方法?

Java中的String類提供了許多有用的方法,用于處理字符串。以下是一些常用的方法及其簡要描述: 1. **charAt(int index)**:返回指定位置的字符。 2. **length()**:返回字符串的長度。 3. **substring(int beginIndex, int endInd…

微信小程序手勢沖突?不存在的!

原生的應用經常會有頁面嵌套列表,滾動列表能夠改變列表大小,然后還能支持列表內下拉刷新等功能。看了很多的小程序好像都沒有這個功能,難道這個算是原生獨享的嗎,難道是由于手勢沖突無法實現嗎,冷靜的思考了一下&#…

Google驗證碼,掃描綁定,SpringBoot+ vue

文章目錄 后端1.使用Google工具類這個 類的 verifyTest 方法可以判斷掃描綁定之后的app上面驗證碼的準確性。這個類通過g_user,g_code(就是谷歌驗證器的secret,這個你已經插入到數據庫 中)來生成相關二維碼。2.用工具類自帶的g_user,g_code來生成二維碼2.1通過請求來生成相關二…

你知道vector底層是如何實現的嗎?

你知道vector底層是如何實現的嗎? vector底層使用動態數組來存儲元素對象,同時使用size和capacity記錄當前元素的數量和當前動態數組的容量。如果持續的push_back(emplace_back)元素,當size大于capacity時,需要開辟一塊更大的動態…

【InternLM 實戰營筆記】XTuner 大模型單卡低成本微調實戰

XTuner概述 一個大語言模型微調工具箱。由 MMRazor 和 MMDeploy 聯合開發。 支持的開源LLM (2023.11.01) InternLM Llama,Llama2 ChatGLM2,ChatGLM3 Qwen Baichuan,Baichuan2 Zephyr 特色 傻瓜化: 以 配置文件 的形式封裝了大…

WebGIS----wenpack

學習資料:https://webpack.js.org/concepts/ 簡介: Webpack 是一個現代化的 JavaScript 應用程序的模塊打包工具。它能夠將多個 JavaScript 文件和它們的依賴打包成一個單獨的文件,以供在網頁中使用。 Webpack 還具有編譯和轉換其他類型文…

自學新標日第六課(單詞部分 未完結)

第六課 單詞 單詞假名聲調詞義來月らいげつ1下個月先月せんげつ1上個月夜中よなか3午夜昨夜ゆうべ0昨天晚上コンサートこんさーと1音樂會クリスマスくりすます3圣誕季誕生日たんじょうび3生日こどもの日こどものひ5兒童節夏休みなつやすみ3…

看待事物的層與次 | DBA與架構的一次對話交流

前言 在計算機軟件業生涯中,想必行內人或多或少都能感受到系統架構設計與數據庫系統工程的重要性,也能夠清晰地認識到在計算機軟件行業中技術工程師這個職業所需要的專業素養和必備技能! 背景 通過自研的數據庫監控管理工具,發現 SQL Server 數據庫連接數在1-2K之間,想…

Yii2中如何使用scenario場景,使rules按不同運用進行字段驗證

Yii2中如何使用scenario場景,使rules按不同運用進行字段驗證 當創建news新聞form表單時: 添加新聞的時候執行create動作。 必填字段:title-標題,picture-圖片,description-描述。 這時候在model里News.php下rules規則…

星座每日運勢 api接口

接口數據api 接口平臺&#xff1a;https://api.yuanfenju.com/ 開發文檔&#xff1a;https://doc.yuanfenju.com/zhanbu/yunshi.html 支持格式&#xff1a;JSON 請求方式&#xff1a;HTTP POST <?php//您的密鑰 $api_secret "wD******XhOUW******pvr"; //請…

利用coze 搭建“全功能“微信客服(2)

緊跟上篇 利用coze 搭建"全功能"微信客服&#xff08;1&#xff09;&#xff0c;不知道來龍去脈自行查閱 先表揚下coze: coze 是國內少數開放平臺之一&#xff0c;里面提供各種插件還可以開發工作流&#xff0c;讓你可以實現多模態全功能大模型 吐槽 沒有API開放接口…

國外最流行的是AI,國內最流行的是AI培訓教程

國外最流行的是AI&#xff0c;國內最流行的是AI培訓教程。 最近李一舟AI教程事件&#xff0c;驗證了這句話。 如今給客戶做方案項目里能加點AI色彩&#xff0c;立項的成功率都變大(特別是事業單位)。 正因如此&#xff0c;大家都在狂補AI的知識&#xff0c;不然肚子里沒點墨水&…

2024亞馬遜全球開店注冊前需要準備什么?

在2023年出海四小龍SHEIN、Temu、速賣通AliExpress、TikTok Shop快速增長擴張&#xff0c;成為了中國跨境賣家“逃離亞馬遜”的新選擇。但是&#xff0c;跨境電商看亞馬遜。當前&#xff0c;亞馬遜仍然是跨境電商行業的絕對老大&#xff0c;占有將近70%成以上的業務份額。 作為…

threejs顯示本地硬盤上的ply文件,通過webapi

由于ply文件是第三方提供的&#xff0c;threejs無法用絕路路徑的方式顯示ply 所以想通過webapi把ply通過url地址的方式給threejs 1.webapi部分 /// <summary>/// 獲取PLY文件/// </summary>/// <returns></returns>[HttpPost(Name "GetPly&qu…

分享fastapi低級錯誤

我是創建表的時候把__tablename__ 寫成__table__然后一直報這個錯誤

Android Activity跳轉詳解

在Android應用程序中&#xff0c;Activity之間的跳轉是非常常見的操作&#xff0c;通過跳轉可以實現不同界面之間的切換和交互。在本篇博客中&#xff0c;我們將介紹Android中Activity跳轉的相關知識&#xff0c;包括基本跳轉、傳遞參數、返回數據以及跳轉到瀏覽器、撥號應用和…

端游如何防破解

在2023年這個游戲大年中&#xff0c;諸多熱門大作涌現&#xff0c;作為世界級IP哈利哈利波特的衍生游戲——《霍格沃茨之遺》毫無懸念地成為2023年游戲圈的首款爆款作品&#xff0c;斬獲了一眾玩家的青睞。 在眾多光環的加持下&#xff0c;《霍格沃茨之遺》很快被著名游戲破解…

【每日前端面經】2024-03-01

題目來源: 牛客 MVVM怎么實現 MVVM分別指View、Model、ViewModel&#xff0c;View通過View-Model的DOM監聽器將事件綁定到Model上&#xff0c;而Model則通過Data Bindings來管理View中的數據&#xff0c;View-Model從中起到一個連接的作用 響應式: vue如何監聽data的屬性變化…