sensitive-word 敏感詞/臟詞開源工具-v.0.10.0-臟詞分類標簽支持

sensitive-word

sensitive-word 基于 DFA 算法實現的高性能敏感詞工具。

創作目的

實現一款好用敏感詞工具。

基于 DFA 算法實現,目前敏感詞庫內容收錄 6W+(源文件 18W+,經過一次刪減)。

后期將進行持續優化和補充敏感詞庫,并進一步提升算法的性能。

希望可以細化敏感詞的分類,感覺工作量比較大,暫時沒有進行。

v0.10.0 先添加對應的臟詞分類接口,后續有時間完善對應的實現和詞典。

敏感詞標簽

說明

有時候我們希望對敏感詞加一個分類標簽:比如社情、暴/力等等。

這樣后續可以按照標簽等進行更多特性操作,比如只處理某一類的標簽。

支持版本:v0.10.0

入門例子

接口

這里只是一個抽象的接口,用戶可以自行定義實現。比如從數據庫查詢等。

public interface IWordTag {/*** 查詢標簽列表* @param word 臟詞* @return 結果*/Set<String> getTag(String word);}

配置文件

我們可以自定義 dict 標簽文件,通過 WordTags.file() 創建一個 WordTag 實現。

  • dict_tag_test.txt
五星紅旗 政治,國家

格式如下:

敏感詞 tag1,tag2

實現

具體的效果如下,在引導類設置一下即可。

默認的 wordTag 是空的。

String filePath = "dict_tag_test.txt";
IWordTag wordTag = WordTags.file(filePath);SensitiveWordBs sensitiveWordBs = SensitiveWordBs.newInstance().wordTag(wordTag).init();Assert.assertEquals("[政治, 國家]", sensitiveWordBs.tags("五星紅旗").toString());;

后續會考慮引入一個內置的標簽文件策略。

拓展閱讀

敏感詞工具實現思路

DFA 算法講解

敏感詞庫優化流程

java 如何實現開箱即用的敏感詞控臺服務?

開源地址

其他很多特性以前介紹過,不再贅述。

感興趣的話,前往開源地址:

https://github.com/houbb/sensitive-word

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/211923.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/211923.shtml
英文地址,請注明出處:http://en.pswp.cn/news/211923.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

幾種常用的壓力測試工具

1. JMeter 官網: Apache JMeter簡介: Apache JMeter 是一個開源軟件&#xff0c;主要用于性能測試和壓力測試。它可以用來測試靜態和動態資源&#xff0c;如文件、Web服務、REST API等。下載與使用: 訪問官網下載安裝包。解壓安裝包并運行 JMeter。通過創建測試計劃來設置壓力…

2023年終總結-輕舟已過萬重山

自我介紹 高考大省的讀書人 白&#xff0c;隴西布衣&#xff0c;流落楚、漢。-與韓荊州書 我來自孔孟故里山東濟寧&#xff0c;也許是小學時的某一天&#xff0c;我第一次接觸到了電腦&#xff0c;從此對它產生了強烈的興趣&#xff0c;高中我有一個愿望&#xff1a;成為一名計…

設計模式再探——裝飾模式

目錄 一、背景介紹二、思路&方案三、過程1.裝飾模式簡介2.裝飾模式的類圖3.裝飾模式代碼4.裝飾模式&#xff0c;職責父類拆分的奧義5.裝飾模式&#xff0c;部件抽象類的無中生有 四、總結五、升華 一、背景介紹 最近公司在做架構模型的時候&#xff0c;涉及到裝飾模式的研…

html網頁設計 01marquee標簽廣告滾動(1)

<!DOCTYPE html> <html><head><meta charset"utf-8"><title></title></head><body><!-- scrollamount:數字越大&#xff0c;滾動越快direction:滾動方向滾動的類型behaior"slide",文字滾動到邊界后就會…

Python中的lambda匿名函數詳解以及三種經典使用場景

lambda匿名函數 匿名函數&#xff0c;顧名思義就是不需要具體定義函數名的函數。我們首先拋開復雜的定義&#xff0c;看兩個具體例子。 先看一個無參數函數的例子。假設我們需要一個return 1的函數&#xff0c;如果使用普通的函數定義方式&#xff0c;其代碼為&#xff1a; …

vuepress-----20、全文搜索

默認主題自帶的搜索, 只會為頁面的標題、h2、h3 以及 tags構建搜索索引。所以盡量將圍繞知識點的關鍵字體現到標題上。而 tags 更為靈活&#xff0c;可以把相關的能想到的關鍵字都配置到 tags 中&#xff0c;以方便搜索。 默認插件介紹 (opens new window) 默認主體配置 (ope…

電子秤ADC芯片CS1237技術資料問題合集

問題11&#xff1a;實際應用中&#xff0c;多個稱重傳感器應該怎么與ADC連接&#xff1f; 解答&#xff1a;如果傳感器是測量同一物體&#xff08;例如&#xff1a;廚房垃圾處理器&#xff09;&#xff0c;一般建議使用并聯的方式。則相同類型的信號線連接在一起。對于傳感器的…

C語言指針基礎題(一)

目錄 例題一題目解析答案 例題二題目解析答案 例題三題目解析答案 例題四題目解析答案 例題五題目解析答案 例題六題目解析答案 例題七題目解析答案 感謝各位大佬對我的支持,如果我的文章對你有用,歡迎點擊以下鏈接 &#x1f412;&#x1f412;&#x1f412; 個人主頁 &#x…

C++ 教程 - 01 基礎篇

文章目錄 C介紹環境配置第一個cpp程序案例練習 變量常量關系運算符邏輯運算符條件運算符位運算符類型轉換分支循環程序調用綜合案例 C介紹 基于C語言&#xff0c;繼承了C的所有語法&#xff1b; 靜態類型語言&#xff0c;需要先編譯&#xff0c;再執行&#xff1b; 貼近底層硬…

雪花算法:分布式系統的關鍵藝術

導言 在探索分布式系統的奧秘時&#xff0c;我們經常遇到一個看似簡單卻極其關鍵的挑戰&#xff1a;如何高效、可靠地生成唯一的標識符&#xff08;ID&#xff09;。這不僅是技術的問題&#xff0c;更是一種藝術。讓我們深入探討雪花算法&#xff08;Snowflake Algorithm&…

windows下分卷解壓文件

我的文件是這樣的&#xff1a; 存放路徑為&#xff1a;C:\Users\Luli_study\MICCAI_MMAC\fudanuniversity\DDR dataset 首先要進入分卷文件的目錄cd&#xff1a; 第一步&#xff1a;cd /path/o/分卷問文件目錄 第二步&#xff1a; 執行之后的結果(紅色框出來的)&#xff1a; …

?functools --- 高階函數和可調用對象上的操作?

源代碼: Lib/functools.py functools 模塊應用于高階函數&#xff0c;即參數或&#xff08;和&#xff09;返回值為其他函數的函數。 通常來說&#xff0c;此模塊的功能適用于所有可調用對象。 functools 模塊定義了以下函數: functools.cache(user_function) 簡單輕量級未綁…

Vellum —— Fluid

目錄 Vellum fluids setups Fluid tips and troubleshooting Fluid phases Vellum fluids and soft bodies Vellum fluid vs FLIP fluid Vellum fluids setups Vellum fluid solver是基于粒子流體的解算框架&#xff0c;被完全集成到了Vellum動力學系統&#xff08;可與gr…

王道數據結構課后代碼題 p149 第3—— 7(c語言代碼實現)

目錄 3.編寫后序遍歷二叉樹的非遞歸算法 4.試給出二叉樹的自下而上、自右到左的層次遍歷算法 &#xff08;有圖解代碼詳解&#xff09;c語言代碼實現 5.假設二叉樹采用二叉鏈表存儲結構&#xff0c;設計一個非遞歸算法求二叉樹的高度。 ?編輯 6.設一棵二叉樹中各結點的值互不…

普冉(PUYA)單片機開發筆記(7): ADC-輪詢式多路采樣

概述 應用中經常會有使用單片機進行模數轉換的需求。PY32F003 具有 1 個 12 位的模擬數字轉換器&#xff08;ADC&#xff09;&#xff0c;今天我們一起來使用一下這個 ADC。 數據手冊中對 ADC 簡介如下。 SAR ADC&#xff1a;逐次逼近式 ADC&#xff0c;原理參見“參考鏈接&a…

1830_emacs lisp的交互式模式

org-mode的標記語法 Grey 全部學習匯總&#xff1a; GitHub - GreyZhang/g_org: my learning trip for org-mode 交互式模式 emacs的交互式模式讓我對emacs的生命力有了更進一步的認識&#xff0c;但是我并沒有找到什么特別豐富的資料做這方面的學習與分析。尤其是理論與實…

class070 子數組最大累加和問題與擴展-上【算法】

class070 子數組最大累加和問題與擴展-上【算法】 code1 53. 最大子數組和 // 累加和最大子數組和 // 給你一個整數數組 nums // 請你找出一個具有最大累加和的非空子數組 // 返回其最大累加和 // 測試鏈接 : https://leetcode.cn/problems/maximum-subarray/ dp[i]&#xff…

【Docker】Docker Compose,yml 配置指令參考的詳細講解

作者簡介&#xff1a; 辭七七&#xff0c;目前大二&#xff0c;正在學習C/C&#xff0c;Java&#xff0c;Python等 作者主頁&#xff1a; 七七的個人主頁 文章收錄專欄&#xff1a; 七七的閑談 歡迎大家點贊 &#x1f44d; 收藏 ? 加關注哦&#xff01;&#x1f496;&#x1f…

基于c++版數據結構基于數組棧改-Python思維總結

##棧部分-&#xff08;疊貓貓&#xff09; ##抽象數據類型棧的定義&#xff1a;是一種遵循先入后出的邏輯的線性數據結構。 換種方式去理解這種數據結構如果我們在一摞盤子中取到下面的盤子&#xff0c;我們首先要把最上面的盤子依次拿走&#xff0c;才可以繼續拿下面的盤子&…

【Java期末復習資料】(2)常見例題 //持續更新

本文章主要是常見例題&#xff0c;解析不會太詳細&#xff0c;有問題、不會的可以給我發消息哦&#xff0c;后續會出模擬卷 常見例題&#xff1a; 1.下列跟Java技術平臺有關的是&#xff08;ABD&#xff09; A.JVM B.JDK C.JPN D.JRE 2.面向對象的特征包括&#xff08;ACD&…