簡介
開源鏈接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.
Open source annotation tool for machine learning practitioners.
Doccano是一款開源的文本標注工具,由人工智能公司Hironsan開發并在GitHub上發布。它提供了一個直觀而功能強大的用戶界面,使用戶可以輕松地進行文本標注、數據注釋和標注項目的管理。Doccano支持多種類型的標注任務,例如命名實體識別、情感分析、文本分類等。
Doccano是Documment anotation的縮寫,是一個開源的文本標注工具,我們可以用它為情感分析、命名實體識別、文本摘要、意圖識別、插槽填充、圖片分類等NLP任務的語料庫打標簽。
Doccano的特點:
- 用戶友好的界面:Doccano的界面設計簡潔直觀,無需編程經驗即可輕松上手。用戶可以通過拖放和選擇標簽等方式進行標注,同時還提供了實時預覽和反饋功能。
- 多用戶協作:Doccano支持多用戶協作,團隊成員可以共同參與標注項目,并通過評論和討論功能進行實時溝通和協作。
- 自定義標簽模式:Doccano允許用戶自定義標簽,以適應不同的標注任務和領域需求。用戶可以根據具體情況創建自己的標簽集合,并為每個標簽定義相應的顏色和含義。
- 可擴展性:Doccano是開源工具,用戶可以根據需要進行自定義擴展和功能添加。此外,它支持多種數據格式的導入和導出,包括JSON、CSV等。
電腦環境
操作系統名稱:Microsoft Windows 11 家庭中文版
系統類型:基于 x64 的電腦
電腦已安裝了docker desktop和MinGW-w64
關于Docker安裝,可以參考:windows安裝Docker Desktop及國內鏡像
MinGW 的全稱是:Minimalist GNU on Windows 。它實際上是將經典的開源 C語言 編譯器 GCC 移植到了 Windows 平臺下,并且包含了 Win32API ,因此可以將源代碼編譯為可在 Windows 中運行的可執行程序。而且還可以使用一些 Windows 不具備的,Linux平臺下的開發工具。更多信息可以訪問MinGW官網。MinGW-w64 的代碼和可執行文件被托管存儲在 SourceForge 上,安裝包下載訪問: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net
安裝和啟動
根據Doccano官方介紹,給出了三種安裝方式:
- pip (Python 3.8+)
- Docker: 通過docker pull直接拉取(下載)鏡像
- Docker Compose:從git倉庫下載源碼,然后指定環境變量后創建并啟動容器。
我的電腦已安裝了docker和MinGW-w64,所以直接用較為簡單的Docker pull方式安裝 Doccano鏡像資源。
按照Docker方式安裝,步驟如下:
注意一定是在MinGW32窗口運行,不能直接在windows命令行窗口運行,否則即使可以運行下面命令,但是無法啟動容器)
(可能原因是:Windows 10 或 Windows 11 專業版或企業版支持運行 Windows 容器,但是Windows 家庭版或教育版僅支持運行 Linux 容器)
1、拉取鏡像資源
docker pull doccano/doccano
2、作為一次性設置,按如下方式創建Docker容器:
docker container create --name doccano \-e "ADMIN_USERNAME=admin" \-e "ADMIN_EMAIL=admin@example.com" \-e "ADMIN_PASSWORD=password" \-v doccano-db:/data \-p 8000:8000 doccano/doccano
3、接下來,通過運行容器啟動doccano:
docker container start doccano
容器已啟動,最后在瀏覽器運行:http://127.0.0.1:8000/
注1:如果要停止容器,請運行
docker container stop doccano-t 5
這是一種優雅停止(Graceful Shutdown)的方式,給它 5 秒的時間來完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 將強制停止它。
注2:如果要使用最新功能,請指定nightly標簽:
docker pull doccano/doccano:nightly
使用Doccano進行標注任務
進入瀏覽器運行:http://127.0.0.1:8000/
點擊“快速開始”, 會進入到登錄頁碼:
整理的用戶名和密碼就是我們前面在創建docker容器時,設置的管理員參數(這里只是示例,參數值可以自行修改):
-e "ADMIN_USERNAME=admin" \
-e "ADMIN_EMAIL=admin@example.com" \
-e "ADMIN_PASSWORD=password" \
登錄后,我們就可以創建項目,開展我們的標注任務了。
點擊創建項目,有下面九種項目類型可以選擇,填寫:項目名稱、描述和Tags(項目標簽,它不是標注內容標簽),以及勾選標注任務管理相關的選項(是否允許項目成員創建標簽類型、文檔按順序還是打散排列、標注結果所有成員共享可見)。
注:如果前端頁面展示全部是英文,可以點擊右上角的語言選項,設置中文展示。
標注項目創建完后,我們就可以點擊項目,進入到了該項目的“數據標注平臺”頁面。
在該頁面,我們可以導入數據集、添加成員、創建或導入任務內容標簽、統計和導出結果等。
總結一下,使用Doccano進行標注任務的步驟如下:
- 準備數據:將待標注的文本數據導入Doccano,可以是文本文件或數據集。
- 創建標注項目:在Doccano中創建一個新的標注項目,并定義標簽集合。
- 標注文本:使用Doccano提供的界面工具,對文本進行標注。可以選擇文本片段、標注對應的標簽,并添加注釋。
- 數據管理和導出:管理標注項目,查看已標注和未標注的文本,進行數據的導入和導出。
NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四種數據上傳格式,在百度PaddleNLP的UIE(通用信息抽取)定制訓練中統一使用TextLine這一文件格式,即上傳的文件需要為txt格式,且在數據標注時,該文件的每一行待標注文本顯示為一頁內容。
上傳文件:將文件拖入,點擊左下角導入。
參考:
強烈推薦:數據標注平臺doccano----簡介、安裝、使用、踩坑記錄
超越傳統標注方法:doccano平臺提供智能化數據標注解決方案-CSDN博客