Windows安裝和使用Doccano標注工具

簡介

開源鏈接:GitHub - doccano/doccano: Open source annotation tool for machine learning practitioners.

Open source annotation tool for machine learning practitioners.

Doccano是一款開源的文本標注工具,由人工智能公司Hironsan開發并在GitHub上發布。它提供了一個直觀而功能強大的用戶界面,使用戶可以輕松地進行文本標注、數據注釋和標注項目的管理。Doccano支持多種類型的標注任務,例如命名實體識別、情感分析、文本分類等。

Doccano是Documment anotation的縮寫,是一個開源的文本標注工具,我們可以用它為情感分析、命名實體識別、文本摘要、意圖識別、插槽填充、圖片分類等NLP任務的語料庫打標簽。

Doccano的特點:

  • 用戶友好的界面:Doccano的界面設計簡潔直觀,無需編程經驗即可輕松上手。用戶可以通過拖放和選擇標簽等方式進行標注,同時還提供了實時預覽和反饋功能。
  • 多用戶協作:Doccano支持多用戶協作,團隊成員可以共同參與標注項目,并通過評論和討論功能進行實時溝通和協作。
  • 自定義標簽模式:Doccano允許用戶自定義標簽,以適應不同的標注任務和領域需求。用戶可以根據具體情況創建自己的標簽集合,并為每個標簽定義相應的顏色和含義。
  • 可擴展性:Doccano是開源工具,用戶可以根據需要進行自定義擴展和功能添加。此外,它支持多種數據格式的導入和導出,包括JSON、CSV等。

電腦環境

操作系統名稱:Microsoft Windows 11 家庭中文版

系統類型:基于 x64 的電腦

電腦已安裝了docker desktop和MinGW-w64

關于Docker安裝,可以參考windows安裝Docker Desktop及國內鏡像

MinGW 的全稱是:Minimalist GNU on Windows 。它實際上是將經典的開源 C語言 編譯器 GCC 移植到了 Windows 平臺下,并且包含了 Win32API ,因此可以將源代碼編譯為可在 Windows 中運行的可執行程序。而且還可以使用一些 Windows 不具備的,Linux平臺下的開發工具。更多信息可以訪問MinGW官網。MinGW-w64 的代碼和可執行文件被托管存儲在 SourceForge 上,安裝包下載訪問: MinGW-w64 - for 32 and 64 bit Windows - Browse /mingw-w64/mingw-w64-release at SourceForge.net

安裝和啟動

根據Doccano官方介紹,給出了三種安裝方式:

  • pip (Python 3.8+)
  • Docker: 通過docker pull直接拉取(下載)鏡像
  • Docker Compose:從git倉庫下載源碼,然后指定環境變量后創建并啟動容器。

我的電腦已安裝了docker和MinGW-w64,所以直接用較為簡單的Docker pull方式安裝 Doccano鏡像資源。

按照Docker方式安裝,步驟如下:

注意一定是在MinGW32窗口運行,不能直接在windows命令行窗口運行,否則即使可以運行下面命令,但是無法啟動容器)

(可能原因是:Windows 10 或 Windows 11 專業版或企業版支持運行 Windows 容器,但是Windows 家庭版或教育版僅支持運行 Linux 容器)

1、拉取鏡像資源

docker pull doccano/doccano

2、作為一次性設置,按如下方式創建Docker容器

docker container create --name doccano \-e "ADMIN_USERNAME=admin" \-e "ADMIN_EMAIL=admin@example.com" \-e "ADMIN_PASSWORD=password" \-v doccano-db:/data \-p 8000:8000 doccano/doccano

3、接下來,通過運行容器啟動doccano:

docker container start doccano

容器已啟動,最后在瀏覽器運行:http://127.0.0.1:8000/

注1:如果要停止容器,請運行

docker container stop doccano-t 5

這是一種優雅停止(Graceful Shutdown)的方式,給它 5 秒的時間來完成任何必要的清理操作。如果 5 秒后容器仍未停止,Docker 將強制停止它。

注2:如果要使用最新功能,請指定nightly標簽:

docker pull doccano/doccano:nightly

使用Doccano進行標注任務

進入瀏覽器運行:http://127.0.0.1:8000/

點擊“快速開始”, 會進入到登錄頁碼:

整理的用戶名和密碼就是我們前面在創建docker容器時,設置的管理員參數(這里只是示例,參數值可以自行修改):

-e "ADMIN_USERNAME=admin" \

-e "ADMIN_EMAIL=admin@example.com" \

-e "ADMIN_PASSWORD=password" \

登錄后,我們就可以創建項目,開展我們的標注任務了。

點擊創建項目,有下面九種項目類型可以選擇,填寫:項目名稱、描述和Tags(項目標簽,它不是標注內容標簽),以及勾選標注任務管理相關的選項(是否允許項目成員創建標簽類型、文檔按順序還是打散排列、標注結果所有成員共享可見)。

注:如果前端頁面展示全部是英文,可以點擊右上角的語言選項,設置中文展示。

標注項目創建完后,我們就可以點擊項目,進入到了該項目的“數據標注平臺”頁面。

在該頁面,我們可以導入數據集、添加成員、創建或導入任務內容標簽、統計和導出結果等。

總結一下,使用Doccano進行標注任務的步驟如下:

  1. 準備數據:將待標注的文本數據導入Doccano,可以是文本文件或數據集。
  2. 創建標注項目:在Doccano中創建一個新的標注項目,并定義標簽集合。
  3. 標注文本:使用Doccano提供的界面工具,對文本進行標注。可以選擇文本片段、標注對應的標簽,并添加注釋。
  4. 數據管理和導出:管理標注項目,查看已標注和未標注的文本,進行數據的導入和導出。

NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四種數據上傳格式,在百度PaddleNLP的UIE(通用信息抽取)定制訓練中統一使用TextLine這一文件格式,即上傳的文件需要為txt格式,且在數據標注時,該文件的每一行待標注文本顯示為一頁內容。

上傳文件:將文件拖入,點擊左下角導入。

參考:

強烈推薦:數據標注平臺doccano----簡介、安裝、使用、踩坑記錄

超越傳統標注方法:doccano平臺提供智能化數據標注解決方案-CSDN博客

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/44388.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/44388.shtml
英文地址,請注明出處:http://en.pswp.cn/web/44388.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【算法】代碼隨想錄之數組

文章目錄 前言 一、二分查找法(LeetCode--704) 二、移除元素(LeetCode--27) 三、有序數組的平方(LeetCode--977) 四、長度最小的子數組(LeetCode--209) 五、螺旋矩陣II&#x…

花幾千上萬學習Java,真沒必要!(二)

1、注釋: java代碼注釋分3種: 單行注釋://注釋信息 多行注釋: /*注釋信息*/ 文檔注釋:/**注釋信息*/ public class TestComments {// 這是單行注釋,用于注釋單行代碼或解釋代碼功能/* 這是多行注釋,用于注釋多行代碼…

Kotlin runCatching try-catch耗時比較

Kotlin runCatching try-catch耗時比較 fun main(args: Array<String>) {val lists arrayListOf("z")val idx 10/***納秒統計** ns&#xff08;nanosecond&#xff09;&#xff1a;納秒。一秒的10億分之一&#xff0c;10的-9次方秒。*   1納秒0.000001 毫秒…

基于實現Runnable接口的java多線程

Java多線程通常可以通過繼承Thread類或者實現Runnable接口實現。本文主要介紹實現Runnable接口的java多線程的方法, 并通過ThreadPoolTaskExecutor調用執行&#xff0c;以及應用場景。 一、應用場景 異步、并行、子任務、磁盤讀寫、數據庫查詢、網絡請求等耗時操作等。 以下…

筆記:在Entity Framework Core中如何處理多線程操作DbContext

一、目的&#xff1a; 在使用Entity Framework Core (EF Core) 進行多線程操作時&#xff0c;需要特別注意&#xff0c;因為DbContext類并不是線程安全的。這意味著&#xff0c;你不能從多個線程同時使用同一個DbContext實例進行操作。嘗試這樣做可能會導致數據損壞、異常或不可…

C語言排序之快速排序

快速排序是一種高效的排序算法。它采用了分治的策略&#xff0c;通過選擇一個基準元素&#xff0c;將待排序的序列劃分為兩部分&#xff0c;一部分的元素都比基準元素小&#xff0c;另一部分的元素都比基準元素大&#xff0c;然后對這兩部分分別進行快速排序&#xff0c;從而實…

前端開發工具

Lodash 有普通的 CommonJS 版本&#xff08;通常稱為 lodash&#xff09;和 ES6 模塊版本&#xff08;稱為 lodash-es&#xff09;。它們的主要區別包括&#xff1a; 模塊化&#xff1a;lodash 是傳統的 CommonJS 模塊&#xff0c;可使用 require 或 import 引入&#xff1b;lo…

2024年,搞AI就別卷模型了

你好&#xff0c;我是三橋君 2022年11月30日&#xff0c;OpenAI發布了一款全新的對話式通用人工智能工具——ChatGPT。 該工具發布后&#xff0c;僅用5天時間就吸引了100萬活躍用戶&#xff0c;而在短短2個月內&#xff0c;其活躍用戶數更是飆升至1億&#xff0c;成為歷史上增…

ARP協議介紹與ARP協議的攻擊手法

ARP是什么&#xff1f; ARP是通過網絡地址&#xff08;IP&#xff09;來定位機器MAC地址的協議&#xff0c;它通過解析網絡層地址&#xff08;IP&#xff09;來找尋數據鏈路層地址&#xff08;MAC&#xff09;的網絡傳輸協議。 對個定義不能理解的話&#xff0c;可以結合 TCP/I…

《戀與深空》2.0上線肉鴿模式,乙游玩家會買賬嗎?

乙游和肉鴿&#xff0c;看似八竿子打不著的兩個賽道&#xff0c;被疊紙給融合起來了。 根據《戀與深空》官方消息&#xff0c;即將在7月15日更新的2.0交錯視界版本中&#xff0c;會上線全新常駐玩法“混沌深網”&#xff0c;配置高隨機性Roguelike模式&#xff0c;并搭載了管理…

理想文檔發布了~一個集合了多個優秀開源項目的在線云文檔

兩年前我做了一個簡單的在線云文檔項目&#xff0c;選擇了開源的思維導圖、白板、流程圖、幻燈片等項目&#xff0c;在它們基礎上添加了云存儲的功能&#xff0c;然后寫了一個簡單的工作臺管理文件夾和文件&#xff1a; 放在了自己的個人網站上使用&#xff0c;同時寫了一篇水文…

【Leetcode 每日一題】349. 兩個數組的交集

給定兩個數組 nums1 和 nums2 &#xff0c;返回 它們的 交集 。輸出結果中的每個元素一定是 唯一 的。我們可以 不考慮輸出結果的順序 。 示例 1&#xff1a; 輸入&#xff1a;nums1 [1,2,2,1], nums2 [2,2] 輸出&#xff1a;[2]示例 2&#xff1a; 輸入&#xff1a;nums…

[web]-代碼審計-運維失誤

打開頁面可以看到如下&#xff1a; 1、查看源代碼&#xff0c;發現驗證碼功能是正常生成的隨機的&#xff0c;輸入也沒有過濾&#xff0c;無法采用爆破。 2、根據題目提示運維失誤&#xff0c;使用dirsearch掃描&#xff0c;發現提交的地址check.php, 使用php5、.bak可以打開&…

2.The DispatcherServlet

The DispatcherServlet Spring的Web MVC框架與許多其他Web MVC框架一樣&#xff0c;是請求驅動的&#xff0c;圍繞一個中央Servlet&#xff08;即DispatcherServlet&#xff09;設計&#xff0c;該Servlet將請求分派給控制器&#xff0c;并提供其他功能以促進Web應用程序的開發…

創建I/O文件fopen

#include〈stdio.h〉 int mian(int argc,char *argv[]){ FILE *fp;//結構體fp fpfopen&#xff08;“1.txt”&#xff0c;“r”&#xff09;; }

程序的控制結構——if-else語句(雙分支結構)【互三互三】

目錄 &#x1f341; 引言 &#x1f341;if-else語句&#xff08;雙分支結構&#xff09; &#x1f449;格式1&#xff1a; &#x1f449;功能&#xff1a; &#x1f449;程序設計風格提示&#xff1a; &#x1f449;例題 &#x1f449;格式2&#xff1a; &#x1f449;…

Monaco 使用 ColorProvider

Manco 中可以使用調色板對色值進行修改&#xff0c;首先看一下調色版效果。 調色板是 Monaco-Editor 中一個特別的組件&#xff0c;通過兩個方法實現呼出調色板&#xff0c;provideColorPresentations 顯示調色窗口&#xff0c;provideDocumentColors 監聽頁面的變更&#xff0…

如何將libwebsockets庫編譯為x86架構

在之前的文章中&#xff0c;我們已經詳細介紹了如何交叉編譯libwebsockets并將其部署到ELF 1開發板上。然而在調試階段&#xff0c;發現將libwebsockets在Ubuntu環境下編譯為x86架構可能更為方便和高效。 通過在主機環境中編譯運用x86架構下的libwebsockets庫&#xff0c;可以…

阿里ChatSDK使用,開箱即用聊天框

介紹&#xff1a; 效果&#xff1a;智能助理 ChatSDK&#xff0c;是在ChatUI的基礎上&#xff0c;結合阿里云智能客服的最佳實踐&#xff0c;沉淀和總結出來的一個開箱即用的&#xff0c;可快速搭建智能對話機器人的框架。它簡單易上手&#xff0c;通過簡單的配置就能搭建出對…

Flowable工作流引擎核心事件詳細解釋說明

Flowable工作流引擎核心事件詳細解釋說明 流程執行事件 需要了解全部詳細事件的請看這個鏈接Flowable&#xff08;一個開源的工作流和業務流程管理引擎&#xff09;中與事件相關的一些核心概念 流程開始和結束事件 PROCESS_STARTED&#xff1a;標記流程實例的開始。PROCESS…