数据标注工具 doccano | 文本分类(Text Classification)

doccano,text,classification · 浏览次数 : 10

小编点评

本文介绍了如何使用Doccano进行文档标注项目的创建、数据上传、标签定义、成员管理以及数据查看与分析。 1. **项目创建与初始化**: - 访问Doccano官网,使用pip安装Doccano。 - 在命令行中运行`doccano init`进行项目初始化,并设置用户名和密码。 - 创建新用户并赋予相应权限。 2. **任务类型选择**: - 在浏览器中访问Doccano Web Server。 - 根据需求选择任务类型,如文本分类、关系抽取等。 3. **数据上传与标注**: - 下载实验数据CSV文件。 - 在项目中上传数据,并在左侧菜单中定义标签。 - 添加成员并分配角色。 4. **开始标注与数据导出**: - 使用Start annotation按钮开始批注。 - 导出数据至Dataset页面,并选择导出格式。 5. **数据查看与分析**: - 使用Pandas库读取导出的数据。 - 对数据进行统计和分析。 总的来说,本文详细阐述了使用Doccano进行文档标注项目的整个流程,从项目创建到数据标注,再到数据分析和导出,为文档标注工作提供了实用的指导。

正文

数据标注工具 Label-Studio

安装

打开命令行(cmd、terminal)执行安装命令

# Python 3.8+
pip install doccano -i https://pypi.tuna.tsinghua.edu.cn/simplelabel

image

运行 doccano

#在电脑第一次运行的时候初始化doccano
#只需设置一次,之后不用再运行该命令
doccano init

#创建用户名及密码;例如现在有一个主管admin,1个标注员vipsoft
doccano createuser --username admin --password 123456
doccano createuser --username vipsoft --password 123456

#开启doccano服务
doccano webserver

完成上述操作后,另打开一个新的命令行,执行下列命令

# In another terminal, run the command:
doccano task

image
image

打开 doccanno

在浏览器里输入:http://localhost:8000/ 支持中文,挺好
image
输入用户名密码:
image

创建项目

  • 抽取式任务项目创建

    适配命名实体识别、关系抽取、事件抽取、评价观点抽取等任务

  • 分类式任务项目创建

    适配文本分类、句子级情感倾向分类等任务。

为创建项目,如图点击Create按钮。根据需要选择合适的项目类别,这里选择 文本分类 Text Classification
image
image
image

上传数据

实验数据下载:https://hidadeng.github.io/blog/doccano_text_anotation/data.csv
image

上传数据
image
下面的 review 对应 csv 里的列
image
image

定义标签

击左侧菜单中的“Labels”按钮来定义我们的标签。我们看到标签编辑器页面。在标签编辑器页面中,您可以通过指定标签文本、快捷键、背景颜色和文本颜色来创建标签。
image
同理,可以定义负面neg标签。现在有了pos和neg两个标签。
image

添加成员

点击左侧目录中的 Members 按钮,然后,选择“Add”按钮以显示表单。使用您要添加到项目中的用户名和角色填写此表单。然后,选择“Save”按钮。如果没有可供选择的成员,记得创建成员。doccano createuser --username tom --password 123456
image

开始标注

点击导航栏中的Start annotation按钮,开始对文档进行批注了
image

导出数据

到“Dataset”页面,然后单击“操作”菜单中的“Export dataset”按钮。选择导出格式后,单击“Export”。
image

查看数据

import pandas as pd

df = pd.read_csv('all.csv')
df

image

统计

image

与数据标注工具 doccano | 文本分类(Text Classification)相似的内容:

数据标注工具 doccano | 文本分类(Text Classification)

目录安装运行 doccano打开 doccanno创建项目上传数据定义标签添加成员开始标注导出数据查看数据统计 数据标注工具 Label-Studio 安装 打开命令行(cmd、terminal)执行安装命令 # Python 3.8+ pip install doccano -i https://

数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

目录安装数据准备创建项目创建抽取式任务上传定义标签构建抽取式任务标签任务标注命名实体识别导出数据查看数据 命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。在开放域信息抽取中,抽取的类别没有限制,用户可以自己定义。 安装 详见:数据标注工

数据标注工具 Label-Studio

Label-Studio导出数据后可通过label_studio.py脚本轻松将数据转换为输入模型时需要的形式,实现无缝衔接。 items["text"] = line["data"]["text"]

Workflow,要不要了解一下

摘要:Workflow本质是开发者基于实际业务场景开发用于部署模型或应用的流水线工具。 Workflow(也称工作流,下文中均可使用工作流进行描述)本质是开发者基于实际业务场景开发用于部署模型或应用的流水线工具。在机器学习的场景中,流水线可能会覆盖数据标注、数据处理、模型开发/训练、模型评估、应用开

【matplotlib基础】--坐标轴

Matplotlib的坐标轴是用于在绘图中表示数据的位置的工具。 坐标轴是图像中的水平和垂直线,它们通常表示为 x 轴和 y 轴。坐标轴的作用是帮助观察者了解图像中数据的位置和大小,通常标有数字或标签,以指示特定的值在图像中的位置。 1. 坐标轴范围 Matplotlib绘制图形时,会自动根据X,Y

【matplotlib基础】--刻度

Matplotlib中刻度是用于在绘图中表示数据大小的工具。 刻度是坐标轴上的数字或标签,用于指示数据的大小或值,通常以整数或小数表示,具体取决于坐标轴的类型和限制。 1. 主次刻度 默认的绘制时,坐标轴只有默认的主要刻度,如下所示: from matplotlib.ticker import Mu

【matplotlib基础】--图例

Matplotlib 中的图例是帮助观察者理解图像数据的重要工具。图例通常包含在图像中,用于解释不同的颜色、形状、标签和其他元素。 1. 主要参数 当不设置图例的参数时,默认的图例是这样的。 import numpy as np import matplotlib.pyplot as plt x =

揭秘报表新玩法!标配插件不再单调,如何用柱形图插件让你的报表瞬间高大上!

> 摘要:本文由葡萄城技术团队于博客园原创并首发。葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 # 前言 图表作为一款用于可视化数据的工具,可以帮助我们更好的分析和理解数据,并发现数据之间的关系和趋势。下面以柱形图为例介绍如何使用JavaScript在报表中引入图表。 本文使用软件

4.4 C++ Boost 数据集序列化库

Boost 库是一个由C/C++语言的开发者创建并更新维护的开源类库,其提供了许多功能强大的程序库和工具,用于开发高质量、可移植、高效的C应用程序。Boost库可以作为标准C库的后备,通常被称为准标准库,是C标准化进程的重要开发引擎之一。使用Boost库可以加速C应用程序的开发过程,提高代码质量和性能,并且可以适用于多种不同的系统平台和编译器。Boost库已被广泛应用于许多不同领域的C++应用程序

Python——比 Seaborn 更好的相关性热力图:Biokit Corrplot

在 Python 中我们日常分析数据的过程当中经常需要对数据进行相关性分析,相关性热力图(Correlation Heatmap)是我们经常使用的一种工具。通过相关性热力图,我们可以通过为相关性不同的数据使用不同深浅的不同颜色进行标记,从而直观地观察两两数据序列之间的相关性情况——这将有助于我们进一...