数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

doccano,named,entity,recognition,ner · 浏览次数 : 0

小编点评

本文主要介绍了信息抽取中命名实体识别(Named Entity Recognition,简称NER)的应用和相关工具的使用方法。首先,文章解释了命名实体识别的概念,即在文本中识别具有特定意义的实体。接着,文章详细说明了数据准备的步骤,包括创建项目和上传文件。然后,文章介绍了项目创建的两种任务类型:抽取式任务和分类式任务,并展示了如何创建这些任务。此外,文章还讲述了如何定义标签、构建抽取式任务以及导出数据。最后,文章通过一个具体的医疗场景案例,展示了整个信息抽取的过程。 1. **命名实体识别**:本文首先介绍了命名实体识别的定义,即在文本中识别具有特定意义的实体。在开放域信息抽取中,抽取的类别没有限制,用户可以自己定义。 2. **数据准备**:文章详细描述了数据准备的步骤,包括创建项目和上传文件。上传的文件为txt格式,每一行为一条待标注文本。同时,文章给出了一个具体的文本文件示例,以便读者更好地理解数据准备的过程。 3. **项目创建与任务适配**:文章介绍了如何根据实际需要创建新的项目,并支持抽取式任务和分类式任务。项目创建后,可以适配多种任务类型,如命名实体识别、关系抽取、事件抽取等。 4. **标签构建与任务定义**:文章讲述了如何定义标签,包括Span与Relation两种标签类型。Span指原文本中的目标信息片段,如实体识别中某个类型的实体,事件抽取中的触发词和论元;Relation指原文本中Span之间的关系,如关系抽取中两个实体(Subject&Object)之间的关系,事件抽取中论元和触发词之间的关系。 5. **数据导出与查看**:文章介绍了如何选择导出的文件类型为JSONL(relation),并导出数据。导出的数据示例为json格式,包含id、text、entities、relations等字段。同时,文章展示了如何查看已标注的数据。 6. **案例分析**:文章通过一个具体的医疗场景案例,展示了整个信息抽取的过程。从创建项目、定义标签到导出数据,整个过程都进行了详细的说明。

正文


命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。在开放域信息抽取中抽取的类别没有限制,用户可以自己定义

安装

详见:数据标注工具 doccano | 文本分类(Text Classification)

数据准备

上传的文件为txt格式,每一行为一条待标注文本,示例:
corpus.txt 随便找了几个,一般都是垂直领域的数据标注

(右肝肿瘤)肝细胞性肝癌(II-III级,梁索型和假腺管型),肿瘤包膜不完整,紧邻肝被膜,侵及周围肝组织,未见脉管内癌栓(MVI分级:M0级)及卫星子灶形成。(肿物1个,大小4.2×4.0×2.8cm)。
患者20天前无明显诱因出现左侧胸背部持续性疼痛,于2025.02.01下城区中西医结合医院查胸部CT平扫示:右下肺少许炎症;肺气肿;慢性胰腺炎;建议追踪复查
双肺透亮度可,左下肺背段见一类圆开/结节影,大小约27X28mm,周围可见片状密度增高影,病变局部与胸膜粘连

创建项目

UIE 支持抽取与分类两种类型的任务,根据实际需要创建一个新的项目:

创建抽取式任务

image
image

上传

image
NOTE:doccano支持TextFile、TextLine、JSONL和CoNLL四种数据上传格式,UIE定制训练中统一使用TextLine这一文件格式,即上传的文件需要为txt格式,且在数据标注时,该文件的每一行待标注文本显示为一页内容。

定义标签

构建抽取式任务标签

抽取式任务包含Span与Relation两种标签类型,Span指原文本中的目标信息片段,如实体识别中某个类型的实体,事件抽取中的触发词和论元;Relation指原文本中Span之间的关系,如关系抽取中两个实体(Subject&Object)之间的关系,事件抽取中论元和触发词之间的关系。
以 corpus.txt 中的第一条数据为例(医疗场景-专病结构化):
image
image
image
image

任务标注

命名实体识别

image
image
image

导出数据

选择导出的文件类型为JSONL(relation),导出数据示例:
image

查看数据

image

标注数据保存在同一个文本文件中,每条样例占一行且存储为json格式,其包含以下字段

  • id: 样本在数据集中的唯一标识ID。
  • text: 原始文本数据。
  • entities: 数据中包含的Span标签,每个Span标签包含四个字段:
    • id: Span在数据集中的唯一标识ID。
    • start_offset: Span的起始token在文本中的下标。
    • end_offset: Span的结束token在文本中下标的下一个位置。
    • label: Span类型。
  • relations: 数据中包含的Relation标签,每个Relation标签包含四个字段:
    • id: (Span1, Relation, Span2)三元组在数据集中的唯一标识ID,不同样本中的相同三元组对应同一个ID。
    • from_id: Span1对应的标识ID。
    • to_id: Span2对应的标识ID。
    • type: Relation类型。

与数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)相似的内容:

数据标注工具 doccano | 命名实体识别(Named Entity Recognition,简称NER)

目录安装数据准备创建项目创建抽取式任务上传定义标签构建抽取式任务标签任务标注命名实体识别导出数据查看数据 命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具有特定意义的实体。在开放域信息抽取中,抽取的类别没有限制,用户可以自己定义。 安装 详见:数据标注工

数据标注工具 doccano | 文本分类(Text Classification)

目录安装运行 doccano打开 doccanno创建项目上传数据定义标签添加成员开始标注导出数据查看数据统计 数据标注工具 Label-Studio 安装 打开命令行(cmd、terminal)执行安装命令 # Python 3.8+ pip install doccano -i https://

数据标注工具 Label-Studio

Label-Studio导出数据后可通过label_studio.py脚本轻松将数据转换为输入模型时需要的形式,实现无缝衔接。 items["text"] = line["data"]["text"]

Workflow,要不要了解一下

摘要:Workflow本质是开发者基于实际业务场景开发用于部署模型或应用的流水线工具。 Workflow(也称工作流,下文中均可使用工作流进行描述)本质是开发者基于实际业务场景开发用于部署模型或应用的流水线工具。在机器学习的场景中,流水线可能会覆盖数据标注、数据处理、模型开发/训练、模型评估、应用开

【matplotlib基础】--坐标轴

Matplotlib的坐标轴是用于在绘图中表示数据的位置的工具。 坐标轴是图像中的水平和垂直线,它们通常表示为 x 轴和 y 轴。坐标轴的作用是帮助观察者了解图像中数据的位置和大小,通常标有数字或标签,以指示特定的值在图像中的位置。 1. 坐标轴范围 Matplotlib绘制图形时,会自动根据X,Y

【matplotlib基础】--刻度

Matplotlib中刻度是用于在绘图中表示数据大小的工具。 刻度是坐标轴上的数字或标签,用于指示数据的大小或值,通常以整数或小数表示,具体取决于坐标轴的类型和限制。 1. 主次刻度 默认的绘制时,坐标轴只有默认的主要刻度,如下所示: from matplotlib.ticker import Mu

【matplotlib基础】--图例

Matplotlib 中的图例是帮助观察者理解图像数据的重要工具。图例通常包含在图像中,用于解释不同的颜色、形状、标签和其他元素。 1. 主要参数 当不设置图例的参数时,默认的图例是这样的。 import numpy as np import matplotlib.pyplot as plt x =

揭秘报表新玩法!标配插件不再单调,如何用柱形图插件让你的报表瞬间高大上!

> 摘要:本文由葡萄城技术团队于博客园原创并首发。葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 # 前言 图表作为一款用于可视化数据的工具,可以帮助我们更好的分析和理解数据,并发现数据之间的关系和趋势。下面以柱形图为例介绍如何使用JavaScript在报表中引入图表。 本文使用软件

4.4 C++ Boost 数据集序列化库

Boost 库是一个由C/C++语言的开发者创建并更新维护的开源类库,其提供了许多功能强大的程序库和工具,用于开发高质量、可移植、高效的C应用程序。Boost库可以作为标准C库的后备,通常被称为准标准库,是C标准化进程的重要开发引擎之一。使用Boost库可以加速C应用程序的开发过程,提高代码质量和性能,并且可以适用于多种不同的系统平台和编译器。Boost库已被广泛应用于许多不同领域的C++应用程序

Python——比 Seaborn 更好的相关性热力图:Biokit Corrplot

在 Python 中我们日常分析数据的过程当中经常需要对数据进行相关性分析,相关性热力图(Correlation Heatmap)是我们经常使用的一种工具。通过相关性热力图,我们可以通过为相关性不同的数据使用不同深浅的不同颜色进行标记,从而直观地观察两两数据序列之间的相关性情况——这将有助于我们进一...