自然语言处理 Paddle NLP - 信息抽取技术及应用

自然语言,处理,paddle,nlp,信息,抽取,技术,应用 · 浏览次数 : 247

小编点评

**信息抽取即自动从无结构或半结构的文本中抽取出结构化信息的任务** * **实体抽取:**从文本中提取实体,例如人物姓名、组织名称、时间等。 * **关系抽取:**从文本中提取实体之间的关系,例如人物之间的关系类型(朋友、老师)。 * **事件抽取和知识图谱:**从文本中提取事件并构建知识图谱,表示实体之间的关系。 **评测指标** * **Precision:**抽取出的结果中对的比例。 * **Recall:**所有正确检索出的比例。 * **F1:**precision 和 recall 的综合平均,反映模型整体的性能。 **应用** * **医疗:**病历抽取、医疗记录检索。 * **金融:**财务报告分析、投资组合评估。 * **法律:**法律文件提取、法律法规搜索。 * **商业:**销售预测、市场分析。 * **其他领域:**文本摘要、机器翻译、问答系统。

正文

基础
自然语言处理(NLP)
自然语言处理PaddleNLP-词向量应用展示
自然语言处理(NLP)-前预训练时代的自监督学习
自然语言处理PaddleNLP-预训练语言模型及应用
自然语言处理PaddleNLP-文本语义相似度计算(ERNIE-Gram)
自然语言处理PaddleNLP-词法分析技术及其应用
自然语言处理PaddleNLP-快递单信息抽取
理解
自然语言处理PaddleNLP-信息抽取技术及应用
自然语言处理PaddleNLP-基于预训练模型完成实体关系抽取--实践
自然语言处理PaddleNLP-情感分析技术及应用-理论
自然语言处理PaddleNLP-情感分析技术及应用SKEP-实践
问答
自然语言处理PaddleNLP-检索式文本问答-理论
自然语言处理PaddleNLP-结构化数据问答-理论
翻译
自然语言处理PaddleNLP-文本翻译技术及应用-理论
自然语言处理PaddleNLP-机器同传技术及应用-理论
对话
自然语言处理PaddleNLP-任务式对话系统-理论
自然语言处理PaddleNLP-开放域对话系统-理论
产业实践
自然语言处理 Paddle NLP - 预训练模型产业实践课-理论

1.什么是信息抽取

即自动从无结构或半结构的文本中抽取出结构化信息的任务(病历抽取)

2.实体抽取
3.关系抽取
4.事件抽取

信息抽取和知识图谱是一个上下游的关系。抽取的结果,可以组装成知识图谱(一种存储知识的结构)

image
医疗、金融、法律,三大行业用得比较多
image
从问诊中抽取信息
image
贷款审核,大量的纸质、DPF文件,需要将里面的信息进行匹配审核
image

image

image
image

根据抽取结果在不在原文中对信息抽取分类
这次我们只关注抽取式,不在原文中的情况需要参考生成方法

  • 抽取式:结果在原文中
  • 生成式:结果不在原文中,如果生成的结果需要一个知识做为辅助,就需要知识图谱,很多时候不需要知识图谱
    image

抽取式分类

  • 实体抽取
  • 关系抽取
  • 事件抽取
    image

信息抽取的通用评测指标,所有的信息抽取都可以用它评
Precision:抽取出来的结果,抽出来10个,5个对的,就是 50%
Recall:关注模型漏了哪些东西,指标0~1,数值越高,模型越好
F1:Precision和Recall的综合平均,是两个的综合反映
image

抽取模型的关键要素:解码设计
image

实体抽取

从一段文本中抽取出文本内容,并识别为预定义的类别
image

一般是 BIO 解码方式 + CRF 模型结构
image

复杂的实体抽取,无法用 BIO 直接解决(用到关系抽取)
复杂实体抽取中的问题1:重叠嵌套
image
复杂实体抽取中的问题2:不连续
image

image

关系抽取

从文本中抽取出一对实体和预定义的关系类型,得到包含语义信息的实体关系三元组关系是有方向的,抽取的两个实体一般称作头实体(HeadEntity)和尾实体(TailEntity)
image

image
关系分类是关系抽取的第二步
image

解码设计
训练集需要人工标注或其它标注
简单关系抽取
image
复杂关系抽取,将 CRF 升级成 Sigmoid,判断大于 0.5 是一个类别,小于则不是
image
image

实体对组合
image
image

效果最好的模型,可以预测很多个类别
image
SPO 主谓宾
image
image

事件抽取

从一段文本中抽取出预定义的事件触发词和事件要素,组合为相应的结构化信息除了事件,实际应用中信息抽取的结果可能更加复杂,但都可以拆成关系抽取
image
image
image

视频:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1461929&sharedType=2&sharedUserId=2631487&ts=1687255180562
课件:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1567901&sharedType=2&sharedUserId=2631487&ts=1687255251418
实践视频:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedLesson=1461933&sharedType=2&sharedUserId=2631487&ts=1687255270609
实践代码:https://aistudio.baidu.com/aistudio/projectdetail/1978303?sUid=2631487&shared=1&ts=1687255348900

『基于深度学习的自然语言处理』:https://aistudio.baidu.com/aistudio/course/introduce/24177?sharedType=1&sharedUserId=2631487&ts=1687255213292

与自然语言处理 Paddle NLP - 信息抽取技术及应用相似的内容:

自然语言处理 Paddle NLP - 信息抽取技术及应用

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 快递单信息抽取 (ERNIE 1.0)

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 词向量应用展示

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 预训练语言模型及应用

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 文本语义相似度计算(ERNIE-Gram)

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 词法分析技术及其应用

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 情感分析技术及应用-理论

对带有感情色彩的主观性文本进行 分析、处理、归纳和推理的过程,输入文本 => (描述实体/entity,属性/aspect,情感/opinion ,观点持有者/holder,时间/time)

自然语言处理 Paddle NLP - 基于预训练模型完成实体关系抽取

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 情感分析技术及应用SKEP-实践

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N

自然语言处理 Paddle NLP - 检索式文本问答-理论

基础 [自然语言处理(NLP)](https://www.cnblogs.com/vipsoft/p/17450994.html) [自然语言处理PaddleNLP-词向量应用展示](https://www.cnblogs.com/vipsoft/p/17451860.html) [自然语言处理(N