一文详解多模态认知智能

一文,详解,模态,认知,智能 · 浏览次数 : 264

小编点评

**MMKG在自然语言处理领域中的应用** MMKG被应用于自然语言处理领域,用于跨越不同模态的知识连接和推理。例如,在文本理解中,MMKG可以将不同的语言信息连接起来,实现对文本、图片和音频内容的跨越式认知和分析。 **MMKG的优势** * 增强模型可靠性 * 强化知识推理能力 * 提升可解释性 * 优化训练成本 **MMKG的应用** * 大模型与知识图谱的实际场景 * AIGC时代的多模态知识工程思考与展望 **一些关键结论** * MMKG可以大大增强系统的认知和决策能力 * 它可以实现人机交互的更加智能化和自然化 * 未来方向将集中在如何充分利用多模态数据,提高模型的可靠性、推理能力和可解释性 **其他相关信息** * AIGC (人工智能大模型) *知识图谱 *多模态

正文

摘要:多模态认知智能是AI人工智能当前发展的主流趋势之一,其核心是以多模态知识的获取,表示与推理为主要内容的跨模态知识工程与认知智能,也是为了更好的处理多模态的数据,需要融合多种感知模态和智能处理技术。

本文分享自华为云社区《GPT-4发布,AIGC时代的多模态还能走多远?系列之三:多模态认知智能》,作者:码上开花_Lancer。

上两篇文章介绍了AIGC未来已来AIGC的阿克琉斯之踵,了解到AIGC当前的发展趋势和当前的一些不足之处,接下来给大家介绍AIGC时代的多模态技术的发展。

多模态认知智能是AI人工智能当前发展的主流趋势之一,其核心是以多模态知识的获取,表示与推理为主要内容的跨模态知识工程与认知智能,也是为了更好的处理多模态的数据,需要融合多种感知模态和智能处理技术。

01 多模态认知智能:研究框架

多模态认知智能是一种融合多种感知模态和智能处理技术的人工智能,旨在建立更加丰富、灵活和可信赖的人机交互平台。为此,需要研究一套完整的多模态认知智能研究框架,该框架应包含以下几个方面:

  1. 跨模态搜索:对于用户输入的问题或查询,系统能够同时从不同类型的媒介(包括文字、图片、视频、声音等)中检索相关信息,并将查询结果进行融合。
  2. 跨模态推荐:根据用户的兴趣偏好和历史行为,系统可以向用户推荐各种类型的内容,包括文章、音乐、电影、商品等,同时也能够将推荐内容进行个性化定制,提高用户的满意度。
  3. 跨模态问答:对于用户提出的问题,系统能够通过多种途径获取相关信息并进行自动回答。例如,用户可以通过文字或语音提出问题,系统会自动识别问题的语义和意图,并给出答案或建议。
  4. 跨模态生成:系统能够根据用户需求,自动生成各种类型的内容,包括文本、音频、视频、图像等。例如,系统可以根据用户提供的关键词生成一段语音介绍、一张图片、一份文章等。
  5. 多模态知识应用:系统能够通过自动学习和知识图谱等技术,从多种知识源中获取信息,并进行多模态应用。例如,系统可以将图像、文本和语音等不同类型的信息进行链接和融合,实现多模态信息展示和分析。 这些组成部分相互交织,形成了一个完整的多模态认知智能研究框架的基础。在实际应用中,多模态认知智能技术可以应用于各种领域,包括智能客服、智能家居、智能医疗、智能交通等。可以预见的是,未来多模态认知智能技术将会不断发展,为人类的生产和生活带来更多的便利和创新。

(多模态认知智能研究框架,图片来自网络)

02 多模态认知智能:两种实现路径

我们明白多模态认知智能研究框架以后,对于多模态认知智能,它是怎么样实现的呢?

多模态大模型是一种连接主义和经验主义相结合的实现路径。它的核心思想是利用海量预训练数据来构建一个大规模的神经网络模型,能够自动学习和提取多模态数据中的特征和关系,并实现对多种语言、图像、音频等多种形式的信息进行联合理解。该方法具有概率关联、简单鲁棒等优点,但在学习逻辑关系等方面仍有局限性。 多模态知识工程则是一种符号主义的实现路径,主要依赖专家系统和知识图谱等手段,通过对精选数据和专家知识的整合和转化,将其转换成符号知识,实现对多模态数据的解析和分析。该方法具有易推理、可控、可干预、可解释等特点,但在信息损失方面存在一定的问题。 综合来看,多模态大模型和多模态知识工程各有优缺点,需要根据应用场景和需求进行选择和设计。在未来的研究中,我们需要进一步探索如何更好地结合两种实现路径,充分利用它们各自的优势,实现多模态认知智能的高效、准确和可解释性。 数据转换成符号知识的过程往往伴随着巨大的信息损失,隐性知识、难以表达的知识是损失信息中的主体, 在AIGC大模型时代,多模态知识工程依然不可或缺。

(以上图来自网络)

03 多模态知识图谱(MMKG):两种主流形式

多模态知识工程中有一种常用的方法是利用知识图谱,这种方法被称为多模态知识图谱(MMKG)。与传统知识图谱不同,MMKG以多模态数据作为源头,从多方面描述实体和关系,构建出一个可以跨越多模态的知识体系。在MMKG中,多模态数据不仅仅作为文字符号实体的关联属性存在,还可以作为图谱中的实体存在,可与现有实体发生广泛关联。 MMKG的优势在于它能够消除多模态数据的异构性,将它们有机地结合在一起,使得系统能够实现对多模态数据的更加全面和深入的理解。同时,MMKG也能够提高数据的可发现性和可重用性,使得数据共享变得更加容易。

在实际应用中, 例如,假设你需要在家里搭建一套智能家居系统,这个系统需要支持语音控制、自动化定时等多种功能。那么,在建设过程中,MMKG就可以帮助系统对运作环境、设备状态、用户需求等方面的多模态数据进行综合分析和优化,从而提高系统的智能性、可靠性和适应性。 另一个具有代表性的例子是医疗领域的智能辅助诊断系统。这类系统会收集包括医学影像、实验室检查、文本记录等形式的多模态数据,利用MMKG进行知识关联、特征提取和预测策略优化等任务。通过这种方式,系统可以在医生与病人之间架起一座智能化的桥梁,让医疗决策变得更加全面、准确和科学。

(以上图片来自文章X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022)

MMKG已经被应用于多个领域,包括自然语言处理、计算机视觉、语音识别等。例如,在自然语言处理领域,MMKG可以将不同形式的语言信息连接起来,实现对文本、图片和音频内容的跨越式认知和分析;在计算机视觉领域,MMKG可以将图像和视频数据与其他领域的知识相结合,获得更具深度和复杂性的认知结果。 未来,随着各种智能设备的普及和多模态数据的日益增长,MMKG必将成为实现多模态认知智能的一个重要手段。我们需要进一步完善MMKG的理论框架和技术体系,在构建更加丰富和高效的多模态知识图谱的基础上,实现对多模态数据的更加准确和深刻的认知,推动人工智能技术的不断发展和应用。 总之,在多模态数据处理和应用方面,MMKG可以大大增强系统的认知和决策能力,实现人机交互的更加智能化和自然化,同时也可以促进各领域应用场景的创新和发展。

(以上图片来自文章《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022》)

04 AIGC多模态大模型VS大规模多模态知识图谱

在当前的自然语言处理领域中,多模态大模型和多模态知识图谱都有各自的优缺点。多模态大模型具有关联推理强、可适应多任务、人工成本低、适应能力强等优点,但其可靠程度低、知识推理能力弱、可解释性不足、训练成本高等不足之处也不容忽视。而多模态知识图谱则具有专业可信度高、可解释性强、可拓展性好等优点,但其推理能力弱、人工成本高、架构调整难等不足之处也同样存在。 针对这些不足之处,目前的研究方向主要包括以下几个方面:

  1. 提升模型可靠性:当前研究团队正在发掘不同模态的数据之间的潜在关系,并通过改进模型的结构和算法等方式提高其预测的准确率,从而提升模型的可靠程度。
  2. 强化知识推理能力:加强模型对知识的学习和推理能力,使其能够对数据背后的知识进行更深入的挖掘和分析,实现真正意义上的知识推理。
  3. 提升可解释性:通过增强模型的可解释性来提高其通用性和实用性,帮助人类理解和解释模型的预测结果。
  4. 优化训练成本:通过改进算法和并行计算技术等方式降低训练成本,提高模型的训练效率和稳定性。
  5. 自动化知识图谱构建:通过自动化抽取和建模技术来降低构建多模态知识图谱的人工成本,提升其可扩展性和实用性。

当前阶段,大模型与知识图谱仍应继续保持竞合关系,互相帮助,互为补充,未来的研究方向将集中在如何充分利用多模态数据,提高模型的可靠性、推理能力和可解释性,降低训练成本和构建成本,实现更加精准和智能的自然语言处理。那AIGC多模态大模型在多模态知识图谱的实际场景是怎么的呢?请期待我的下一篇文章GPT-4发布,AIGC时代的多模态还能走多远?系列之四 AIGC for MMKG。

参考:

部分内容参考来自复旦大学教授李直旭《AIGC时代的多模态知识工程思考与展望》

论文:《Google’s PaLM-E is a generalist robot brain that takes commands》

《X. Zhu, Z. Li et. al. Multi-Modal Knowledge Graph Construction and Application: A Survey, Accepted by TKDE in Dec. 2022

http://arxiv.org/abs/2206.14268 和http://arxiv.org/abs/2212.05767

 

点击关注,第一时间了解华为云新鲜技术~

与一文详解多模态认知智能相似的内容:

一文详解多模态认知智能

摘要:多模态认知智能是AI人工智能当前发展的主流趋势之一,其核心是以多模态知识的获取,表示与推理为主要内容的跨模态知识工程与认知智能,也是为了更好的处理多模态的数据,需要融合多种感知模态和智能处理技术。 本文分享自华为云社区《GPT-4发布,AIGC时代的多模态还能走多远?系列之三:多模态认知智能》

一文详解ATK Loss论文复现与代码实战

摘要:该方法的主要思想是使用数值较大的排在前面的梯度进行反向传播,可以认为是一种在线难例挖掘方法,该方法使模型讲注意力放在较难学习的样本上,以此让模型产生更好的效果。 本文分享自华为云社区《ATK Loss论文复现与代码实战》,作者:李长安。 损失是一种非常通用的聚合损失,其可以和很多现有的定义在单

Linux下PAM认证详解(以centos7为例)

Linux下PAM认证详解(以centos7为例) PAM简介(Pluggable Authentication Modules,可插拔认证模块) Sun公司于1995年开发的一种与认证相关的通用框架机制:PAM(可插拔认证模块)是实现认证工作的一个模块。 因为每个服务都用到不同的认证方式,所以就需

【解惑】孜孜不倦,用足球赛程详解c#中的yield return用法

在一个知名企业赞助的足球联赛中,有256支球队参赛。为了确保比赛的顺利进行,企业指派了小悦负责熬夜加班制定每一个球队的赛程。尽管她对足球的了解并不多,但是她对待工作的认真态度却让人钦佩。 在小悦的努力下,她顺利完成了第一轮、第二轮和第三轮的比赛安排。然而,在大赛开始前的模拟比赛中,她发现了一个严重的

AI时代你一定要知道的Agent概念

这两年,随着人工智能(AI)和计算能力的发展,AI应用的落地速度大大加快。以ChatGPT为代表的AI应用迅速火遍全球,成为打工人的常用工具。紧接着,多模态、AI Agent等各种高大尚的名词也逐渐进入大众视野,吸引了大量关注。那么,到底什么是AI Agent?下文半支烟将带你详细了解这个概念。 1

yolov5 筛选正样本流程 代码多图详解

正样本全称是anchor正样本,正样本所指的对象是anchor box,即先验框。 先验框:YOLO v2吸收了Faster RCNN的优点,设置了一定数量的预选框,使得模型不需要直接预测物体尺度与坐标,只需要预测先验框到真实物体的偏移,降低了预测难度。

记Codes 重新定义 SaaS模式开源免费研发项目管理平台——多事项闭环迭代的创新实现

市面上老一点的项目管理工具迭代下只含任务,其他一些新的项目管理工具迭代下包含了需求、任务和缺陷。迭代下只包含任务显然很不合理;只有需求、任务和缺陷,也是有问题的。且看文中详解。。。。。。

NIO的三大核心组件详解,充分说明为什么NIO在网络IO中拥有高性能!

一、写在开头 我们在上一篇博文中提到了Java IO中常见得三大模型(BIO,NIO,AIO),其中NIO是我们在日常开发中使用比较多的一种IO模型,我们今天就一起来详细的学习一下。 在传统的IO中,多以这种同步阻塞的IO模型为主,程序发起IO请求后,处理线程处于阻塞状态,直到请求的IO数据从内核空

万字长文详解如何使用Swift提高代码质量

京喜APP最早在2019年引入了Swift,使用Swift完成了第一个订单模块的开发。之后一年多我们持续在团队/公司内部推广和普及Swift,目前Swift已经支撑了70%+以上的业务。通过使用Swift提高了团队内同学的开发效率,同时也带来了质量的提升,目前来自Swift的Crash的占比不到1%。在这过程中不断的学习/实践,团队内的Code Review,也对如何使用Swift来提高代码质量有更深的理解。

详解数仓的向量化执行引擎

本文分享自华为云社区《GaussDB(DWS)向量化执行引擎详解》,作者: yd_212508532。 前言 适用版本:【基线功能】 传统的行执行引擎大多采用一次一元组的执行模式,这样在执行过程中CPU大部分时间并没有用来处理数据,更多的是在遍历执行树,就会导致CPU的有效利用率较低。而在面对OLA