机器学习服务文本识别能力演进,大幅提升识别准确率

机器,学习,服务,文本,识别,能力,演进,大幅,提升,准确率 · 浏览次数 : 222

小编点评

**文本识别技术 (OCR) 的优势:** - 降低人工信息录入成本 - 快速、方便、提升产品易用性 - 提高数据的准确性和效率 **OCR 的应用场景:** - 交通场景:车牌识别、停车场管理 - 生活场景:证照识别、营业执照识别 -票据场景:发票凭证识别 - 其他场景:书籍、报告、简历识别 **HMS Core 的 OCR 能力:** - 支持任何角度的文本识别 - 对横竖排、弯曲文本精准识别 - 对文本段落进行准确划分 - 支持多语种 - 提供端侧和云侧推理 **主要语种支持:** - 中文(简体、繁体) - 英文 - 西班牙文 - 葡萄牙文 -意大利文 - 德语 - 法语 - 俄语 - 日文 - 韩文 - 波兰文 - 芬兰文 - 挪威文 - 瑞典文 - 丹麦文 - 土耳其文 - 泰文 -阿拉伯文 - 印地文 **技术升级:** - 端侧模型轻量化、准确率提升 - 云侧OCR能力演进 - 10个语种能力增强 - 87.62% 的中文识别准确率提升至 92.95%

正文

文本识别技术(OCR)可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来,代替了人工信息录入与检测等操作,降低了输入成本,快速、方便,提升产品的易用性。

随着技术的发展,OCR已经深入生活的诸多方面。交通场景下,主要用于车牌识别,便于停车场管理、智能交通、移动警务等;生活场景下,主要用于证照识别,便于提取身份证、银行卡、护照、结婚证、户口本、营业执照等证照图像的文字信息,还可对街景路牌进行识别;票据场景下,主要用于发票凭证识别,便于银行、税务等大量票据表格录入及长期存储;其他场景下,可以利用OCR对书籍、报告、简历、合同等文件进行识别,将纸质文件电子化,便于保存和查看。

Demo

HMS Core机器学习服务OCR能力在2020年01月15日首次上线,为开发者们提供了丰富的API接口,HMS Core OCR能力支持任意角度的文本识别,对横竖排、弯曲文本精准识别的同时,还能对文本段落进行准确划分,对文本内容精确定位。为了保证一些卡证、票据的隐私性,HMS Core OCR能力还支持端侧和云侧推理,端侧适合相机或视频画面实时处理,图片中稀疏文本识别,当调用端侧接口时,可识别中文(简体)、日文、韩文、拉丁语(包括英文、西班牙文、葡萄牙文、意大利文、德文、法文、俄文)10个语种;云侧对文字识别精度要求高,适合图片中稀疏文本识别、文档图片密集文本识别,当调用云侧接口时,可以识别中文(简体)、英文、西班牙文、葡萄牙文、意大利文、德文、法文、俄文、日文、韩文、波兰文、芬兰文、挪威文、瑞典文、丹麦文、土耳其文、泰文、阿拉伯文、印地文19个语种,核心语种的识别精度达到行业顶尖水平。

基于用户需求和技术进步,HMS Core 机器学习服务OCR能力进行了升级优化:端侧模型轻量化、准确率提升。

能力演进:

1、端侧模型轻量化:文本识别端侧10个语种能力增强(模型层面)

KPI不变,端侧模型轻量化压缩42%,运行所占内存从之前版本的19.4M降到11.1M左右。

模型的轻量化将模型体积缩小,并且可以轻量化展示,内存占比小,运行更加流畅。

2、准确率提升:云侧OCR能力演进(中文模型)

云侧OCR中文识别准确率从87.62%提升到92.95%,高于行业平均水准,竞争力大幅提高。

技术描述:

OCR是通过检测纸上的字符,以检测暗、亮的方式确定其形状,而后用字符识别法将形状翻译成计算机文字的过程。即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并经过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

由于通用领域中存在大量弯曲文本的情况,算法团队通过重新设计文本检测模型,在横向文本的基础上,增加了任意旋转角度、弯曲文本的支持,使得在出行、广告牌等场景下的准确率和易用性大大增加。

文本识别还支持纯端侧推理,在涉及各类卡证、票据等隐私信息的场景下,相比云侧服务更加安全、可靠。考虑到端侧设备的算力、功耗等因素,算法团队通过巧妙的模型框架设计、量化、剪枝等技术,在保证识别精度的情况下,将识别模型压缩到商用的标准,保证用户的使用体验。

竞品对比:

OCR能力演进后,端侧和云侧的识别准确率都在业界属于领先地位。

云侧平均准确率高于竞品约7%,时延仅为竞品的55%。

端侧平均准确率和模型体积均优于竞品,一些小语种的准确率甚至达到95%。

优化更新:

  1. 基于现在市面上OCR能力大多只针对印刷体字符, HMS Core机器学习服务正在进行通用手写体识别能力的开发(手写体识别、手写体+印刷体混合识别)。

  2. 加入更多语种,预计新增罗马尼亚语、马来语、菲律宾语等。

  3. 预计新增版面分析功能(PDF重排),机器学习服务支持多种内容识别处理功能,提升自身AI能力竞争力。

为了满足众多场景需要,HMS Core会不断开发新功能帮助开发者构建多元化应用,后续新增功能以华为HMS Core机器学习服务联盟官网为准。

了解更多详情>>

访问华为开发者联盟官网
获取开发指导文档
华为移动服务开源仓库地址:GitHubGitee

关注我们,第一时间了解 HMS Core 最新技术资讯~

与机器学习服务文本识别能力演进,大幅提升识别准确率相似的内容:

机器学习服务文本识别能力演进,大幅提升识别准确率

文本识别技术(OCR)可以识别收据、名片、文档照片等含文字的图片,将其中的文本信息提取出来,代替了人工信息录入与检测等操作,降低了输入成本,快速、方便,提升产品的易用性。 随着技术的发展,OCR已经深入生活的诸多方面。交通场景下,主要用于车牌识别,便于停车场管理、智能交通、移动警务等;生活场景下,主

在线文本翻译能力新增14个直译模型,打造以中文为轴心语言的翻译系统

经济全球化的今天,人们在工作和生活中经常会与外语打交道。相较传播性较广的英语而言,其他语种的识别和阅读对大多数人来说是一件难事,此时就需要借助语言翻译软件来帮助理解。 华为 HMS Core 机器学习服务(ML Kit)翻译功能提供了多种翻译模式,不仅可以满足应用出行购物、网络社交等日常场景,还提供

上新啦KIT

HMS Core上新啦!分析服务区服分析全新上线;机器学习服务OCR新增手写识别服务;3D建模续扫能力更新;视频编辑服务支持自定义上传素材……更多#HMS Core#能力可点击网页链接了解。 了解更多详情>> 访问华为开发者联盟官网 获取开发指导文档 华为移动服务开源仓库地址:GitHub、Gite

学node 之前你要知道这些

初识nodejs 19年年底一个偶然的机会接到年会任务,有微信扫码登录、投票、弹幕等功能,于是决定用node 来写几个服务,结果也比较顺利。 当时用看了下koa2的官方文档,知道怎么连接数据库、怎么映射表实体,怎么处理http,怎么处理异常等,就可以直接写起来了。从应用层面上来说 nodejs 入门

iptables简要介绍及使用iptables实践NAT技术

# 简介 iptables的文章多如牛毛,但是,我读了一些,发现虽然成体系,但是不便理解,今天就结合自己的理解,好好讲解下,另外,我们也会使用iptables来实验一个nat地址转换的demo,nat转换,通俗地讲,一般是为了解决ipv4公网地址不够用的问题,因此在学校、公司等机构的有公网ip的服务

[转帖]怎么查看Linux服务器硬件信息,这些命令告诉你

https://zhuanlan.zhihu.com/p/144368206 Linux服务器配置文档找不到,你还在为查询Linux服务器硬件信息发愁吗?学会这些命令,让你轻松查看Linux服务器的CPU,内存,硬盘,SN序列号等信息,根本就不用去机房。 一、查看CPU信息 CPU信息常常包括查看C

机器学习服务活体检测算法荣获CFCA权威安全认证

随着人脸识别技术在金融、医疗等多个领域的加速落地,网络安全、信息泄露等问题愈为突出,用户对应用稳定性和安全性的要求也更为严格。为保障各行业高效稳定的开展业务,提前发现和应对潜在安全风险,HMS Core 机器学习服务(ML Kit)持续演进人脸检测能力,通过海量样本集训练,不断增强对于非活体攻击的防

机器学习服务语音合成,解锁智能养娃新趋势

从翻阅图书绘本到捧着电子书,再到点开手机里的音频APP,随着“互联网+阅读”的逐步深入,儿童有声读物越来越受95后父母的欢迎,它的出现令年轻父母摆脱了为孩子讲故事的辛苦,而且有声读物配音发音更加标准,有助于孩子学习。 通过听儿童有声读物,不仅能让孩子听到有趣的故事增加其理解能力,拓宽知识面,听有声读

开发者问第五期

开发者问第五期问答分享来啦!如何实现虚实遮挡?如何打造沉浸感动态漫反射全局光照?机器学习服务OCR能力有哪些升级优化? 点击链接,了解更多: https://developer.huawei.com/consumer/cn/hms?ha_source=hmslt 了解更多详情>> 访问华为开发者联盟

贝壳找房: 为 AI 平台打造混合多云的存储加速底座

贝壳机器学习平台的计算资源,尤其是 GPU,主要依赖公有云服务,并分布在不同的地理区域。为了让存储可以灵活地跟随计算资源,存储系统需具备高度的灵活性,支持跨区域的数据访问和迁移,同时确保计算任务的连续性和高效性;此外,随着数据量的增长,元数据管理的压力也在逐渐加大。 贝壳机器学习平台团队从去年开始对