使用百度大脑iOCR,快速自定义机票行程单模板识别

作者:才能我浪费99

1. 功能介绍

百度已经推出了iOCR财会票据识别,针对财会报销场景提出的专项解决方案,可对各类财务票据、报销单、银行回单、对账单进行自动分类及结构化识别,并支持用户为固定版式的新票据/单据自定义结构化识别模板及分类器。百度iOCR财会票据识别功能非常的强大,我在:

这篇文章里面已经进行了比较详细的介绍,大家有兴趣可以看一下。

iOCR财会票据识别内置了7种票据格式,如果我们要对其他的票据识别,比如机票行程单,要怎么办呢? 这就是我们今天要介绍的自定义模板功能:百度iOCR自定义模板文字识别,针对未预置且版式固定的票据单据,用户只需上传一张模板图片,即可自助制作模板,建立图片中文字的Key-Value对应关系,实现对相同版式图片的结构化识别。

我们在今天的这篇文章里会带大家自定义一个机票行程单模板,包括相关的调用步骤、代码及使用方案。

2.模板定义及平台接入

进入界面后,如果以前没有定义过模板会提示大家建立模板,界面如图:

使用百度大脑iOCR,快速自定义机票行程单模板识别

大家按照提示进行操作,首先上传模板图片,这里选择一张机票行程单上传。

使用百度大脑iOCR,快速自定义机票行程单模板识别

使用百度大脑iOCR,快速自定义机票行程单模板识别

然后是定义参考字段,注意参考字段不是识别的内容,而是程序用来定位及判断是否为模板,还是别的内容的依据。

使用百度大脑iOCR,快速自定义机票行程单模板识别

然后是选择识别的内容,这个是要识别的数据。本例子中选择了姓名,总金额和机票号码,3个字段。

使用百度大脑iOCR,快速自定义机票行程单模板识别

选择后可以点击“试一试”看一下模板的效果

使用百度大脑iOCR,快速自定义机票行程单模板识别

如果满意,可以点击发布,将模板发布出去。要记录提示信息里面的模板ID,这个在下一步调用的时候要使用。

使用百度大脑iOCR,快速自定义机票行程单模板识别

3.自定义模板调用攻略(Python3)及评测

3.1首先认证授权:

在开始调用任何API之前需要先进行认证授权,具体的说明请参考:

具体Python3代码如下:

使用百度大脑iOCR,快速自定义机票行程单模板识别

3.2财会票据识别分析接口调用:

使用百度大脑iOCR,快速自定义机票行程单模板识别

请求参数:

使用百度大脑iOCR,快速自定义机票行程单模板识别

大家注意templateSign就是我们在提交定义模板的时候返回的ID。

返回参数:

使用百度大脑iOCR,快速自定义机票行程单模板识别

Python3调用代码如下:

使用百度大脑iOCR,快速自定义机票行程单模板识别

使用百度大脑iOCR,快速自定义机票行程单模板识别

4.功能评测:

选一张机票对效果进行测试,具体效果如下(以下例子均来自网上):

使用百度大脑iOCR,快速自定义机票行程单模板识别

处理时长:5.03秒

返回JSON为

{'data': {'ret': [{'probability': {'average': 0.952863, 'min': 0.495304, 'variance': 0.01743}, 'location': {'height': 13, 'left': 88, 'top': 332, 'width': 127}, 'word_name': 'Number', 'word': '8472412222853'}, {'probability': {'average': 0.903623, 'min': 0.725142, 'variance': 0.012429}, 'location': {'height': 13, 'left': 821, 'top': 303, 'width': 87}, 'word_name': 'Total', 'word': 'cNY320.0'}, {'probability': {'average': 0.991988, 'min': 0.976156, 'variance': 0.000125}, 'location': {'height': 16, 'left': 26, 'top': 112, 'width': 45}, 'word_name': 'Name', 'word': '刘凯敏'}], 'templateSign': '6def20f811df8072292e39aa2ea382cb', 'templateName': 'airticket', 'scores': 1.0, 'isStructured': True, 'logId': '156862155738090', 'clockwiseAngle': 0.0}, 'error_code': 0, 'error_msg': ''}

提取内容为:

Name:刘凯敏

Total: cNY320.0

Number: 8472412222853

测试下来,整体识别效果不错。

5.测试结论和建议

经过测试发现,整体识别效果很好。对于自定义票据有很强的识别能力。该功能大大的扩展了iOCR的识别范围,对业务中的各种票据都可以进行识别。对各类发票、收据、银行对账单、承兑汇票等常用财务票据进行模板制作,实现自动分类和结构化识别及财税场景的自动化,可以有效降低企业人力成本,控制业务风险。

还有一个建议就是希望能在录入模板的时候,提供智能选择功能,一键把所有识别出来的内容都选出来,然后让用户在这个基础上进行调整,加快模板的开发速度。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-11-19
使用百度大脑iOCR,快速自定义机票行程单模板识别
作者:才能我浪费991. 功能介绍百度已经推出了iOCR财会票据识别,针对财会报销场景提出的专项解决方案,可对各类财务票据、报销单、银行回单、对账单进行自动分类

长按扫码 阅读全文