想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

近年来，学生党们拥有了一款新的学习神器——拍照搜题。当遇到不会做的题目时，只需要对着题目拍照，手机中就会出现这道题目的详细解答思路和答案。

“拍照搜题”背后的黑科技就是光学字符识别技术，即OCR。OCR是指电子设备，例如扫描仪或相机检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别的方法将形状翻译成计算机文字的过程。

OCR的应用领域十分广泛。最早为我们熟知的“哪里不会点哪里”的点读机就应用了OCR。点读机的点读笔中装有一个扫描文字的摄像头，当点读笔接触到书本后，便可将文字内容识别和提取。

作为常用的一款办公软件，扫描全能王可以实现“图片转文字”的功能。软件可以识别各种文件类型中的文字信息，这是非常典型的OCR技术的应用。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

目前，文本识别分为以下几类：

·通用文字识别：一般是指如PDF等不规则文档类的识别。

·卡证识别：包括身份证、银行卡、营业执照、名片、护照、港澳通行证、户口本、驾驶证、行驶证等等。

·票据识别：包括增值税发票、定额发票、火车票、出租车票、行程单、保单、银行单据等等。

·其他：如车牌、车辆合格证、印章检测等等。

随着分类的不断拓展，OCR技术的应用场景也越来越广泛，以下是几个应用较为成熟的领域：

·远程身份认证：结合OCR和人脸识别技术，实现用户证件信息的自动录入，并完成用户身份验证。应用于金融保险、社保、O2O等行业，有效控制业务风险。

·内容审核与监管：自动识别图片、视频中的文字内容，及时发现涉黄、涉暴、政治敏感、恶意广告等不合规内容，规避业务风险，大幅节约人工审核成本。

·纸质文档票据电子化：通过OCR实现纸质文档资料、票据、表格的自动识别和录入，减少人工录入成本，提高输入效率。

针对上述的场景，基于深度学习的技术而言，训练数据的数量很大程度上影响了技术效果。

数据堂作为深耕于AI数据领域近10年的人工智能数据服务提供商，一直致力于为全球人工智能企业提供专业的数据服务。

依托自身的数据优势以及丰富的数据处理经验，数据堂推出了系列OCR标注及转写数据，为相关技术应更广泛的落地提供助力。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

数据涵盖8种语言、多种场景、不同拍摄角度、不同拍摄距离、不同光照条件。在标注方面，标注行级文本的四边形框，行级文本转写。

四边形框顶点偏差不超过五个像素为正确检测，检测框精度不低于95%，文本转写精度不低于95%，该数据可用于多国语言OCR任务。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

数据涵盖12种语言(6种亚洲语、6种欧洲语)，包括商店牌匾、站牌、海报、车票、路标、漫画、井盖画、提示语、警示语、包装说明、菜单、建筑物标志等多种自然场景。

在标注方面，标注行级文本的四边形框，行级文本转写，四边形框顶点偏差不超过五个像素为正确检测，检测框精度不低于97%，文本转写精度不低于97%。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

数据包括自然场景图片2,056张，互联网图像1,103张，文本图像347张。在标注方面，行级内容用行级四边形框标注、行级内容转写;竖列内容用竖列四边形框标注、竖列内容转写。数据可用于多场景下的印地语识别、印地语拍照翻译等任务。

想让文本识别更“智能”，来数据堂获取这些OCR转写数据！

数据包括自然场景图片258张，互联网图像2,553张，文本图像2,184张。在标注方面，行级内容用行级四边形框标注、行级内容转写;竖列内容用竖列四边形框标注、竖列内容转写。数据可用于多种场景下的越南语识别、越南语拍照翻译等任务。

相比物体检测识别，OCR由于包含倾斜文本框、低分辨率文字和文本版面多样化的情况，因此OCR数据标注具有特殊性，标注成本更高。

数据堂的数加加Pro标注平台支持私有化部署，能够帮助企业快速、安全的对人工智能数据进行标注，为企业提供更专业、更安全的数据基础设施。

（免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。）