原标题:AI技术再次升级,新技术、更丰富的平台你了解多少?
7月3日~4日,一年一度的百度AI开发者大会在京举行。承载AI to B发展的智能云业务,以丰富多彩的落地案例和一站式的开发者服务深受企业、机构、开发者的关注和垂询。百度智能云除了基础服务保障,在AI服务方向,更是助力企业创新发展。本月,我们将打磨和升级的多项AI新技术、新能力与大家开放共享,欢迎关注和使用,持续创造价值!
更多AI技术能力上新
不仅在产品前端和用户体验上不断优化,针对不同行业及各个细分领域,百度智能云都在细节上进行完善调整,在AI能力方面,从语音识别、文字识别、人体分析、图像识别和车辆分析五个技术方向上,加速进化产品能力和服务支持:
1、语音识别
这次,在语音识别能力上,升级了极速版接口,在以往pcm 、wav 、amr等语音格式基础上,增加m4a格式支持。让小程序也可实现直接调用,大大减少了音频格式转换所需的资源和时间,大幅提升接入效率,语音识别准确率也有同步提升。
2、文字识别OCR
两项新能力正式投入商用,其中火车票识别模型支持对红蓝火车票的8个关键字段,包括车票号码、始发站、目的站等信息的结构化识别。而出租车票识别模型支持对全国各大城市出租车票的6个关键字段,如发票号码、金额等信息进行结构化识别。
这两大模型的识别准确率均超过95%,将为企业报税带来便利,能够有效减少人工核算工作量,降低人力成本,实现财税报销的自动化。
3、人体分析
升级后的人流量统计优化模型算法提升了人数统计的准确率,50人以上的图片,人数统计的平均准确率高达98%以上。同时,升级后的模型算法支持框选多个不规则区域统计局部人数,方便统计观察图片中多个重点区域的人群热度,最多可一次性指定10个区域,这在安防监控等场景下有着重要意义,可用于及时导流、限流,预警核心区域人群过于密集等安全隐患。
手部关键点识别现已开放邀测,检测图片中的手部并返回手部矩形框位置,定位手部的21个主要骨节点,可用于自定义手势检测、AR 特效、人机交互等场景。
危险行为识别现已开放邀测,针对5s内的监控视频片段,目前能支持识别7类危险行为,其中包括情绪性指人、摔倒、激烈抱怨、拉扯推搡、激烈搂抱和踢踹等动作的识别,应用于特殊场景下,能协助日常的治安管理。
4、图像识别:3项新能力全面开放
▷ 红酒识别技术 意味着只要输入一张图片,就能识别图像中的红酒标签,返回红酒名称、国家、产区、等信息,现可识别数十万中外红酒,方便在电商购物、红酒鉴定等场景使用。
▷ 货币识别技术 现可识别图像中的货币类型,返回货币名称、代码、面值、年份信息,可识别百余种国内外常见货币。
▷ 黑白图像上色技术 只需上传黑白照片,即可立刻获得彩色照片。现可接入小程序或网页等,方便各种主题活动的开展。
5、车辆分析
▷ 车辆分割 目前该技术以识别小汽车为主,能识别车辆的轮廓并与背景进行分离,并能够返回分割后的二值图、灰度图、前景抠图,除了各种角度外,在车门开启等情形下也能识别。
更丰富的AI开发平台
6月,百度智能云上新1个AI开发平台:语音自训练平台支持呼叫中心模型。同时发布了EasyDL训练和服务平台的两大新功能。让你零代码也能享受AI技术的强大。
1、EasyDL新发布智能标注功能
EasyDL训练和服务平台——物体检测模型重磅推出智能标注功能,面对数目庞大的训练数据集,开发者们只需优先标注数据集自动筛选出的约30%的关键图片,EasyDL即可一键标注剩余的图片,轻松获得效果优质的物体检测模型。
2、EasyDL新发布定制视频分类
智能识别视频主体,根据主体动态变化分类。面向视频分析场景,通过标注每类50个、10s以内的视频片段进行训练,从而实现 “需要连续图片帧组合判断”的视频内容分析,可用于工人操作行为规范识别、环境变化监控等场景中
3、语音自训练平台支持呼叫中心模型正式发布
零代码自助训练语音识别语言模型,上传业务场景文本语料即可训练生成专属模型,有效提升业务用语识别准确率。平台内置呼叫中心模型可训练后进行上线使用,支持呼叫中心实时语音识别、录音文件转写等产品上使用。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。