近日,美图公司社交产品事业群视觉算法组与清华大学自动化系智能视觉实验室合作,推出了业界最大规模教程类行为数据集COIN(COmprehensive INstructional video analysis),该论文已被计算机视觉与模式识别会议CVPR 2019录用。
COIN数据集的概览
教程类行为视频(Instructional Video)可以帮助使用者获取完成各种行为任务的知识,但是现有教程类行为视频数据集在规模性和多样性都存在较大的局限性,难以应用于现实生中的复杂场景。为此,美图公司社交产品事业群视觉算法组与清华大学自动化系智能视觉实验室合作提出了名为COIN的大规模教程类数据集,用于更全面的教程类行为视频分析。
COIN数据集采用分层结构,即第一层是领域(Domain)、第二层是任务(Task)、第三层是步骤(Step),其中包含与日常生活相关的11827个视频,涉及交通工具、电器维修、和家具装修等12个领域的180个任务,共778个步骤。
COIN数据集的分层结构
COIN数据集的设计人员还开发了创新性的标注工具,可以更高效更准确地标注视频行为的步骤信息。此外,为了给数据集提供更准确的基准指标,数据集开发人员还使用了SSN、R-C3D等评价方法对COIN数据集进行了测评。
COIN数据集的步骤定位准确率分析
目前,COIN数据集是业界规模最大、多样性最丰富的教程类视频数据集。该数据集在标注结构上采用分层的组织结构,涵盖了多种不同类型的教程类视频。该数据集的提出,给复杂场景下视频动作时序定位(temporal localization)等问题的研究提供丰富的数据资源,有望加快推动视频行为分析与理解等相关领域的研究。
美图公司社交产品事业群视觉算法组,是美图社交化的重要算法团队之一。随着“美和社交”战略的发布,美图秀秀从过去的纯图片处理软件转变为社区平台。视觉算法组通过人工智能/深度学习算法,理解图像和视频内容中的语义信息,为社区中推荐、搜索、反作弊和垃圾过滤等提供有力的技术支撑。帮助用户处理图片的同时,增加社交功能及软件活性。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 逐际动力技术惊艳亮相:人形机器人展现“亚洲蹲”与360°旋转,探索未来智能科技新领域
- F5预测:2025年亚太地区企业AI应用五大趋势,你准备好了吗?
- AI驱动零信任安全新范式:Aruba俞世丹的实用指南
- 特斯拉Cybertruck明年1月国内开售?别急,真相来了!
- 亚马逊云科技助力晶泰科技加速药物发现,创新破局
- WiFi万能钥匙获"最具影响力APP"荣誉,揭示数据营销新篇章
- 滴滴出行:跨年夜出行高峰持续至凌晨,提前至16点高峰期
- 知乎大咖齐聚一堂,陈楚生、储殷等专家共话未来:2024年如何‘认真过’
- 华为揭榜求解难题:普通人现在学还来得及吗?奖励300万,挑战智慧极限
- 台积电AI热潮下,2025年先进制程CoWoS涨价:抢占AI市场成新趋势
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。