2017年6月24日,又拍云旗下技术沙龙 Open Talk 来到人工智能公司最为集中的城市之一——深圳,探讨了“大数据和机器学习最佳实践”这一热门话题;阿基米公社的活动现场挤满了被话题吸引来的观众。
大数据、机器学习已经成为研究人工智能不能或缺的两大要素,本次Open Talk的讲师来自华为、数果科技、又拍云等公司在大数据、机器学习领域颇有实战经验的工程师,分享了各自业务在大数据、机器学习方面的实践经验,深受现场观众认可。此次Open Talk由IT大咖说提供直播支持。
训练人工智能,如何搭配硬件?
“内容识别”是又拍云于2017年推出的首个人工智能产品,可应用于图片、直播、点播等场景,智能识别色情、广告、暴恐等不良内容,其中鉴黄识别率已经高达99.7%。
在Open Talk现场,负责又拍云“内容识别”开发工作的叶靖,在《又拍云的深度学习实践》的分享中,介绍了又拍云在开发“内容识别”项目的过程中,所用到的各种工具和技术,以及又拍云在人工智能方面的各种尝试,面临的挑战等。
又拍云“内容识别”的开发基于超千亿张的图片数据,以及深度神经网络,“最重要的一个工具就是GPU,GPU性能好,CPU运算速度都是50几毫秒,但GPU可以达到0.17毫秒。但GPU还有很多不足的地方,GPU对硬件依赖性很高又不易扩展,不能像内存那样扩展到100多G;此外还需要针对GPU重写算法,CPU的代码不能直接拿到GPU上跑,而且比较复杂。”叶靖分享了对研发“人工智能”时候的硬件选择,也介绍了其中存在的问题:“GPU从数据、内存拷贝数据的速度比较慢慢,写代码时要尽量避免内存的拷贝。”
“我们选择了4张1070显卡,配置了SSD,因为很多数据从机械硬盘读取的话严重影响训练速度。在CPU上,为了突破CPU的通道限制,我们选择了8核CPU*2的配置。在操作系统的选择上,又拍云采用了Ubuntu 16.04,一开始选择了14.04,结果出现了一大堆的问题。”叶靖好不藏私的分享内容,引起了现场观众热烈的提问。
海量用户数据的处理妙招
人工智能的训练需要大数据,面临大数据的处理也需要人工智能的参与。数果智能联合创始人、首席架构师黄强在本次 Open Talk 上分享了《海量用户行为数据的储存和分析》。
“用一句话来说,用户行为数据就是用户在产品上的操作行为的记录。”黄强高度概括了用户行为数据的含义,“其中包括了时间、地点、页面信息等信息。”一般企业的用户数到了几十万,用户一天下来做的所有的操作行为,像一个用户行为数据包含用户的IP、sessionID、imei、终端ID,这个数据量是非常庞大的,每一天就是一个App都是几百亿甚至上千亿的数据量。
这些数据里,高基数的维度很多。“我认为基数在百万以上就比较高了。”黄强认为。什么是基数?比如说用户ID有一个很大的量,一个维度下有多少个不重复的值,这种值就可以叫ID,如果基数很高,这个值会非常多。高基数产生的数据量非常庞大,几千万到上千亿都是有可能,还有用户行为是持续的。这些都是用户行为数据的处理难点。
黄强分享了用户行为数据处理环节的几个步骤:第一步是采集,通过SDK等方式、工具采集数据;采集到数据之后需要进行存储,“数据量非常大,需要拆成很多份,采用分布式资源,才能最大化利用一台设备的计算资源。”因为数据被拆散了,所以数据处理还需要加入“查询”功能,把查询结果做一个合并,输出最终结果。此外就是数据的索引,克分为倒排索引和正向索引两种方式。
数据很重要,更重要的是呈现方式和互通
华为消费者BG数据分析架构师王在清作为压轴嘉宾,带来了《数据分析与洞察》。王在清 因工作需求,从市场销售分析投入到数据分析领域,后续进入架构、数据挖掘等领域,曾参与多项跨国企业的全球BI/DW 建设工作,擅长分析物(产品、事件)与人(客户、员工)。
在活动现场,王在清主要介绍了华为消费者BG的数字化建设与数据驱动,从建立数据体系到分析洞察应用。
很多年前,许多公司都在落地信息化,建了一大堆IT系统,“但全部都是数据孤岛,数据跟数据没有什么连接。从现在回来看,这些数据开始建设的时候,就应该有一个统一的视图,借助统一的视图完善数据的关联。一开始有一个整合视图以后,还可以是数据岛,但是岛与岛的交通线是一致的,而不是事后两边各建一个桥,运气不好还建两座桥。”
王在清认为,做数据分析和做洞察,必须要基于统一的做法,“否则挖掘出来的数据没有办法解释,没有办法解释的数据就不是数据报告的结果。我们必须要先建立整体的数据视图,或许还是十几套IT系统,但是所有的数据定义是一致的。
王在清的分享当中,提出一个观点:数据只有“快速、简单、可视”才会产生价值。实现数据可视化数又可以分为三个步骤:先进入hindsight,再进入insight,最后进入foresight。
Open Talk No.33讲师的分享详情,将后续更新在又拍云微信公众号上,欢迎大家持续关注。
- 蜜度索骥:以跨模态检索技术助力“企宣”向上生长
- 网信办严打网络侵害未成年人行为,守护成长新篇章
- 豆包大模型升级引爆股市,字节紧急警示:小心为上
- 小米YU7无伪装实车首次曝光引热议,小红书封号事件冲上热搜,科技圈又掀波澜?
- 警惕讨好型人格:赚钱路上,人格魅力并非一切
- 小米SUV坠崖一家四口奇迹生还,车主回应:别夸大其词
- 金融AI大模型新突破:奇富科技AI产品小奇引领行业,重塑金融未来
- 谷歌携手Apptronik,AI+机器人引领未来:商业化人形机器人新纪元
- AI盛宴即将上演!李想回归,理想汽车12月25日揭秘未来驾驶新篇章
- 特斯拉Model Y劲敌来袭!明年登陆英国市场的未来乐道L60引爆期待
- 火山引擎总裁回应豆包大模型定价:如何确保合理毛利,揭秘行业内幕
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。