和其他互联网企业一样,Blued 也开始通过时下最热门的技术——人工智能,应用于产品日常运营中,以应对越来越多涌入的新用户,以此改善体验。
面对数量巨大的用户和社交网络数据信息,如何为每个人找到身边的好友并根据用户兴趣进行匹配,成为 Blued 算法工程师面临的极大挑战。图像、视频、动态图片对于社交网站的重要性不言而喻,算法工程师很大一部分工作就是处理与视觉信息相关的数据,AI 成为他们解决问题的最佳利器。
图像社交业务
据 Blued AI 算法部数据科学家王英杰的介绍,Blued在平台的图像社交业务中已经广泛采用 AI 技术。
他们从 LGBT人群的陌生人社交切入市场,逐渐转向兴趣社交和泛娱乐化平台,拓展出了很多使用场景。在这些使用场景下,用户可以在 Blued 上发布人脸头像、相册、图片动态、小视频、直播等。鉴于视觉信息在社交产品的重要地位,用户期望浏览兴趣标签下的高颜值照片,用小视频快速了解真实的对方,观看推荐的主播直播。Blued 上社交、内容、商业化模块都已有落地的应用在深度使用 AI 图像技术。
在社交产品上,使用人脸检测的技术筛选头像照片中含人脸的照片,并对得到的人脸特征做相似性分析;对含人图片进行体型胖瘦的分类,通过检测模型提取了一些身材和服饰上的标签,这些特征对于构建社交推荐产品的模型是非常重要的特征;使用图像分类的技术剔除掉不含人的小视频;以及使用图像检测结合图像分类的技术提取主播推荐的特征值等。
在变现业务方面,Blued基于图像和短视频的内容feed流推荐产品,已经推出了商业化广告模块;图像算法在头像认证、隐私保护上的应用也是会员和增值服务等变现业务的重要组成部分。
具体到AI图像技术解决方案和应用算法的内部机制,王英杰解释道,Blued的AI图像技术方案根据产品需求,首先拆解出几个核心的图像任务,选取适合的网络模型,如人脸检测模型、人脸识别模型、图像标签检测模型、图像分类模型等;之后利用平台上生产的大量图片做训练和微调,不断迭代完些基础模型;最后在不同的业务场景上,组合使用这些模型,并在使用的过程中根据测试结果随时调整模型输出阈值参数。从算法机制上讲,模型的迭代,数据的累积,参数的调整,形成三个并行的演进过程。同时,数据的累积促成模型的迭代,模型迭代后参数不断优化调整,参数优化调整后获得质量更好的数据积累,从而推动()整个系统进化。
通过这套在Blued内部运行了半年的技术解决方案,Blued解决了以前靠人工审核、人工运营、产品规则解决不了的问题和实现不了的效果。比如在一些应用了AI技术的产品模块上,有超过30%的UV增长,人均PV有超过60%的增长,推荐成功率比人工精选提高2倍以上。现在,Blued的算法模型基本上每个月都有大的迭代更新,但在与内容生产环节的配合上,和内容消费的社交转化倾向性上,还有很多需要不断完善算法、优化目标的地方。
为了体验这款产品的性能如何,AI前线对该产品进行了体验测试。在注册Blued账号后,系统会通过用户选择的兴趣标签进行推荐。那么,Blued的推荐排序机制是怎样运作的呢?
AI前线了解到,Blued数据平台会收集用户注册填写的基本资料信息,并结合用户在平台的内容浏览行为产生兴趣标签,Blued会进一步探索用户的社交关系链,并将这些数据导入推荐系统。另外,在推荐算法的基础上,Blued还会考虑用户定义的过滤和筛选条件进行排序,但主要还是以登陆时间和距离远近为原则。
不寻常的技术挑战
Blued用户是相对特殊的群体,因此具有一些不同于普通网站的特点,并因此让工程师们面临“不同寻常”的挑战。Blued的AI之路走得并非一帆风顺,很多时候,工程师们面临着应接不暇的挑战。
王英杰向AI前线坦承,目前,Blued最大的技术瓶颈,是云端大规模数据并行运算,以及移动端模型运算效率问题。前者的难点在于模型计算平台和数据存储平台目前还没有打通,这一问题云计算服务已经在着手解决了。后者的难点在于目前的方案在效率和性能上还没有达到很好的平衡点,因为在移动端对算力和功耗要求较高。但王英杰相信,随着移动端技术的快速发展,这个瓶颈很快就能突破。
Blued用户也有不同的特点,包括兴趣标签细分程度更大,用户资料真实性的甄别难度更高,用户反馈行为的分布上更不均衡,用户的频繁访问次数更多等。这些都给算法的数据和算力提出更多挑战。
而这些难题并非无解。在数据问题上的挑战,Blued通过提取更多特征,尝试各种聚类和分类算法,特别是对数据缺失不敏感的模型,以及不依赖用户反馈行为的模型等来解决。在算力问题上,则把计算压力分配在离线计算、近线计算和在线计算上,根据数据随时调整各个部分的计算频次和计算量。
另外,社交网站往往是色情信息的“重灾区”,作为主要为LGBT人群提供服务的应用,Blued还承担着向用户科普、宣传艾滋病等疾病防治方面的任务。Blued同样在面临着这样的挑战,具体体现在色情图像、文字、低俗内容识别等任务上。
对此,Blued在社区管理中通过人工审核团队制定严格规范的识别标准,在模型的训练和推理过程中考虑到不同分类检测类别在准确率和召回率上的不同要求,比如色情内容的检测需要更高的准确率,性感内容的检测需要更高的召回率,这反过来提高了人工审核团队的复审效率。Blued告诉AI前线,他们在低俗内容的识别上面临的挑战更大一些,具体体现在 1. 判断标准随时间会发生较大的变化,而且变化较快,需要不断增减需要检测的类别;2. 样本准确标记难度大,模型的准确率和召回率也都比较难保证。目前,Blued还在采取诸如尝试不断完善这个模型动态更新的流程,加大人工审核的力度,增加用户举报反馈的入口等措施来解决这个问题。
未来的技术规划与探索
利用AI技术在产品和服务中的布局已经铺展开来,未来在技术上还会进行更多的探索。
Blued的技术规划是AI优先,强调对于细分人群的个性化运营,把兴趣社交知识数据化、模型化。基于不同类型细分人群的社交需求,设计合理的产品场景,找到合适的特征,选择匹配的模型,设计如何选取正负样本和细化的优化目标函数。在这个过程中,新的产品想法成为可能,产品和运营的经验知识也在模型的训练过程中被数据化。
未来AI技术一定会在Blued产品上越来越多的体现出来,不只是兴趣社交领域,Blued还表示将探索新的商业化机会,比如新社交和新电商的结合等。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。