今年伊始,娱乐圈某明星出轨的消息席卷新闻热搜,甚至从不关心娱乐新闻的读者也被裹挟其中,联想到日前微博热搜榜、热门话题榜等被下线,不禁让人思考:我们为什么会被卷入“热点话题”的漩涡?这是我们主动的选择、潜意识的兴趣,还是被系统后台操控的“身不由己”?
日前,电子科技大学成都研究院大数据室研究人员、成都链科云科技技术合伙人熊文轩,为科技日报记者解答了这些问题。
被算法“套路”的热搜推送
“这不是简单的‘贴标签’,而是组合‘套路’。”熊文轩说,新闻聚合平台、社交平台推送的新闻、信息使用的大数据算法大体分两类:基于内容推荐规则和协同过滤推荐规则。
前者是根据个人行为习惯将浏览的新闻、信息等对象进行特征提取、内容分类后,进行关联内容推送,但其最大弊端是推荐内容单一。“举个简单例子,某天你的手机被女友拿去看了丝袜产品,那么接下来几天你都会被推荐丝袜。”
于是协同过滤规则出现了,这是根据网络用户相互的交叉体验,寻找相同爱好的群体,推荐相同浏览记录或行为。“系统找了一群与你志同道合的‘小伙伴’在背后‘支招’。他们跟你同样关注体育、旅游新闻,但他们同时也阅读了气象新闻,那么算法会将你之前未关注的气象新闻推送给你。”熊文轩说,这可以避免特征分类单一,实现动态推荐,即根据个人兴趣爱好的变化作调整。
“目前,多数聚合类新闻平台都会采取融合式算法,即将上述多种算法综合运用或开发出一些更复杂的算法,但原理大致类似。”熊文轩说。
没有浏览记录的“萌新”能否逃出“套路”?他说,注册时平台会推荐标签性分类,如电影、美食等引导用户第一波使用,随后用户开始筛选、点击、留存,这便实现了数据“冷启动”。“冷启动后数据产生,系统便按预设的算法进行推荐。”他说,一些基于新闻学、传播学特点的“规则设定”也会推波助澜,如内容置顶、套红、延伸阅读链接等。
基于人工智能形成的内容“漩涡”
“在趋于碎片化阅读的当前,读者自我诉求不明确、随机性强,容易被后台系统引导。”熊文轩说,一些聚合类平台、社交媒体负责内容推荐的是基于算法的人工智能,而非编辑人员,这更容易形成内容“漩涡”:系统按规则推荐热点话题,读者点击率、阅读量不断提升,系统再次循环推荐,越来越多的读者卷入其中。“其实你仔细看会发现,某热点话题的阅读内容可能翻来覆去就是那么几十条。”
这种基于算法的人工智能内容推荐可控吗?熊文轩表示肯定。他说,用户被海量重复信息“包围”,源于内容把控没有人为过滤。“算法逻辑不会产生特别精准的推荐,而是大体方向或尝试性推荐,这就需要大量内容填充,而无法对内容进行强制管理。”他说,可以尝试用“算法初选+人工引导”的方式,避免被同类内容、低俗内容不断刷屏。
从内容来源进行控制,也是熊文轩团队正尝试的工作之一。他所在的企业能够实现让科技政策、双创信息通过“大数据+人工智能”的方式“主动”找到企业更有效地发挥作用。“在内容源头,我们会选取政府网站、主流媒体等专业平台,这样内容推送范围是限定的,可以有准确性、真实性、客观性。”他说。
最后,通过算法自身规则设定也能够实现内容管控。他说,最简单的方式就是设定不同内容的权重值,如将娱乐新闻类权重设定为0.5、社会新闻类设为1.5,那么同样由人工智能从网络中爬取的100条内容中,娱乐类就会仅推送50条,社会类就会推送150条,从侧面引导读者关注热点。“内容推荐算法的根本是分类和筛选,最终目的是帮助读者在海量的信息中,精准找到需要关注的内容,而不是被淹没其中。”熊文轩说。(科技日报)
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )