一个“反数据主义者”的自白

“我看到了一个非常光明的未来,却不知道要如何熬过现在。”

当我们历数过去十年最激动人心的事件,数据的空前崛起一定要占有一席之地。

一夜之间,似乎人人都称呼自己是“数据主义者”,企业纷纷向数字化尤其是其中的数据化快马加鞭地转型。大数据之浪潮风起云涌,AlphaGo的胜利更是在我们每个人的屁股上扎了一针浓浓的鸡血,我们欢呼雀跃,相信数据一定能够带给我们一个非常光明的未来。

不过,在走向这个光明的未来之前,我们还得熬过“不那么光明”的现在。不光明,是因为那些自称“数据主义者”的存在,他们所行之事,恰恰与他们所“拥护”的相反。他们的鸡汤越浓,毒性就越大,他们越是激昂高呼,反而越是对数据未来的亵渎。

如果他们都算是“数据主义者”,那我们就必须清醒地做一个坚定的“反数据主义者”。无他,只是为了保留一份原初的对数据的敬畏。

从没有被真正拥有的数据

一个真正的“数据主义者”懂得获取数据的艰辛。但伪“数据主义者”则不为所动。

原因在于,这些人并没有真正去解决数据从何而来的问题。

不,并不是他们不愿意付出代价,他们可能也愿意付出金钱,但他们倾向于认为,只要有钱,就能获得数据。

因为有钱,所以我可以买数据。

因为有钱,所以我可以用牛X的黑科技(或者灰科技)去抓数据。

而一些黑科技、灰科技、工具和数据平台们,也不断鼓吹:有了我们,数据唾手可得。

错觉,天大的错觉!误导,可鄙的误导!

因为,这些“数据主义者”根本没有想到,或者说他们直接故意忽视一个冰冷的现实:钱和技术,并不是获取真正有价值数据的充分条件。

许多年后,我也才意识到,“无运营,不数据”!这并不是说,运营都需要数据(虽然你也可以这么理解),而是反过来,真正有价值的数据,只有通过两手沾满泥、脚踏实地的运营才能真正获得。

想要打通不同消费者平台上的数据(微信、网站、app、小程序、CRM、电商)?没有技术可以帮你直接解决,你只能通过运营手段为实现技术性的打通创造条件——最起码的,你得让更多的消费者愿意注册登录,光这一条就是绞尽脑汁的累活,还得经年累月毫不停歇。

想要搞清楚细分流量的来源?无论web端还是app端还是小程序端都有成熟的技术解决方案,但问题是,还是需要通过运营人员手工做好标记,交给工具才能让工具按照你的标记进行数据抓取。这是细致又繁琐的工作。

想要获得用户细致入微的行为?依靠无埋点或者全埋点的方法?那是风险十足的偷懒(你以为普通数据企业的无埋点的服务器能撑得住这么多全量事件捕捉的数据并发?——而且不管这些事件是不是有意义的,其结果很可能是数据丢失或准确性缺失),只有手动在每一个真正监测价值的用户交互点上做好事件监测才能获得准确可靠的数据,这又是既需要研究业务需求,还需要耐心仔细才能做好的工作。

还有,人群画像,真的以为是机器自动就帮你画好了?不靠细致的数据埋点(就是事件监测),不靠费心费力建立起标签词表,不靠基于业务实际情况而建立的细致规则,然后就能获得一个用户画像?这样的画像你也敢用?

这不是在一个工具上用一个漂亮的图生成一个美妙的数据可视化这样性感的工作——虽然很多人认为这就是数据工作的样子。数据工作常常毫不起眼,仅仅只是收集数据获取,就需要大量的时间、很专业的精神、以及很多的技巧与智慧。只是这些事情,伪“数据主义者”们正喝着鸡汤看不到罢了。

那些认为有了一个工具就有了一切的,您别扯了!

很多时候,那些看似被你拥有的数据,真的害惨了你

在伪“数据主义者”眼中,数据差不多都是一样的。他们给你喂的鸡汤是,你都有这么多数据了,一定能创造巨大的价值!

但真实的数据,实在是千差万别,即使是你自己所拥有的数据,也是如此。数据之间最主要的差异,是质量的好坏、口径的不同,以及背后业务含义的区别。

要让这些形态性状各异的数据能够真正为你所用,必须经过数据清洗。

数据清洗,一个几乎没有什么数据技术解决方案商会主动提及并且愿意收费提供的服务,因为这是一个极为耗费时间、人力,而又充满“风险”的工作。关键是,客户数据背后的口径,以及这些数据背后的业务含义,也不是一个外部的服务商能够短时间内搞清楚的。

这意味着,所谓的数据清洗,很可能本质上是一个庞杂的咨询项目。但,却很可能成为根本收不到多少钱的“附加服务”。

数据清洗都是用“血、泪、汗”在清洗……

Team曾经经历过一个真实的数据清洗项目,仅仅只是清理同一个事物的不同名的重复数据,就得忙上好几天,不是数据本身清洗有多难,而是沟通不同名字背后究竟是怎么一回事就得要了老命;再加上看似同样的指标,可能含义不同,于是又得几乎排查一遍。还有,各种数据记录的随意性和不一致性,各种系统之间同名字段定义的不一致性,你看到之后真的要跺脚骂娘!其工作的复杂、繁琐、无奈,以及脱发指数都是我经历过的工作中间数一数二的。

于是,我看到太多太多的数据系统架构和数据整合,是在有意无意中回避了有效的数据清洗的情况下完成的!

这时的数据本身,泥沙俱下,“藏垢纳污”,可靠性令人发指!这样的系统,不过是表面上把外包装搭好了,而根本不管这包装里面装的是何种洪水猛兽!

这样的数据和系统,因为质量不佳用不上反而是最好的结果,要是真的拿着这些数据做决策,那比没有数据凭着经验还要糟糕。

在理解数据孤岛这个事情的时候,我意识到,数据孤岛的存在有它的理由。这并不意味着我认为数据孤岛是好的,但若不经过真正可靠的数据清洗,那些看似在各个系统中你拥有的数据,真的把它们弄出来揉在一起后,你就会发现,要么根本用不了,要么根本用不上,甚至还不如过去的数据孤岛好使!

这就是令人头疼的现实。这也是为什么,我总是建议,不要一口吃个大胖子,能够在局部数据和应用上做出改善,已经非常非常不容易了。这也是为什么,我同样会建议在CDP或DMP解决方案中,尽量自己抓取数据,实在不行,才做数据清洗完善基础上的打通(比如跟CRM的打通)。

因为,少有中国的企业,存在“数据治理(data governance)”一说,只有“痛过之后”,才会幡然顿悟,但对企业来说,代价则是又平白无故地增加了一个烂尾工程。

看看我们做的调研的有趣的数据吧!

在部署DMP或者CDP之前(上面第二张表),大家最担心的并非数据匮乏或者数据缺乏整合;但是,真正部署了DMP或CDP的企业,反而发现,数据匮乏或者缺乏整合,才是真正“最棘手”的问题。可见,数据治理,尤其是数据获取和质量控制,应该在未来的应用系统上线之前,就开始做功课了,而不可能通过一两个系统平台的建立就帮你解决问题。

迷恋数据性感概念的错觉

伪“数据主义者”的另一个特征,是迷恋性感的概念,而忽视朴实无华的规律与实实在在的分析。他们制作了大量的充斥着性感概念的鸡汤,摆在你面前,然后说,干了这碗汤,一切就都成了!

要真是这么简单就好了!

不像别的科技,数据本身和数据应用的方法,实在没有太多华丽的转身,也不该有太多花俏概念的装点。可因为数据本身透露着神秘,便更容易被添油加醋的包装。

一个很有趣的例子——把核心指标用一个更诗意魔幻的名词“北极星指标”表达,确实增添了很多遐想,似乎就跟着光芒万丈了起来,但仔细一想,它究竟和关键指标或者核心指标有多么巨大的差别呢?

我们可以着迷于“北极星指标”这样的性感称谓,但它究竟应该是什么指标,以及如何发现它,并没有看到任何可以作为规律的方法论——包装一个概念不难,撕开包装切实落地的方法论则很难。显然,一个关键性的指标只能在业务中产生,甚至它并非一个数字世界中的指标。业务是变化的,流动的,因此关键性的指标也在随着业务的变化而改变,这是我们要适应的必然的商业演进逻辑。至少现在,工具都没有办法能够直接揭示更深层次的商业逻辑,尤其是运营角度的逻辑。

下图是我列举的最能代表这种思潮的例子,也是典型的“浪漫主义”的“增长”落地方法(来自在网上看到的资料)。

在上图中,符合这6个标准就是北极星指标吗?若不满足这6个标准就不是重要指标吗?除了标准1和3,其他的标准基本上都很飘忽且离业务太远,而且就算1和3也非常大且空。这是一个企业应该有的增长作战计划吗?

这个图所揭示的以关键行为激活用户Aha时刻的方法同样有强烈的误导,不仅仅是这一方法论无法自圆其说——且不说这里的关键行为的定义是否非常主观,以关键行为创造用户激活的逻辑何在,其后的衡量时间和频次以及次数与实际的用户激活究竟有什么样的关联性;更重要的是,它完全没有将千变万化的业务本身考虑在其中。

另外,就算这些行为是关键行为,这些行为的频次(即图中的在多长时间内完成多少次这种说法),又能说明什么呢?又是如何跟“Aha时刻”联系在一起的呢?如果你仔细读几遍这几个表中的文字,你会发现思路不是变得更加清晰,而是更加迷惑了,尽管我们都容易把受到迷惑解读为高深莫测,但实则模棱两可,正反皆然,不过正确的废话罢了。

增长是否要追求如同“黑客”般犀利的效果,我很难评判,其中的思维方式强调不断尝试、流量和产品共同优化,以及更加合理的用户运营方式等,这些是非常可取的。但增长不太可能通过简单的一些灵光乍现的调整即可获得,也不可能像真正的电脑黑客那样纯靠技术完成。我是老旧保守派,始终坚持认为,唯有商业模型和产品本身靠谱,以及在实际的运营中两手沾满泥,才能创造实实在在的可维持的增长。而且,随着流量红利的枯竭,产品本身比过去任何时候都更加重要了——或者换句话说,今天留给迷恋性感概念和称谓的空间越来越小,“能打”才是唯一的评判指标。

哦,对了,类似的,还有魔法数字什么的。我只是在想,当“数据主义者”们创造了这么多抬高期望的高大上的东西之后,这些期望万一被拍在地下摔得粉碎,会不会让数据消费者们连同对数据的希望也一起粉碎了,那就真的是得不偿失。

这种鸡汤,跟最近大起大落的哲学女教授陈果的雄文有异曲同工之妙——“孤独往往因为自成世界、自成体系,所以表现出来的是一种‘圆融’的高贵。真正的禅者一定是圆融的。印度教里恒河边的冥想者,他就是圆融的。道教里能够达到冥想以至于羽化者,他们都是圆融的。同时,他们都是孤独的。孤独者是一种完整的状态,它没有缺失的遗憾。”

辞藻深邃!含义模糊!但感受到了一种冲上九霄的高度!至于效果是什么,或者有没有效果,对他们来说,真的还重要吗?但对你来说,再华丽的,也终有需要落地的一天。

更高大上的皇帝的新衣

然后,在数据源层面,数据也被用成了更加高大上的皇帝的新衣。

比如,喂你一口鸡汤说,我们能拿到(或是拥有)BAT的数据。

嗯,能拿到BAT数据不假,但几乎每一个做相关投放的广告主都能拿到很多的BAT数据吧,比如自己的广告展现点击呀,数据银行或者DMP给你生成的营销效果报告之类。

此数据非彼数据,数据的概念和种类大了去了,你倒是仔细说说,你拿到的是BAT的具体什么数据?难不成真是淘宝用户device ID和他们的行为和交易数据?然后是腾讯用户device ID和他们的社交行为数据?又或是百度用户device ID和他们的搜索行为数据?

什么,这些数据都能拿到?不过数据是以“包状物”呈现的?

多大的包?几亿呀,这么多?!而且可以投放?还可以拿着阿里的数据到腾讯投放?

请问,你有没有听说过一个东西叫做围墙花园,有没有听说一个法律叫做个人信息保护法。

今天的数据生态跟过去完全不同了,并且用户的数据太有保质期,拥有外部数据和拥有鲜活的数据是两个概念。今天的主旋律是企业一方面向内看,保持自有用户/客户的实时数据的捕获,另一方面则通过应用外部数据或与外部数据连接扩展自己的数据能力。

除此之外,就别说自己养了几十个数据科学家了,除非您是金融保险零售,否则几十个数据科学家真不靠谱。您说的数据科学家都是excel,SQL样样精通的表哥表姐,懂了。

另外一个皇帝的新衣是言必称智能。它也是鸡汤的高浓度新佐料。

把用决策树做一个预测分析叫做智能,设置一个条件预警也叫智能(这叫闹钟好不好),根据条件触发行动也叫智能(顶多算自动化罢了),装了一个第三方的语音识别也成了智能。怎么着,也该有一个自己的神经网络和数据训练集才能称为智能吧。智能这个词,从此变成“手工”的反义词,而不是“智慧”的近义词。

马儿跑,但别吃草

但更常见的“数据主义者”是一群真正的“理想主义者”。

他们的理想,是被灌了鸡汤后相信有这么一种东西——用世界上最少的钱,建立世界上最牛的数据系统。其实也不需要世界最牛,就比我所有的同行都牛就好了。

节约没有错,就跟微商阿里前高管吹吹牛没有错一样,但是不能过度。

你不可能用一套SaaS的钱来搞一个私有部署,也不可能用一个标准套件的钱来做定制化开发。所有承诺给你愿意这么做的都是别有用心,毕竟,所有你希望占到的便宜,都在暗中标好了价格,甚至不是价格,而是代价,而且来的总是特别迅速。

上图:纷析智库2018-2019《企业DMP和CDP应用调研》显示,更多企业愿意为建立DMP和CDP花费的成本在100万以内,而实际完成部署的企业,更多花费了100万以上,其中200-500万元占比最大。

并且,也不要妄想让供应商帮你做完所有工作,就算你出了高价钱,你也必须了解,有大量的工作就是需要自己做的。毕竟,数据是你自己的数据,数据背后的业务是你自己的业务,如同我前面所讲的,那些运营上的细节、需求的分析、数据的清洗,没有哪一条是供应商能帮你完成的。不是他们不帮你,是压根在你给定的成本下,他们无论无何都帮不起。更何况,最了解情况的永远都是你自己。

所有想要在前期鸡贼的懒惰省事,都会在后面给你不断暴雷。

如果成本有限,就从小处开始吧,获得一点进步,实现一些落地,一个混凝土的小楼房绝对比用纸壳建的宫殿靠谱。

后记

我决不愿称自己是一个“数据主义者”,恰恰相反,我更乐意做一个打翻鸡汤罐的“反数据主义者”。

尽管我永远坚持数据是最有价值的,但也请您注意,数据本身并无意义,除非我们能够善用它。何为善用?机械地套用数据和模型,不是善用;鼓吹概念,却故意忽略或矮化那些“不够性感”却真实可靠的工具和方法,不是善用;强调技术和工具才能解决问题,尤其是强调机器智能的强大却忽视人在其中作用的,不是善用;唯数据是瞻,不与业务和场景相结合的解读数据,不是善用。

还有,尽管这篇文章并没有提到,但“数据自身也是有原罪的”,因为数据既不是答案,也不是结果,并且很多时候,也不代表真相。它可以被操纵、被捏造、被误读、被曲解、被粉饰,我们怀着美好的意愿跟它打交道,却很有可能得到与我们意愿相反的结果。所以,我们不可以无条件信任它,如同核能的开发,你首先要相信它是“魔鬼”,才能让它转化为“天使”。

为此,我要坚定的做一个“反数据主义者”,想要提醒大家,数据是我们的工具(而且完全不是唯一的工具)、我们的手段、我们要经历的过程,但绝对不是结果,也绝对不是答案本身。数据不会让事情变得更简单,除非我们能真正懂得如何与之相处,否则甚至比没有数据造成的情况更糟。我们也要警惕数据成为不断堆积的垃圾、纸上谈兵的口号、隐瞒现实的遮羞布。

我非常厌恶一个倾向,即在缺乏真正业务理解和业务场景情形下让数据穿凿附会,还为此建立一系列的指标、工具和模型。举一个例子,任何一个企业在某一个时段所应该采用何种KPI指导自己的业务方向,绝无一个定式,它绝对不是由某一个工具利用某种具备“慧眼”的算法所能作出的,也不是仅仅由数据本身的增长或减少就能判定的,而一定是从业务需求出发,通过对业务和效能之间的对应关系做不断的拆解才能达成。这个过程,数据不是主角,数据本身也不产生洞察,最终形成的KPI,不是数据推演的结果,而是业务推演的结果。

数据总是倾向于让我们变得更加机械,并压缩我们的眼界,也正因此,我们必须非常小心,而且必须要付出更多的努力,在真正的商业环境和场景中去挖掘数据真正的价值,以契合不断变化的业务。

是时候砸烂你捧在手里的数据毒鸡汤了!

以此谨记。

本文已标注来源和出处,版权归原作者所有,如有侵权,请联系我们。

极客网企业会员

免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。

2019-02-22
一个“反数据主义者”的自白
数据总是倾向于让我们变得更加机械,并压缩我们的眼界,也正因此,我们必须非常小心,而且必须要付出更多的努力,在真正的商业环境和场景中去挖掘数据真正的价值,以契合不断变化的业务。

长按扫码 阅读全文