书城经济一本书读懂大数据
15339400000007

第7章 看看大数据的价值在哪里(1)

数据中蕴含着宝藏

数据的价值在哪?为了让读者对数据价值有个直观的认识,我们用2013年互联网上流传的一个小故事来说明。

一个小伙子名牌大学毕业,看上去很有想法,也很有追求。

但让人不可思议的是,他居然跑去应聘上海某高档小区的物业管理工作。更不能让人理解的是,他的兴趣好像并不只在工作上,因为他经常在非工作时间跑到小区的垃圾堆里。

他拿着一把超市里用的扫描枪扫描垃圾上的条形码。很多人看到这里可能以为他疯了,谁会没事对着垃圾扫描啊?

原来,这个小伙子是个有心人,他通过扫描各种包装袋、包装盒上的条形码,整理出了很多有用的数据。比如这个小区居民大多喝什么水,这个就可以通过他扫描过的矿泉水瓶看出。同理,小区居民爱吃什么牌子什么品类的油、买什么价位的衣服等数据也都被他收集到手。

最后,他将整个小区的消费种类和品牌偏好都了解清楚了,形成了一份非常详细的报告,并卖给了期望得到这些数据的某相关公司。这样的报告给他带来了一笔不菲的收入。

看上去这真像天方夜谭,但在大数据时代里,这样的故事只会越来越多,直到我们对此习以为常。这个传说是真有其事还是只是杜撰,我们无从知晓,但小伙子的这套方法确实是行得通的。

生活中条形码随处可见,这个条形码对于厂家和商家来说很有用,可以方便管理,但一般人很少想过如何能够用它做点什么。如何在海量数据中遴选出有用数据,这是一个巨大的商机。

有些企业需要这样的调查报告,而有人能提供这样的报告。这就是大数据时代的商机。这个故事描述了我们正在进入的大数据时代里数据的价值。这个把垃圾变废为宝的小故事只是当下大数据价值的一个缩影,大数据的价值远远不止这些。

2008年,阿里巴巴的业绩开始爆发式增长。也就是这一年,阿里巴巴通过对网上交易数据进行分析,成功预测到即将到来的全球金融危机,并提前将这个结果告知了客户,这一举措使很多客户都成功避免了金融危机的冲击。不过那时,了解大数据的人还不多。2013年被公认为世界的大数据元年,这一年里,数据出现井喷,各行各业的管理者都在讨论大数据。北京大学副教授王锐说:“大数据的产生是一场革命,它成为了一个时代的特征,并一直占领统治地位,一切都会在它的控制下,为时代提供便利。庞大的数据资源控制了各个领域。无论学术界、商界还是政府,所有领域都将成为‘数据控’。”她还预言,“在未来,数据将会像土地、石油和资本一样,成为经济运行中的根本性资源。”

在小数据时代里,我们都认为信息是个好东西。但是在大数据时代,信息爆发式增长,给存储、管理和分析信息的人带来巨大压力。在大数据时代,无论是个人、企业还是政府,都面临着如何管理和利用信息的难题。与此同时,随着数据数量的汇集,数据的管理和分析工作变得格外重要。数据的价值正在成为企业成长的重要动力,它不仅提供了更多的商业机会,也是企业运营情况及财务状况的重要分析依据。如果我们平时做一个有心人,也不难从各种看似不起眼的数据中发现数据的价值,获得数据的价值。

数据的分类估值

在大数据时代,每做一件事情我们都要知道确切的目的是什么。从自我的角度考虑,当我们给数据分类之后,就能更容易理解大数据存在的价值。

“数据”本来就是一个既清晰又模糊的概念。之所以说“清晰”,是因为每个人对数据都有概念,而且每个人每天都会接触到各种各样的数据;而说“模糊”,则是指数据本身包含了各种不同的类型,能够产生完全不一样的价值。

从数据角度来说,估值就是通过不同的维度去思考数据的价值。只有基于对数据的分类和对数据价值的不同认识,才能去对数据做筛选。如果连有多少种数据都不知道的话,我们很难描述数据被收集后到底如何进行筛选,也不知道哪一个数据更有价值,更不知道哪一个数据需要更安全的处理,甚至不知道在它的生命周期中做备份的策略是什么。

至于数据到底应该怎么进行分类,则需要视不同的场景而定。就好比“动物”一样,如果拿动物和植物来做比较,动物整体必然有不同于其他物种的特性,这时,“动物”就是一个非常“清晰”的概念。但是,如果要对“动物”进行更深层次的分析,显然需要对不同类型的“动物”进行比较和分析。在很多场合下,可能还要对不同种类进行分类和分析。

数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。就好比衡量锡和铁这两种金属的经济价值,同样重量的锡其价值必然远胜于铁;但是如果用来做刀剑,那柔软的锡显然就不是一种合适的材料;而锡和铁的合金可能在另一个场合有一定的应用。

对于数据而言,不同的场景也会产生不同的价值,有些数据可能会变成一个运营指标,能够让我们更好地对业务进行决策;有些数据可以对未来进行很好的预测,而不同的数据进行有机结合之后又能够对用户做出更好的商品推荐。一个好的工匠必然对各种材料的性质及使用方法了如指掌,而一个好的数据从业者则必须要对各个数据的价值和稳定性了然于胸。

但是遗憾的是,并不是每个数据从业者都能够很好地对数据进行分类和估值。很多时候,我们可能只看到了数据的一些应用场景,却不能够更加深入地进行数据的管理和应用。

当我们将焦点放在一组数据“能产生什么价值”上时,往往会忽略其生产过程,因为我们的很多数据是经历了加工才产生这个价值的,而往往其中整个加工链条的中间数据并未被区分出来。就好像我们在吃一盘韭菜炒鸡蛋,好吃是结果,但如果被问到韭菜给“好吃”贡献了什么,鸡蛋又贡献了什么,你可能就回答不出来了。

古语有云:“治大国若烹小鲜。”其实做数据也要有这样的感觉,尤其是在大数据时代,更是要做到精细化。还是拿韭菜炒鸡蛋这个例子来解释。

我们这次做的可能是这样的一盘,那么下次是不是还能保证做的口味完全一样呢?如果要做到口味完全一样,那我们应该怎么做呢?当然,你可以说这个过程已然成了一种习惯,是一种感觉,但是一旦需要做到标准化或者所有的人都要做到一样,与这样的“习惯”相比,就不如找出当中的规律了。

这个过程是一个定量分类和管理的过程,也是一个标准化的过程——多少韭菜和多少鸡蛋。如果再精细一点就要看哪里种植的韭菜、哪一个养殖场的鸡蛋、韭菜的成熟程度怎么样、鸡蛋一个要多少克等等,所有这些内容都要有精细化的规定。

将之应用到数据上,特别是在运用数据上,这样一个精密的过程就更加必不可少了。比如说,这次可能运用了一个模型,效果不错,这次用的这组数据效果也不错,那下次是不是还能保证有类似的效果呢?或者说,场景变换了还能保证类似的效果吗?

从数据的价值来说这些都是需要去认真思考的问题。

所以我们要明白,数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。

认清数据的五大价值

在实际运用中,需要认清数据到底能够产生什么价值:有时候,同一组数据可能会在不同场合产生完全不一样的价值;有时候,单一的数据没有什么特别的价值,需要组合起来才能产生价值……那么,数据的价值主要体现在哪里呢?在这里,我们总结了数据的五大价值:

1.识别与串联价值

顾名思义,识别的价值,肯定是惟一能够锁定目标的数据。

最有价值的比如身份证、信用卡,还有E-mail、手机号码等,这些都是识别和串联价值很高的数据。京东和当当网站识别“你”的方法就是你的登录账号。千万不要小看这个账号,如果没有这个账号,网站就只能知道有一些商品被用户浏览了,但是却无法知道是被哪个用户浏览了,更不可能还原出用户的购买行为特点。

当然,识别用户的方法不止登录账号一种,对用户进行识别的传统方法还包括cookie。所谓的cookie就是在你浏览器里面的一串字符,对于一个互联网公司来说,这就是用户身份的一个标记,所以你会发现你在搜索引擎上搜索过一个词语,在很多网站都看到相关的资讯或者商品的推荐,就是通过cookie来实现的。

很多互联网公司都非常依赖cookie,所以会采用各种cookie来记录不同的用户类别,单一的cookie没有价值,将用户登录不同页面的行为串联起来才产生了核心价值——串联价值。

如果你想知道日常生活中哪些是很有价值的识别和串联数据,那么可以回想一下你的银行卡丢失后,你打电话到银行时对方会问你的问题。一般来说,当你忘记密码后,对方会问你“你哪天发工资”、“你家里的固定电话号码是什么”等类似问题,而这一系列问题就是在把你的个人数据做一个识别和串联。因为在银行怀疑某个人是不是你的时候,生日、固定电话号码是有权重的。有可能在有了2~3个这样的数据后,即使你没有密码,银行还是会相信你,为你重新办卡。

所以,千万不要小看识别数据的价值,经验告诉我们,能够辨别关系和身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

2.描述价值

在女人圈,我们经常会听到很多关于“好男人”的标准,比如“身高170~180厘米、体重60~75公斤、月收入10000~20000元、不抽烟不喝酒等”,这其实就是将“好男人”这样一个感性的指标数据化了,这里用到的数据就充当了描述研究对象的作用。

在通常情况下,描述数据是以一种标签的形式存在的,它们是通过初步加工的一些数据,这也是数据从业者在日常生活中做得最为基础的工作。一家公司一年的营业收入、利润、净资产等数据都是描述性的数据。在电商平台类企业日常经营的状况下,描述业务的数据就包括成交额、成交用户数、网站的流量、成交的卖家数等,我们就可以通过数据对业务的描述来观察交易活动是否正常。

但是,对于企业来说,数据的描述价值与业务目标的实现并不呈正比关系,也就是说,描述数据不是越多越好,而是应该收集和业务紧密相关的数据。比如一家兼有PC平台和无线平台业务的电子商务公司,在PC上可能更多地关注成交额,而在无线平台上更多关注的应该是活跃用户数。

描述数据对具体的业务人员来说,使其更好地了解业务发展的状况,让他们对日常业务有更加清楚的认知;对于管理层来说,经常关注业务数据也能够让其对企业发展有更好的了解,以做出明智的决策。

用来描述数据最好的一种方式就是分析数据的框架,在复杂的数据中抽象出核心的点,让使用者能够在极短的时间里看到经营状况,同样,又能够让使用者看到更多他想看的细节数据。分析数据的框架是对一个数据分析师的基本要求——基于对数据的理解,对数据进行分类和有逻辑的展示。通常,优秀的数据分析师都具备非常好的数据框架分析能力。

3.时间价值

如果你不是第一次在京东上买东西,你曾经的历史购买行为,就会呈现出时间价值。这些数据已经不仅仅是在描述之前买过的物品了,还展示出在这一时间轴上你曾经买过什么,以便让网站对你将要买什么做出最佳预测。

在考虑了时间的维度之后,数据会产生更大的价值。对于时间的分析,在数据分析中是一个非常重要,但往往也是比较有难度的部分。

大数据一个非常重要的作用就是,能够基于大量历史数据进行分析,而时间则是代表历史的一个必然维度。数据的时间价值是大数据运用最直接的体现,通过对时间的分析,能够很好地归纳出一个用户对于一种场景的偏好。而知道了用户的偏好,企业对用户做出的商品推荐也就能够更加精准。

时间价值除了体现历史的数据之外,还有一个价值是“即时”——互联网广告领域的实时竞价,它是基于即时的一种运用。实时竞价就是当用户进入某一个场景之后,各家需求方平台就会来进行竞价,对用户现实场景进行数据推送。比如,用户正在浏览一个和化妆品有关的页面或者正在商场逛街,在这个场景中就会出现和化妆品有关的信息。这个化妆品的广告不是预先设置好的,而是在这个具体的场景中通过实时竞价出现的。

4.预测价值

数据的预测价值分成两个部分。第一个部分是对于某一个单品进行预测,比如在电子商务中,凡是能够产生数据,能够用于推荐的,就都会产生预测价值。比如,推荐系统推荐了一款T恤,它有多大的可能性被点击,这就是预测价值。预测价值本身没有什么价值,它只是在估计这个商品是有价值的,所以预测数据可以让你对未来可能出现的情况做好准备。推荐系统估计今天会有10个用户来买这件T恤,这就是预测。再问一些追加问题:

“你有多大的信心今天能卖出10件T恤?”你说有98%的可能性,那么这就是对未来的预判及准确度的预估。

预测价值的第二部分就是数据对于经营状况的预测,即对公司的整体经营进行预测,并能够用预测的结论指导公司的经营策略。在今天的电商中,无线是一个重要的部门,对于新的无线业务来说,核心指标之一就是每天的活跃用户数,而且这个指标也是对无线团队进行考核的重要依据。作为无线团队的负责人,到底怎么判断现在的经营状况和目标之间存在着多大的差距呢?这就需要对数据进行预测。通过预测,将活跃用户分成新增和留存两个指标,进而分析对目标的贡献度分别是多少,并分别对两个指标制定出相应的产品策略,然后分解目标,进行日常监控。这种类型的数据能够对公司整体的经营策略产生非常大的影响。