书城经济一本书读懂大数据
15339400000006

第6章 数据的收集管理和使用(3)

3.按照数据业务归属来看,可以分为各个数据主体。按照业务归属分类的意思就是,将数据按照不同的业务主体分门别类地进行归纳。就好像仓库一样,将不同的物料进行分类存放,可以提高其使用和管理的效率。按照业务归属分类的数据在不同公司可能体现出不同的内容,在平台型电商可以分为交易类数据、会员类数据、日志类数据等。交易类数据是指平台型电商的订单流水,其中包含了买家、卖家在什么时间成交了什么商品;会员类数据记录了买家、卖家的身份信息,比如注册时间、身份证号码、信用等级等信息;日志类数据则更多的是指用户的行为,即哪个用户在什么时间段访问了平台的什么页面、点击了什么按钮等。

对于数据的分类则主要根据业务特点进行归类,并没有一个特别的硬性规定。总体的原则就是让数据的存储空间更少,分析及挖掘的过程更简单、快捷。

4.按照是否为隐私来区分,可以分为隐私数据和非隐私数据顾名思义,隐私数据就是需要有严格的保密措施来保护的数据,否则会对用户的隐私造成威胁。用户的交易记录属于隐私类数据,对于一家有着良好数据管理机制的公司而言,通常的管理方法是对数据的隐私级别进行分层,数据从安全的角度可以进行两种类型、四个层次的数据分层。两种类型就是企业级别和用户级别。企业级别的数据,包括交易额、利润、某大型活动的成交额等;个人级别的数据就像是刚才提到的身份证号码、密码、用户名、手机号码等。四个层次是对数据进行分类,分别有公开数据、内部数据、保密数据、机密数据。

当然,也有隐私数据保护得不好的企业,之前很多隐私泄露的案例都对用户造成了很大的损害。比如,某些网站几十万的开房信息泄露、数百万的密码泄露等都是类似的事故。随着拥有大量数据的网站和公司越来越多,数据安全就越来越成为一个核心点,需要投入专门的人和专门的团队来进行数据安全的管理。而数据安全工作的推动,初期往往会受到一线员工的反对,因为任何一个安全系统都意味着已有的权限被收回,也会因为改变工作方法而降低效率。所以,拥有大数据的企业高管必须要关注数据安全,否则数据越大,对“恶人”的吸引力就越大,最终对用户和公司的损失的风险也就越大。

如何应用存储的数据

从使用数据的角度来说,电商行业就有很多值得其他行业借鉴的地方,可以让数据能够真正地使用起来,并且产生实际的商业价值。

不同的运营商对数据有不同的用法,这里,让我们以电商为例,看看他们是如何运用数据的。

先来看看现在电商的背景,不论是以阿里为代表的平台型电商,还是以京东为代表的自营型电商,或者以1号店为代表的垂直类电商,它们的一个共同特点就是商品非常丰富,商品数量动辄就是百万千万级,而平台类型电商的商品数量可能更多。

对于消费者来说,进入一个电商网站的首页并不需要看到那么多的商品,如果消费者有明确的购物诉求,那么,可能会直接进入电商网站的搜索引擎开始寻找商品;如果没有明确的诉求,则可能是在电商网站提供的类目和活动等区域随意寻找。这个时候问题就来了:页面内容是有限的,消费者的时间是有限的,消费者的需求是有偏好的,但是商品量非常大,电商的目标又是为了能够通过闲逛让消费者产生成交额,那么,如何找到合适的商品放在首页就成了问题的关键。

面对这样的问题,专家给出的解决方案是通过一套数据中间层,来生成用户在特定市场的个性化标签。电商企业不同类目运营的员工通过算法或者人工选品来实现用户标签和商品的匹配,从而实现用户“逛”的效率最优,进而提高用户由游逛到购买的转化率。

建立标签,简单地说就是通过数据的分析来对用户的偏好进行描述,建立标签通常有以下三种方法。

第一是通过业务规则结合数据分析来建立标签。这一类型的标签和业务人员的经验紧密结合,这里可以举几个例子,以对这类标签的设置有更加直观的感觉。

比如,业务人员可以判断出购买某一个具体车型的人可能就拥有这款车,此时,就可以通过数据进行分类,把用户分为不同类型的车主等,这个时候当用户进入汽车配件类目时,就可以直接为用户推荐相应的汽车配件,直到用户有明确的行为去搜索别的汽车用品时,再进行数据调整。再比如,有些用户平时很少网购,但一到大型节日前就会大量购买商品,这一类用户通常都是企业的采购人员,这时候就可以在礼品等类目进行企业礼品的相关推荐,甚至直接推荐该网站的储值卡。还有,对于中老年人的识别,可以通过用户经常使用的地址和包裹的寄送地址来进行区别。

第二是通过模型来建立标签。比如在婚庆类目上的特定行为,当然,特定行为是通过数据模型识别出来的,此时我们就可以认为其是一个即将结婚的用户,这样可以结合时间来给用户打上婚庆标签,也可以持续观察这一类用户,在未来可能会打上家装的标签和母婴的标签等。结合用户的手机充值和收货地址等行为,可以用模型计算出该用户是否是自己购买,还是作为一个网购的中心者为他人购买,如果能判断经常为他人购买,则可以打上类似于“网购影响力中心”这样的标签,可以在不同类目的场景中运用。

第三是通过模型的组合来生成新的标签。任何一个模型都是有生命周期的,或者说企业内部不同的建模人员可能对同一用户会做出不同的判断,所以,我们需要对模型不断地进行整合。通常情况下,可以采用模型投票的方法来从多个模型中抽象出合适的标签。比如,在3个模型中,两个模型认为宝宝是3~6个月,一个认为宝宝是12个月以上,那通过模型的整合,应该可以确定宝宝为3~6个月。

标签的应用是指在电商网站的首页或者具体的类目网页,进行标签的使用。标签的使用,最核心的就是数据中间层和前台业务层的对接,并且能够让运营人员非常方便地进行商品的设置。

这里涉及两个核心点:一是中间层和业务层的对接;二是中间层的易用性。下面分别就这两个内容来做一些探讨。

一是中间层和业务层的对接。目前,对接是在互联网广告中非常热的概念,典型的应用之一就是数据管理平台(DMP)。在这个系统中,用户以标签化的形式存在,也就是之前给用户打好的标签有了一个管理的平台,终端使用者可以在这个系统中进行用户选择,选择完成之后就会产生一个投放计划。DMP还会和前台业务平台进行打通,简单地说就是用户登录首页之后,系统就会认出用户身上的标签,就可以根据DIM中设置的计划来产出不一样的内容。

二是中间层的易用性。对于终端用户来说,选择标签需要足够简单,并且能够非常清楚地知道这个标签具体代表的含义是什么。

对于数据从业者来说,让数据变得超级简单是一个非常重要的使命,所以界面的设计和后台的管理等内容都非常重要,否则可能会失去标签系统的价值。

对于大数据来说,“用”是让数据发挥价值的最大一步,在这里我们也只是举了一个数据应用的简单例子——标签系统。这个例子是数据和运营数据紧密结合的一个案例,也是数据运营或者数据驱动的一个典型案例。只有先结合大数据的技术将数据化运营做好,才能让数据从成本转化成利润,才能真正发挥出大数据的价值。