书城计算机一本书读懂大数据
9798600000023

第23章 更自由,更开放,大数据的机遇和挑战(1)

大数据为所有人都提供了更为开放、自由的发展机会,但与之相应的,一起到来的还有人类从未碰到过的挑战。一切传统规则被大数据时代所颠覆、推翻和打破,又该如何在保证正确的发展方向的同时避免不必要的风险和负面影响呢?

人机结合的未来发展趋势

人机结合,或者说是人和数据的结合是未来的一个进步发展趋势,数据经过人类的改造会越来越智能。

不少人会有疑问,目前的大数据究竟发展到了什么阶段?显然这个阶段的水分还太多。大数据对社会方方面面的影响已经很大了,这点毋庸置疑,只不过它的爆发点还没有到来。大数据时代到来,数据开始和人的经验结合,两者彼此激活,人们的智慧也因此获得了规模化的放大,因此整个社会的发展都因为有了大数据而发生巨大改观。不过大数据应用未来的空间一定会比现在的成绩更为宏大,数据和人之间的“数据化运营”和“运营数据”的闭环系统也会渐趋完善,只不过在人机结合中的巨大空间还要进一步挖掘。

数据的种类在未来一定会超过人们的想象。从前更多的数据是集中在监控外部行为上,像是网络购买行为或是网上社交行为,皆为“远距离”的数据提供,但即便是这样,这些数据的运用还是不太好。随着可穿戴式设备的出现,人和数据就能真正意义上融合在一起了,就好像谷歌眼镜等等,我们所看到的一切都会瞬间被数据化,还有健康手环类的设备,包括能够深度收集脑电波数据的设备,人们未来的活动都会转变为数据。现在睡眠记录状况仍处在初步的应用阶段,可是不远的未来,人们每一秒的生活都会为数据所记录。

商业发展的更多机会是伴随着万物皆数据的时代一同到来的,那时候人们的判断可以依靠数据进行,例如什么时候是吃饭的最佳时候,什么时候又是睡觉和记忆的最佳时候等等都可以利用数据来预判。即便是把人的各种数据都记录下来的话,每一个时刻适合做什么,要采取什么样的策略数据都能够预判出来。或许就在那个时候决定人们聪明与否的指标不再是IQ,而是是否拥有优质的数据。

未来的进步模式就是人和机器的结合,或是人和数据的结合,数据因此变得更加智能。

眼下最需要做的事情就是人机分工,人做人擅长的事,机器做机器擅长的事。

将来人机之间的界限越来越模糊,随着人机结合,越来越多的无人操作机器会不断出现,而在人类身上会有更多数据的血液流淌着。

数据时代,引发时代大变革

又一次因为大数据所带来的时代转型到来了。大数据和其他的新技术一样也必须经过硅谷臭名昭著的技术成熟度曲线,即在媒体和学术会议的大力宣传之下,新技术的趋势会在短时间堕入谷底,而让众多的数据创业公司出现危机。不过不论是过热期还是幻想破灭期,对于正确理解正在发生的转型重要性都是非常不利的。

感受宇宙可以通过望远镜,观测微生物可以通过显微镜,为了更好地理解世界可以通过收集和分析海量数据的技术,人们现在才意识到了这种理解世界的新方法。事实上,真正的革命并非去分析数据的机器,而是人们如何去利用数据和数据本身。

天文学的领域和其他各个领域一样都在发生着变化。人类在2003年第一次破译了人体基因密码的时候,在工作了十年之后,三十亿对碱基对的排序最终完成。十年之后全球范围内的基因仪要完成同样的工作只需15分钟而已。金融领域也是如此,美国股市每天成交的股票多达70亿股,经由数学模型和算法基础的计算机程序自动完成的就有2/3左右,通常这些程序是在海量数据预测利益和降低风险的基础上进行的。

数据怕是要淹没所有的互联网公司了。每天谷歌公司处理的数据超过了24拍字节,也就是说所有被处理的数据量已经是美国国家图书馆馆藏纸质出版物的上千倍。像创办时间还不足10年的Facebook,一天照片的更新量都超过了1000万张,人们每天在网站上点击“喜欢”按钮或是书写评论的次数也超过了30亿次,很显然Facebook为了挖掘出用户的喜好用了大量的数据线索。谷歌的子公司YouTube每个月接待的访客数量也超过了8亿,几乎每一秒都有一段长约一个小时的视频上传。Twitter上的信息量也在每年翻番,到2012年,上面微博的发布总数已经超过了4亿条。

科学研究、医疗保险,还有银行业和互联网,几乎每个领域的故事都是相似的,爆炸式的数据增长所带来的故事几乎是重复出现。它的速度似乎已经超过了机器制造的速度,更是超过了我们的想象。

究竟我们周围有多少数据,增长的速度有多快?很多人都试图去找到这些答案。尽管不同的人用的是不同的测量方法,测量的是不同的对象,但结果都是大获成功。南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特(Martin Hilbert)曾做过一个比较全面的研究,对象是统计出所有人类创造、存储和传播的所有信息的确切数量,范围涵盖了书籍、图画、电子邮件、照片、音乐、视频(模拟和数字),此外还有电子游戏、电话、汽车导航和信件。马丁·希尔伯特还曾经以收视率和收听率为基础,开展了电视、电台等媒体的研究。

有意思的是2007年的时候,仅仅只有7%的存储是在报纸、书籍和图片上的模拟存储,剩下的都是数字数据。可就在不久以前,情况却发生了翻天覆地的变化。1960年,实际上“信息时代”和“数字村镇”的概念就已经存在了,可是到现在为止这些概念还都是新的。到了2000年,全球数据量中仅有1/4是数字存储信息,其他的都是在报纸、胶片、黑胶唱片和盒式磁带这些传统的存储介质之上。

最早期是没有太多数字信息的。对于经常上网和网上购物的人来说那是非常微小的一个部分。实际上,1986年,全球计算能力的40%几乎都用在了袖珍计算器上了,当时袖珍计算器的计算机能远高于所有的个人电脑处理能力。只不过随着数字数据快速地增长,很快形式就产生了翻天覆地的变化。希尔伯特曾经说过,每三年数字数据的数量就会翻一番,相比之下,模拟数据的数量则变化不大。

数字数据的增长确实是惊人的,或许信息存储的发展速度已经超过了经济增长的速度,从计算机数据处理的速度来看,已经是世界经济增长速度的9倍之多。这也难怪总有人在埋怨信息过量,而因此受到了极速发展的冲击了。

再往人类历史的前面看,如果拿1429年前后古登堡发明印刷机时的信息存储来和现在的信息进行对比,在1453-1503年的50年间,历史学家伊丽莎白·爱森斯坦(Elizabeth Eisenstein)发现大约有800本书籍被印刷出版,这比1200年前君士坦丁堡建立之后欧洲所有的手抄本数量还要多。欧洲的信息存储量花了50年的时间在当时翻了一番,可是现在大约是3年时间就可以翻一番。

这能说明什么呢?谷歌的人工智能专家彼特·诺维格(Peter Norvig)曾在美国宇航局喷气推进实验室工作,他会把这种增长与图画进行类比。第一,他让大家去想象一下在法国拉斯科洞穴壁画上的标志性的马。从这些画的追溯来看可以一直往前追到一万七千年前的旧石器时代。然后再思考一张马的照片,或者是毕加索的画作,或许看起来和那些洞穴上的壁画差异不大。实际上,当毕加索看到那洞穴上的画作时就曾开玩笑说道:“从这以后人类就没创作出什么东西来了。”

毕加索的话也对也不对。回想一下那壁画中的马,当时画出马需要很长的一段时间,可是现在已经不需要了。这就是变化,当然变化兴许触及的不是最核心的部分,因为他画的仍旧是一匹马。可是诺维格说过,只要去想象一下,现在的人们每秒钟可以播放的马的图片是24幅,这是一种源于量变的质变,也是一部电影和一幅静态画作的根本区别。大数据也是一种源于量变的质变。物理学家和生物学家的研究表明,规模被改变的时候,事物的状态也会发生巨大改变。

就拿纳米技术来说。纳米技术一直都在将事物变小,而非变大。这当中的原理在于事物有了分子级别之后,物理性质自然而然就会发生改变。只要人们了解了这些新的性质,就能用一样的材料来创造此前做不到的事情。像是原本用来导电的铜,用纳米技术之后它就无法在磁场当中导电了。还有原本抗菌的银粒子,一旦以分子的形式存在的话,就会消失掉原有的性质。所以说在纳米级别上的金属会变得非常柔软,即便是陶土也会变得有弹性。事实上,人类所利用的数据量增加的话,很多在小数据量基础上无法完成的事情就都可以完成了。

人们有时会认为生活有着方方面面的约束,而这些对世间万物都存在约束力。可是真正的情况是,即便是相同的规律,人类感受到的约束力只是对人类有效而已。唯一对人类最为重要的物理定律无疑就是万有引力定律。这个定律每时每刻都在控制着人们,而细小的昆虫却不在乎这个。对它们来说有效的物理力是表面的张力,因为它们可以凭借这个力量在水面上自由地行走而不至于掉下去。事实上这个力却是人类不在意的。

生物体在不在乎万有引力和它的大小是有关系的。同理,信息的约束力也与规模有关系。之所以谷歌能够几近完美地给出一个和通过海量真实病例推断出的流感蔓延情况一致的结果,正是因为它能够比疾控中心更快地得到实时的数据。Farecast预测机票价格的走势,让消费者在经济上获利也是同样的道理。正是因为有了供其分析的数千亿的数据项才能让它们的服务功能如此强大。

虽然大数据时代才刚刚来到,但是每个人的日常生活似乎都已经离不开它了。例如能够自动过滤垃圾邮件的垃圾邮件过滤器,而即便它还无法区分“发#票#销#售”和“发票销售”之间的区别;交友网站会重新搭配依照个人性格和之前配对成功情侣之间的关联;有“自动改正”功能的智能手机能通过分析人们此前输入的信息把个性化的新词收入到手机的词库里。不过这一切都只是个开始。这项技术很快就可以打败地球上的诸多东西,这一点从可以自动转弯和刹车的汽车,以及IBM沃森超级电脑在《危险边缘》游戏节目中打败人类就可见一斑。

数据可以表示世间万物,会带来惊喜

哪怕一点点的想象,数据化进程就会转化世间万物,还会带来意外的惊喜。IBM的“触感技术先导”专利和东京的越水重臣教授对臀部的研究工作理念是基本相通的。有知识产权的律师将其称之为是一块有灵敏触感的地板,犹如一块巨大的智能手机屏幕。它本身有着非常广泛的潜在用途,凡是放在上面的物品都可以辨认。最基本的用途就在于开灯和开门。除此以外更为重要的是,一个人的体重、站姿和走路方式也可以成为其判断身份的依据。某个人在摔倒以后是否站起来了也是它能知晓的。零售商在有了它之后可以了解商店的人流量。而数据化的地板能够有无穷无尽的用途。

事实上,这一切并不荒谬。一群健身迷和医学疯子,还有技术狂人发起了“自我量化”的运动,身体每一个部位和生活中的每一件小事都会因为数据测量而变得美好,还可以说是量化的方式使之更为美好。当前,这个运动的规模还不够大,但它一天天地在壮大自己的队伍。