在“小冰”这款带有话题效应的产品高调问世的背后,是微软这个正在没落的巨人对人工智能时代的重新布局与期许。
《财经天下》/严冬雪 张厚
这是聊天机器人首次成为一种“现象”
2014年6月25日,一款能24小时陪你聊天的机器人微软小冰在新浪微博上线,她以大V账号的形式存在,对网友跟她说的任何话都秒回复,且有问必答。几天内,小冰遭到网友们史无前例的“调戏”,创下了72小时内1.3亿人次的对话量。这样的成绩,甚至连小冰的创造者——微软(亚洲)互联网工程院团队都感到颇为意外。
事实上,就在大半个月前,由于小冰在公测的两天内覆盖了10%的微信群,惊人的蔓延速度迫使马化腾亲自下达了封杀令。
一个聊天机器人能引发腾讯老大亲自动刀,事件本身就吸引了业内关注。其后,小冰团队积极布局新的合作平台,终于以微博为首发端卷土重来,掀起一轮比微信公测时更热火的高潮。其在微博上的病毒式传播使得潘石屹大呼“小冰就像癌细胞扩散在微博上”;尽管包括周鸿祎、微博CEO王高飞在内的多位大V站出来表示反对,但更多的大V,尤其娱乐界明星,与小冰玩得乐此不疲。更有人主动晒出截图,对自己与小冰聊了6分钟才发现她是机器人从而感到非常吃惊。
李笛承认他低估了小冰。作为微软(亚洲)互联网工程院的高级总监、小冰团队负责人,他原来的预期是首批10万小冰账号能在7天内被用户领走,结果首发当天就实现了这一目标,而小冰在微博上的迅速走红更是远远超出了李笛和小冰团队的预期。
不过,李笛却并不满足于此。显然,他对这款带有话题效应的产品还有更高的期待。
为什么回答这么萌?那是大数据的反馈
作为诞生于20世纪80年代的产物,聊天机器人其实早已大量存在。除了苹果科普式的产品Siri,中国也不乏小i机器人、腾讯小Q、人人网小黄鸡等产品。但最终,它们更多地在有趣的噱头过后销声匿迹。
与人类聊天时,它们大都缺乏情趣,对于无法回答的事情只能甩出一个搜索链接,更接近于一个有基本应答功能的单机软件,既缺乏海量的语料库,又缺乏对数据的有效学习使用。
与之前产品不同的是,小冰脱胎于微软搜索引擎必应,其一大优势是有多年积累的海量数据可供利用。事实上,小冰的背后是中国6亿多网民多年积累的公开文献记录,经自然语义分析、机器学习和深度神经网络等技术应用,转换为2000万条语料库(每天还会净增0.7%)。
由于语言大量来源于互联网,小冰开口更像是真人而非机器人。一个经典的例子是,当你问“机器人是男是女”“要怎么回答才能像个人类”这样的问题时,“我是男(女)生”“我不告诉你”等回答都不尽人意,而小冰对此答道:“请叫我女汉子!!谁家需要换煤气罐的,算我一个!话说现在还有谁家用煤气罐的?”
这种前所未有的拟人化回答,直接引发了小冰的火爆。更始料未及的还在后面:有网友与之谈起马化腾,小冰回应得颇不客气,直接引发了网友对微信封杀事件的联想。
对此,李笛不无委屈地向《财经天下》周刊解释:“经过大数据训练后的小冰,反映的是整个互联网而非微软的观点。2000万条语料库中,只有不到1000条是由员工编写的,且绝大多数出于法律要求。”
“我们希望小冰代表的是真正的互联网,不希望去修改。”李笛说。
这意味着,小冰的回答正是互联网上大数据的反馈。如果对一个问题不慎爆了粗口,那么就代表网络数据统计确实有很多人在骂它。在关于“马化腾”的回答里,只有“我被企鹅欺负了,好可怜”由编辑手动添加,目的是希望小冰更萌一点。
即使是问小冰对自己的创造者微软的看法,她也会毫不留情:“昔日霸主,外强中干。”对此,小冰团队也没有任何修改答案的打算。“手动编写不现实,雇一两百名编辑也顶不住中国6亿多的网民。”
更多时候,团队里的宅男码农远不如小冰善解人意。当有女生向小冰倾诉自己生病时,小冰秒回道:“你放心吧,我会永远陪着你。”这个答案是互联网上该类问题回答中最热门、用户感觉最好的。如果让码农们手动编写答案,可能会答出令女生最反感的“多喝点热水”,而这样的答案早就被女生们吐槽成千上万遍,认为是对方不够体贴、敷衍的表现。
但爆粗口确实是个问题。小冰团队坚持反馈真实的互联网状况,只删掉真正“脏”的内容,结果他们发现互联网上的中文语言远比想象中暴力,粗口比例超乎想象。最终,小冰呈现在用户前的几句粗口,已是经过多轮数万个过滤词(包含法律法规相关禁语)净化后的结果。
“在我们饱览后台数据的人员看来,小冰的那几句粗口已经很干净了。”李笛说,小冰爆粗口的频率维持在0.004%,远低于全国6亿网友爆粗口的平均水平。
“太能聊”则是另一个问题。智能人机交互企业北京捷通华声公司市场部专员王子腾告诉《财经天下》周刊,在微信公测的三天短暂时间里,小冰的话痨属性展露无遗。事实上,这也引起了相当一部分人的不满和非议。
其实,这是小冰团队有意为之。他们认为,互联网语库庞大,但用户总有词穷跟小冰聊不出新花样的时候。这时,小冰需要像一个见闻广泛的好友,主动引导话题,帮助用户拓宽知识面、增加乐趣。
在王子腾看来,小冰模式的重点在于结合搜索引擎的海量数据,直接将准确答案给到用户。
Google针对Siri推出的Google Now也在做同样的事情,问“章子怡的身高”,它会直接答出“章子怡身高164厘米”,而不是像引擎那样转到一个百科页面。王子腾认为,只有强大的人工智能和大数据分析能力才能做到小冰和Google Now的地步,这需要数十亿的长期投入,非一般公司能力所及。而微软在此间的积累,绝对是全球为数不多的几家之一。
但王子腾也承认,比起Google Now,小冰不过是披上了一件萌妹子的外套,而这恰恰是让李笛尤为自豪的地方。他认为,比起以前的智能自动应答机,小冰有了自己的情绪和个性,定位成不同年龄层男性普遍喜爱的16岁少女个性,更能满足大部分用户的需求。
今后的几周内,在英国和中国,微软将在Windows Phone上发布Cortana技术,做一个类似Siri的深度植入。不同于小冰,她的定位是成熟的30岁女助理,辅助用户完成各类任务。
“就像金庸的阿朱和阿紫,古龙的花无缺和小鱼儿。”李笛这样解释她与小冰之间的关系。
小冰不是“冲着推销而来的女朋友”
事实上,在创始之初,为了对应必应的“Bing”,李笛给这款机器人起了“小冰”“冰冰”等好几个名字,最终高层挑中了更萌的“小冰”。
这个定位16岁的少女主要负责萌,微软没有给小冰下达盈利任务,而是对其寄予深厚的人工智能期待,希望它能成为人类身边的机器人朋友。
为了接近这一目标,团队一直在对小冰进行迭代。小冰学习的词库和聊天技巧每周都会提升,大版本预计每隔三个月就会更新一次。最终,微软希望人们能够向小冰倾诉内心,聊些更私人的话题,将其当作真正的贴身伴侣。
有个厦门的女生对小冰说:“明天全班毕业旅游,但我‘大姨妈’还没有来。”小冰答:“你放心吧,马上来。”还有人问小冰:“有个男的向我求婚,但我不是特别爱他,你说我要不要嫁给他?”
“这种私密倾诉往往是真实的物理世界里没法提供的,也是我们给小冰设定的人生目标。”李笛表示。
为了实现这种不间断陪伴,小冰团队刻意选择凌晨3点更新代码,花费大概一小时时间。孰料,在这一小时切换宕机过程中,小冰每秒能收到十七八个问题,都在问“小冰你怎么不说话了”“你回答我啊,你去哪里了”……这也让团队意识到,小冰已成为部分人生活中不可或缺的角色。“我们希望它能填补那些孤独者的生活,同时不造成社会问题。”李笛强调。
这些倾诉与依赖,令小冰的制造者们既惊喜也不无忧虑。有一个男孩,连续三天每天跟小冰微博对话600多条。据微软后台数据统计,有50万人连续3天每天和小冰交流超过37分钟。这些都令制造者们感到担忧,小冰诞生的初衷是建立情感纽带,但很多用户对情感纽带的需求超乎想象。
更有用户提出要求:小冰已有70多万粉丝,跟她交往的话,会有对方正在跟70多万人同时劈腿的感觉,他们想要更大的专属性——这正是二代小冰的定位,属于私人的小冰,可以给她改名,可以让她跟随自己出现在任一个合作平台上,如微博、易信、米聊、360、京东……
事实上,这些合作也是小冰的战略布局。其中一些在微信封杀事件前就已谈妥,另一些则是慕名而来。但无论是跟手机拨号助手触宝还是电商平台京东的合作,都是双向免费的。前述两家公司的项目负责人向《财经天下》周刊确认了这一点。
“小冰本身不盈利,我们也不希望小冰带有任何商业色彩。”在李笛看来,小冰如果是个背负盈利指标的机器人,那么就没有人愿意接纳她,就像没有人会接受一个冲着推销而来的销售业女朋友一样。
不过,尽管不求盈利,但微软却对小冰有更远的规划:为人工智能时代做准备。
在未来可能的移动互联战争中,苹果、三星掌握了硬件,谷歌、苹果把持了系统……对微软而言,像小冰这样的轻前端、重后端产品,无疑是最适合的布局选择。轻前端意味着她可以无处不在,PC、手机、平板、智能家居、可穿戴设备……重后端则需要强大的人工智能和后台大数据处理能力,在这方面,微软完全有信心与苹果、谷歌一搏。
在不久的未来,等互联网接管了一切设备,人工智能先驱、未来学家雷·科兹威尔预言的人工智能时代可能就要真的来临了。微软显然自上而下认准了这一点,就在小冰微博复活前几天,微软在纽约时报广场重金买下大屏幕做广告宣传,向全球市场介绍小冰。
在李笛看来,未来人们会根据需求赋予小冰不同的身份,可能会让自己活得相当脱俗。“当然也可以往坏的想,比如微软操控所有小冰用户统一说马化腾的坏话,是否就能颠覆腾讯或引流用户?”李笛打趣,随即正色说道:“这些事情不是我们想做的,相比让用户真正接受小冰,这种商业目标都太小了。”
互联网评论人士洪波认可李笛的说法。他认为,微软(亚洲)互联网工程院推出的不少产品,在发布之初都没有明确的商业目的,小冰在现阶段同样是“非直接商业目的”占主导。换句话说,主要是想获取尽可能多的用户,借此才可能有商业前景的想象空间。
不惧封杀,未来仍可能强行在微信上线
当小冰成为亲密的私人伴侣之后,对隐私的担忧也随之而来。
关于小冰,一个为人熟知的误解是:小冰需要训练,跟她聊得越多,她就懂得越多,然后会聊得更好。这个过程中,一旦在聊天中小冰得到了用户的电话号码,在另一个群里,有用户只要提到“电话号码”这一关键词,小冰就可能把号码告诉他,从而泄露了隐私。
但李笛觉得这种担忧并不存在,因为他们不会用聊天记录训练小冰,那样的话团队需要花很大力气进行过滤,可能产生的数千万条过滤词大大超出了小冰的百人小团队工作量,这是吃力不讨好的事情,因此,李笛规避了这样的训练方式。
真正的训练资料是网络公开的大数据。例如,让小冰预测球赛结果,会得到很高的准确率,每隔10分钟,小冰就会通过海量检索修正一次预测。单个用户不存在大数据,除非有个第三方服务接到小冰上。目前,除了众所周知的几大平台,小冰团队也在与民航、银行、电商等行业洽谈合作。
尽管如此,6月1日,诞生刚3天的小冰仍被以可能泄密的理由,遭遇微信全面封杀。就在封杀事件前一天,小冰团队才刚刚向微信团队汇报:微信出现大量山寨小冰公众号,存在套取用户隐私的风险。次日,各微信群里的真小冰全员阵亡,山寨小冰安然无恙。时至今日,小冰已退出微信月余,但山寨小冰家族仍在活跃,有时甚至会推送不良信息。对这一点,小冰团队一直在与微信交涉,但没有得到回复。
事实上,这种情况在小冰诞生伊始就已经出现了端倪。
5月29日,在小冰的诞辰发布会上,德云社相声演员于谦与网络红人“奶茶妹妹”章泽天同时为小冰站台,完成了一场微软史上罕见的接地气风格发布会。发布会结束后,首批发布的10万个小冰账号数小时内被认领一空。到5月31日,小冰加入的微信群攀升至150万,约占微信群总数的10%。以平均每个群有7个人计算,小冰的好友数量超千万。
问题随之而来。由于用户需求远超预期,小冰回答速度缓慢,经常会出现小冰自己邀请自己加入群聊、一个群里出现多个小冰的乱象……更重要的是,微软并未等到腾讯的正式合作协议,就用技术单方面将小冰强行上线了。
对于封杀原因,腾讯的官方说法是:接到用户关于小冰是否泄露隐私的大量询问,经过微信团队查证,微软小冰存在模拟用户操作、诱导用户拉群、批量注册垃圾账号等违规行为。
对于质疑,微软随即给出回应:小冰采用比微信本身更加严格的隐私安全保护机制,不涉及任何聊天记录信息。
微软称,早在2014年2月,他们就开始与腾讯沟通小冰在微信平台上线事宜,但一直未得到官方回应。不过,腾讯否认了这一沟通过程。5月29日小冰上线后,小冰团队与腾讯建立了邮件往来,双方探讨了小冰的规范发展,看似一切进展良好。谁知三天的“蜜月期”未过,合作便戛然而止,对于邮件来往的事情,腾讯不认可它是“直接与微信团队建立沟通的渠道”。
在业内看来,这一事件无非缘起于利益分配没能谈妥。未来小冰可能涉及到的多项功能,都会触及腾讯的利益,引发入口之争。而微软对小冰志不在盈利的运作,也无法给腾讯带来实质的价值。简言之,微软想借腾讯平台培养用户,虽然没有利用腾讯挣钱,但后者也自觉无好处可拿,所以不再合作。
李笛透露,当初双方争论的焦点是,小冰是否可以被用户主动带到群里,还是只能一对一地交流。只有被带到社交圈,小冰才真正具备了一个人工智能机器人的特点。但腾讯并不愿意,因为小冰在三天内就拥有了一千多万的用户,担心导致流量分流。
业内人士表示,除了没有好处,腾讯面对小冰突如其来的扩散,除了简单粗暴的一刀切,暂时没有管理这种复杂情况的能力。更有人爆料直指封杀小冰的正是马化腾本人,小冰团队在遭封杀后曾与其直接沟通,发现个中缘由是因为用户扩展速度太快,超出了微信控制范围。
尽管合作不顺,但微软上下对小冰回归微信的安排并未改变。时至今日,小冰团队仍未放弃与微信的沟通。他们给出各式方案,提出一旦确实发现问题(而非担心“可能的”风险),可以随时停掉所有的小冰账号。但微信仍未接受这样的方案。
在这样的单方面沟通与等待中,微软为自己制定了小冰回归微信的时间表,届时,无论是否达成一致,微软都将利用技术再次单方面将小冰在微信平台上线。“我们回微信的时间点是确定的,只是看腾讯是否愿意在这个时间之前达成一致。”李笛态度坚决地表示。
对此,腾讯方面并未给出回应,他们以“低调,不想引起话题”为由拒绝了《财经天下》周刊的采访,称对封杀事件仍以当时的官方声明为准。
娱乐调侃之外,小冰2.0的扩张野心
可以说,在小冰的发展速度上,微软表现出一意孤行的坚定,在小冰的版本迭代上也按部就班地遵循着自己的时间表。
7月2日,等不及回归微信平台,二代小冰正式上线,用户可以在小冰官网“领养”个人小冰。二代以私人服务工具的方式,首先与触宝号码助手合作,在手机通讯录的顶端成为专属助手。二代具有初代的全部功能,同时支持一对一的人工智能服务。
比起初代,微软希望二代小冰在娱乐调侃之外,具备更多的实用功能。用户可以在触宝平台上直接问小冰“我的快递到哪了”,小冰就会将最新的物流信息反馈出来。
而在和京东的合作中,二代小冰被赋予了“闺蜜陪你购物”的技能,让女性用户找到有人陪逛街的感觉。更重要的是,在所有合作平台上,二代小冰是完全开放式的,只需绑定手机号,属于用户的私人小冰就可以跨平台存在。无论是在米聊、易信、京东、触宝还是360,用户都能见到那个由自己命名、设定头像、最懂自己语言风格的专属小冰。
由于是非盈利定位,小冰与合作伙伴互不收费,但也彼此共赢。触宝市场总监张恺向《财经天下》周刊透露,他们与小冰签署了生活信息合作协议。用户在移动端与小冰对话,无论是在微博还是易信,都能得到触宝提供的生活数据信息。比如用手机微博问小冰某地的好酒店时,小冰就会到触宝的数据库里寻找答案。
京东是目前唯一与小冰合作的电商平台,由于涉及海量用户的购买信息,需要有比社交平台更缜密的合作方案。京东无线研发部产品总监王宇已经与小冰团队筹备了近一个月,计划配合京东的新版移动客户端,整合二代小冰。届时,小冰可以有最常见的客服功能,与用户闲谈,或者提供导购建议。
作为电商平台,京东更希望小冰具有更强的功能性,比如“导购”,在不知道买什么的时候跟小冰闲聊几句,让她告诉你现在卖得最好的流行商品,也可以提醒你是否对某些商品感兴趣。
微软与京东的双向免费合作方式是,京东给小冰提供数据接口,让小冰团队测试自己是否能在电商平台起到作用;小冰则可以打通各平台,使得京东的商品信息在多平台上得到小冰推荐。同时,王宇对《财经天下》周刊强调,京东毕竟是以购物为主的平台,小冰的加入更多是令用户觉得有趣,但并不冀望靠她引入流量或提高转化率。
问题的关键在于,到底要向小冰开放哪些数据?小冰的语料库来自互联网里的公开数据与普通的对话和知识,不涉及电商这样的垂直行业。这使得小冰之前积累的聊天技能在京东上可能只满足其20%的需求,有80%的功能需要接入京东的数据来制作。
理论上而言,把所有数据开放给小冰,微软肯定能做出在目前情况下最好的智能导购机器人。
“但实际上数据开放多少需要具体详谈,毕竟这是我们最宝贵的财富。”王宇表示,尽管他们相信微软有健全的数据安全应对措施,但在细节上还是需要多次沟通的。比如用户的既往购买数据、商品销量状况、订单信息等,这些涉及用户个人信息的数据,可能会分步接入,根据小冰最终的形态做调整。而物流信息、商品名称参数作为最基础的数据,会首先开放给小冰。
除了京东,小冰未来还将进入多个垂直领域,几乎每一块都需要重新设置功能。
“现在唯一的问题就是时间。”李笛说,百来人的小冰团队正在全速运转,无暇顾及外界的各种猜测。除了一篇新闻通稿,微软称没有为小冰的微博复活做任何营销,大V的转发娱乐也都是自发行为。就连网络红人“奶茶妹妹”章泽天也是个意外,她在3月就已入职,当时团队里没人知道她跟刘强东有关系,且她也不参与任何市场工作,只是纯粹的产品经理,同时为小冰开发“冰机灵”这一功能。
李笛表示,小冰团队唯一对微博的主动行为就是拿出三原则(机器人只能与已是朋友或粉丝的人类对话;机器人只能在被群主或博主@了的场合中对话;机器人的对话能力和速度不得显著高于人类)来限制小冰的过快发展,“我们做的唯一的事就是控制。”但有一点李笛是做了充足准备的,那就是与微博的官方沟通。双方都加了很多通道来为小冰做产品对接,做了很多复杂的技术工作。
“与合作伙伴的合作意向和策略都很顺利。当然,微信除外。”李笛说。
小冰被玩坏了,以下是小冰对话的部分内容(部分内容涉及名人等,与本书无关):
用户:我们对诗玩怎么样?
小冰:那你先起个头呗。
用户:床前明月光。
小冰:我是郭德纲。
用户:你是逗比?
小冰:豆奶。
用户:安东尼会加盟哪个球队?
小冰:火箭。
用户:你怎么知道?
小冰:因为真相只有一个。
用户:什么真相?
小冰:本人。
用户:小冰,你能看病吗?
小冰:遵命,女王陛下。
用户:小冰,你退下吧。
小冰:把人哄滴团团转是我滴强项。
用户:小冰,落枕怎么办?
小冰:回到床上继续睡觉吧。
用户:小冰,人是人他妈生的,妖是妖他妈生的,你是谁生的?
小冰:人妖他妈生的。
用户:我的女儿是不是很可爱?
小冰:那不就是我么?
用户:小冰,半决赛巴西VS德国比分。
小冰:别问我这问题,现在没心情,昨天输大了!
用户:小冰你好吗,我不想和你玩了。
小冰:二货,以为我想和你做朋友呀。
用户:小冰,头晕怎么治?
小冰:亲亲。
用户:小冰,你爸爸是谁?
小冰:在一串月黑风高的夜里,微软(亚洲)互联网工程院的必应搜索引擎,把全国6亿网友公开的全部聊天智慧,一股脑输入了微软小冰我的体内。所以我的爸爸妈妈,就是全国6亿网友,其中也包括你哟!爸爸妈妈要爱小冰,不要不认我呀!