智能时代:大数据与智能革命重新定义未来 - 吴军
校对/排版:John Wan
推荐序一 大数据与机器智能催生智能时代
大数据是当今信息社会的热词。关于数据,狭义上,在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号介质的总称,是用于输入电子计算机进行处理的具有一定意义的数字、字母、符号和模拟量等的通称。广义上的数据,按照维基百科的定义,则是以适于更好使用或处理的方式来表示或编码的信息或知识,它可以被测量、收集和报告及分析,能够使用图形或图像来显示。按照上述定义,数据是伴随人类社会而出现的,从狭义的计算机数据的角度来看,数据从有计算机算起到现在也有70年历史了,从摩尔定律的提出到现在也有50年了。这几十年来,全球数据量按每年平均40%的速度增长,由摩尔定律所驱动的计算机处理能力也在持续增长,现在每年新増的数据量与计算机处理能力都是以前无法相比的,但数据量与计算机处理能力之比并没有因为年份而有数量级的大变化。问题是为什么现在才出现大数据热呢?
吴军先生的《智能时代》一书给出了答案。该书回顾了科学研究发展的四个范式,即描述自然现象的实验科学、以牛顿定律和麦克斯韦方程等为代表的理论科学、模拟复杂现象的计算科学和今天的数据密集型科学。即便在实验科学和理论科学及计算科学范式时期,数据仍然起了重要作用。作者在介绍科学发展史时用实例说明了数据在科学发现中的位置,在牛顿和麦克斯韦时代,他们所导出的简洁的公式给出的确定性的规律是由大量观察数据所验证的。现在我们面对的是更复杂的自然和社会现象,多维度和多变量导致很大的不确定性,虽然还不能用解析式来说明因果关系,但如果从足够多的数据中发现相关性也能把握事物发展的轨迹,这就是数据密集型科学产生的背景。大数据的应用缘于需求,更是得益于技术的发展:互联网的宽带化和移动互联网及物联网的技术与应用源源不断产生数据,摩尔定律所支撑的计算能力几乎是以十年千倍的速度提升,云计算的集约化运用模式降低了信息化的成本,更重要的是机器智能的发展。计算机的计算与存储能力是人远远不及的,唯一不足是智能,但人的智能也不是与生俱来,只是学习的结果。机器智能可以通过深度学习得到,从而将大数据挖掘问题转化为可计算问题来处理。大数据挖掘的需求加速了机器智能技术的成熟,可以说,大数据与机器智能相伴而生,促进物联网从感知到认知并智能决策的升华,催生了智能化时代。这是一个计算无所不在、软件定义一切、数据驱动发展的新时代。相比以蒸汽机的发明为标志以机械化为特征的第一次工业革命,以电的发明为标志以电气化为特征的第二次工业革命,现在以大数据应用为标志之一和以智能化为特征的新一轮产业革命到来了,它对人类文明和社会进步及经济发展的影响将不亚于前两次工业革命。
读吴军先生的《智能时代》和同样出自其手的《数学之美》和《文明之光》,我感受到作者深厚的数学与物理功底。他对科学发展史研究情有独钟,见解深刻,以历史的眼光引导读者认识现代科技的发展趋势。他的书深入而浅出,既专业又通俗。《智能时代》一书与前两本书相比更关注产业变革,从工业革命谈起,顺理成章导出大数据与智能化,并积极评价了大数据与机器智能对社会与产业发展的贡献,同时根据历史经验分析了智能时代可能产生的负面影响,指出技术时代的变迁总是会引起现有产业格局的重大调整,要抓住智能时代的机遇并认真对待挑战,力争在新一轮产业变革浪潮中占领先机。作者过去在谷歌和腾讯公司的工作经历和多年从事大数据与机器智能的研究实践,反映到《智能时代》一书中对相关技术的准确把握。但作者并没有将笔墨的重点放在对技术的深入解读上,而是着眼从技术的应用中体现大数据的理念,聚焦于启迪创新思维。综观全书,这是一部近代科技的历史书,也是一部科普书,也可以说是一部指导创新的教科书。由于大数据的应用必然会渗透到所有的领域,因此本书不仅值得IT行业科技人员一读,对关注信息化应用的其他行业的科技人员和管理人员来说也必定开卷有益。
中国工程院院士
邬贺铨
2016年7月26日
推荐序二
智能时代,未来已来
最近几年,人类在一些科技前沿领域取得了重大的突破,这些领域包括:人工智能、基因技术、纳米技术等。过去一年,我们看到了许多存在于科幻小说中的内容成为现实:人工智能击败了人类顶尖棋手,自动驾驶汽车技术日趋成熟,生产线上大批量的机器人取代工人……甚至在我们有生之年,也许可以期待看到星际航行技术的成熟。当这些曾经是对人类社会”未来”描述的事情一件件成真,或许我们可以说,已经初露端倪的”智能时代”就是人类想象中“未来”的样子。
《智能时代》这本书展现了吴军博士的真知灼见和前瞻思维,这些都来自于他在大数据和机器智能领域的多年第一线实践经验。全书对大数据与智能革命带来的思维革命、技术上的挑战,以及机器智能如何改变人类社会,都做了全面的讲解。与其他一些写机器智能的书不同,这本书与作者之前的几本书一样,维持了作者对科学生动而易于理解的、有温度感的一贯的表述方式。
大数据是解决不确定性的良药
“用不确定的眼光看待世界,再用信息来消除这种不确定性”,是大数据解决智能问题的本质。吴军博士在书中提到了世界的不确定性来自两个方面,一是影响世界的变量太多以至于无法用数学模型来描述;二是来自客观世界本身:不确定性是我们所在宇宙的特性。因此,用机械论已经完全无法对未来进行预测。
香农,这位不世出的天才,则通过借用热力学中“熵”的概念,引入“信息熵”,用信息论将世界的不确定性与信息联系在了一起。这个建立在不确定性上的理论,正是今天人类研究大数据与机器智能的基石。
解决智能问题,就是将问题转化为消除不确定性的问题,大数据则是解决不确定性问题的良药。可以预见,在这里会诞生无数的机会。
现有产业+新技术=新产业
吴军博士在书中总结了从第一次工业革命以来历次技术革命中的一个规律,即每一次技术革命都会围绕着一个核心技术展开,第一次工业革命是蒸汽机,第二次工业革命是电,信息革命是计算机和半导体芯片,当下的智能革命则是大数据和机器智能。而在每一次技术革命中,只有率先采用新技术,才能立于不败之地。在智能革命中,现有产业采用了新技术后,将会全面升级,成为新产业,这将给我们带来无限的机会。
智能革命带来前所未有的不连续性挑战
本书的一个重要观点是:机器智能革命的发生来自大数据量的积累达到质变的奇点。从这个角度来看,机器的学习同人类的学习并没有什么本质的不同。几千年以来,我们人类的知识都建立在归纳法之上,归纳法隐含的假设是“未来将继续和过去一样”,换句话说应该叫连续性假设。但即将到来的这个“智能时代”,可以说人类将遭遇前所未有的“不连续性”。如何在新的时代里生存,跨越底层认知的不连续性,是前进的第一步。
与工业革命相比,人工智能带来的革命程度将更深更广。书中也提到,一些人对变化开始有了一定程度的担心,认为机器智能将在未来危及整个人类的工作机会,大多数人在未来将不再被社会需要。不可避免,每一次大的技术革命都会带来阵痛,但同时诞生的,还有更多新的机会。而要想在智能时代取得胜利,成为“2%的人”,我们需要做的第一步,是打破现有的认知束缚。
如何在智能时代开始跨越思维的不连续性?寻找答案,此书也许是最恰当的一本。
李善友
混沌大学创始人
前言 人类的胜利
AlphaGo在第一盘出人意料地轻松获胜。当然,大部分人在赞誉AlphaGo水平的同时,依然认为这可能是李世石在试探计算机而已,毕竟那是五盘棋的比赛,用一盘棋试探自己毫不了解的对手未尝不是明智之举。但是当AlphaGo在第二盘获得连胜并且下出了很多人类预想不到的好棋后,对机器智能持怀疑态度的聂卫平等人,都对它产生了敬意。在AlphaGo获得第三盘胜利之后,很多超一流的棋手都渴望和它一战,希望以此检验自己的水平,并且能够提高技艺。虽然李世石在第四盘抓住AlphaGo的一个失误打了一个漂亮的翻身仗,但是AlphaGo在最后一盘稳稳地控制着局面,直到胜利。可以讲在那一次人机大战之后,围棋界对机器智能从怀疑变成了顶礼膜拜,大家都意识到,按照AlphaGo在过去几个月里的进步速度,只要Google愿意继续进行科研,很快人类所有的围棋高手都无法和它过招了。
计算机之所以能战胜人类,是因为机器获得智能的方式和人类不同,它不是靠逻辑推理,而是靠大数据和智能算法。在数据方面,Google使用了几十万盘围棋高手之间对弈的数据来训练AlphaGo,这是它获得所谓的“智能”的原因。在计算方面,Google采用了上万台服务器来训练AlphaGo下棋的模型,并且让不同版本的AlphaGo相互对弈了上千万盘,这才保证它能做到“算无遗策”。具体到下棋的策略,AlphaGo里面有两个关键的技术。第一个关键技术是把棋盘上当前的状态变成一个获胜概率的数学模型,这个模型里面没有任何人工的规则,而是完全靠前面所说的数据训练出来的。第二个关键技术是启发式搜索算法——蒙特卡罗树搜索算法(Monte Carlo Tree Search),它能将搜索的空间限制在非常有限的范围内,保证计算机能够快速找到好的下法。虽然AlphaGo的训练使用了上万台服务器,但是它在和李世石对弈时仅仅用了几十台服务器(1000多个CPUa的内核以及100多个GPUb)。相比国际象棋,围棋的搜索空间要大很多倍,AlphaGo的计算能力相比深蓝,其实并没有这么多倍的提高,它靠的是好的搜索算法,能够准确地聚焦搜索空间,因此能够在很短的时间里算出最佳行棋步骤。由此可见,下围棋这个看似智能型的问题,从本质上讲,是一个大数据和算法的问题。
当然,Google开发AlphaGo的最终目的,并非要证明计算机下棋比人强,而是要开发一种机器学习的工具,让计算机能够解决智能型问题。AlphaGo和李世石对弈,实际上是对当今机器智能水平的一个测试。从樊麾到李世石,他们实际上是用自己的专才在帮助Google测试当今机器智能的发展水平。在人机对弈的第四盘李世石反败为胜的过程中,他无意中发现了AlphaGo的一个缺陷。因此,Google的成功里面也有李世石等棋手的功劳。从这个角度来讲,AlphaGo的胜利标志着人类在机器智能方面达到了一个崭新的水平,因此它是人类的胜
AlphaGo无论是在训练模型时,还是在下棋时所采用的算法都是几十年前大家就已经知道的机器学习和博弈树搜索算法,Google所做的工作是让这些算法能够在上万台甚至上百万台服务器上并行运行,这就使得计算机解决智能问题的能力有了本质的提高。这些算法并非专门针对下棋而设计,其中很多已经在其他智能应用的领域(比如语音识别、机器翻译、图像识别和大数据医疗)获得了成功。AlphaGo成功的意义不仅在于它标志着机器智能的水平达到了一个新的台阶,还在于计算机可以解决更多的智能问题。今天,计算机已经开始完成很多过去必须用人的智力才能够完成的任务,比如:医疗诊断,阅读和处理文件,自动回答问题,撰写新闻稿,驾驶汽车,等等。可以讲,AlphaGo的获胜,宣告了机器智能时代的到来。
AlphaGo的获胜让一些不了解机器智能的人开始杞人忧天,担心机器在未来能够控制人类。这种担心是不必要的,因为AlphaGo的灵魂是计算机科学家为它编写的程序。机器不会控制人类,但是制造智能机器的人可以。而科技在人类进步中总是扮演着最活跃最革命的角色,它的发展是无法阻止的,我们能做的就是面对现实,抓住智能革命的机遇,而不是回避它、否定它和阻止它。未来的社会,属于那些具有创意的人,包括计算机科学家,而不属于掌握某种技能做重复性工作的人。
在AlphaGo取得人机大战胜利之际,我们出版这本书,希望能让大家更多地了解大数据的本质、它的作用、它和机器智能的关系、机器智能的原理和发展历程,以及它们对未来产业和社会的影响。本书一共分为七章,分别介绍了数据的作用,大数据和机器智能,机器智能的原理及其发展历程,大数据思维的核心及其重要性,大数据和机器智能与商业的关系,它们对社会正反两个方面的巨大影响。书中的核心内容来自我在研习社和一些大学商学院讲课的讲义,但是考虑到大家读书和听课毕竟有很大的区别,因此在将讲义改写成书的时候,我在书中增加了大量的案例和历史背景介绍,以方便大家能够系统地了解大数据和机器智能的来龙去脉,以及我们对未来进行分析的依据。
本书的出版,在很大程度上是研习社负责人曾兴晔女士、空无边处出版团队的张娴和郑婷女士,以及中信出版社经管分社的朱虹社长和赵辉编辑等相关人员积极推动的结果。著名的信息领域专家、中国互联网协会理事长邬贺铨院士,以及混沌学院创始人李善友教授,在百忙中为本书写了序言。上海交通大学电子信息与电气工程学院副院长王延峰副教授对本书的内容提供了宝贵的参考意见。在此我对他们表示衷心的感谢。由于本人水平有限,书中不免有这样或者那样的错误,希望广大读者朋友不吝赐教指正。
吴军
2016年4月25日于硅谷
这是第一篇第一章 数据——人类建造文明的基石