《深度学习革命》作者：人们对AI概念的理解存在偏差

栏目: 数据库 · 发布时间: 6年前

人工智能发展到了今天，关于深度学习以及神经网络等学术名词人人都能说上两句。

但是，你真的理解这些概念么？

其实，人们对这些词语的很多理解都存在偏差。

对基本概念的误解必然导致对人工智能的错误解读。因此“杀手AI”、“机器人使我们过时”等话题便应运而生。

《深度学习革命》作者：人们对AI概念的理解存在偏差

学习算法研究的先驱Sejnowski认为：坚持“AI终结论”观点的人忽视了计算机科学和神经科学领域中其他令人兴奋的可能性。这些人往往不明白人工智能接近人类智能后会发生什么。

近日，Sejnkowski接受了科技网站The Verge的访谈，在采访中Sejnkowski谈到了“深度学习”为何突然变得无处不在，它能做什么和不能做什么，以及如何看待对“深度学习”话题的炒作。

下面是访谈内容，请欣赏！

注：以下V代表The Verge，S代表Sejnowski

V: 首先，我想请教一下定义。现在人们普遍把“人工智能”，“神经网络”，“深度学习”和“机器学习”等词语交替使用。但这些是不同的东西，你能解释一下吗？

《深度学习革命》作者：人们对AI概念的理解存在偏差

S: AI可以追溯到1956的美国，当时工程师们决定编写一个试图模仿人类智能的计算机程序。在AI中，一个新领域成长起来，称为机器学习。与AI中的传统方法不同，在机器学习中我们不是编写一个循序渐进的程序来做某事，而是收集大量关于我们想要理解的内容的数据。例如，你正在尝试识别对象，所以你收集大量与该对象有关的图像，然后通过机器学习自动地分析各种特征，并以此判断出一件东西是汽车而另一件是订书机。

机器学习是一个非常大的领域，并且可以追溯到很久以前，当时人们称之为“模式识别”，但算法在数学上变得更加广泛和复杂。在机器学习中是受大脑启发的神经网络，然后是深度学习。深度学习算法具有特定的体系结构，其中有许多多层网络。基本上，深度学习是机器学习的一部分，机器学习是人工智能的一部分。

V: 深度学习可以做哪些其他程序做不到的事情？

S: 编写程序非常耗费人力。在过去，计算机是如此之慢，内存非常昂贵，所以人们采用逻辑，这就是计算机的工作原理。这是他们处理信息的基本机器语言。当时计算机太慢了，而且计算成本很高。

但现在，计算越来越便宜，劳动力也越来越昂贵。而且计算成本变得如此低，以至于让计算机学习比让人类编写程序更有效率。这时，深度学习就可以开始解决以前在计算机视觉和翻译等领域没有人编写过程序的问题。

深度学习是计算密集型的，但只需编写一个程序，并通过提供不同的数据集，你就可以解决不同的问题。你不必是领域专家。因此，对于存在大量数据的任何事物，都有成千上万的应用程序。

V: “深度学习”现在似乎无处不在。它是如何变得如此流行的呢？

S: 我可以在历史上的特定时刻确定这一点，即2012年12月的NIPS会议，也是最大的AI会议。在那里，计算机科学家Geoff Hinton和他的两个研究生向大家展示了一个名为ImageNet的大数据集，包含10,000个类别和1000万个图像，并使用深度学习将分类错误减少20％。

以往在该数据集上，分类错误在一年内减少不到1％。而那一年的成果超过了20年的研究。

V: 深度学习的灵感来自大脑。那么这些领域——计算机科学和神经科学——如何协同工作呢？

S:深度学习的灵感来自神经科学。最成功的深度学习网络是由Yann LeCun发明的卷积神经网络（CNN）。

如果你看一下CNN的架构，它不仅仅是包括很多单元，它们以一种模仿大脑的基本方式连接起来。仔细观察就会发现CNN结构里有和大脑中简单细胞和复杂细胞的对应的部分，而这些都直接来自我们对视觉系统的理解。

Yann没有盲目地试图复制皮质。他尝试了许多不同的变化，但他最终聚合的是那些自然聚合的变化。这是我们了解到的很重要的内容。自然与人工智能的融合有很多东西可以教给我们，在这方面我们有很长的路要走。

V: 我们对计算机科学的理解取决于我们对大脑的理解程度？

S: 我们目前的大部分AI都是基于60年代时对大脑的了解。我们现在了解的远不止此，所以将会有更多的知识被融入到架构中。

AlphaGo，击败 Go 冠军的程序不仅包括皮质模型，还包括大脑的一部分模型，称为基底神经节，这对于制定一系列决策来实现目标非常重要。有一种称为时序差分学习（temporal differences）的算法，由Richard Sutton在80年代开发，当与深度学习相结合时，能够胜任人类以前从未见过的非常复杂的游戏。

当我们了解大脑的结构时，当我们开始了解如何将它们集成到人工系统中时，它将提供越来越多的功能，超越我们现在的状态。

V: 人工智能也会影响神经科学吗？

S:两个学科在分别做努力。创新神经技术已经取得了巨大的进步，从一次记录一个神经元到同时记录了数千个神经元，并且同时记录大脑的不同部分。这开辟了一个全新的世界。

人工智能与人类智能之间存在着一种趋同。我们越来越多地了解大脑如何工作，而这将反映在AI中。但与此同时，AI的研究者也创造了一整套学习理论，可用于理解大脑，让我们分析成千上万的神经元以及他们的活动是如何产生的。所以神经科学和人工智能之间存在这种反馈循环，我认为这更令人兴奋和重要。

V:从自动驾驶汽车到交易，你觉得哪个区域最有趣？

S: 使我感到震撼的一个应用是生成对抗网络，或被称为GAN（generative adversarial networks）。使用传统的神经网络，你给出一个输入，你得到一个输出。而GAN能够在没有输入的情况下得到输出。

V: 他们真的会产生看似现实的新事物？

从某种意义上说，它们会产生内部活动。事实证明这是大脑运作的方式。你可以看到一些东西，然后你可以闭上眼睛，你可以开始想象那里没有的东西。你有一个视觉图像，当事情安静时，你会有想法。那是因为你的大脑是生成性的。现在，这种新型网络可以生成从未存在过的新模式。所以你可以给它，例如，数百张汽车图像，它会创建一个内部结构，这个结构可以生成从未存在的汽车的新图像，它们看起来完全像汽车。

V: 另一方面，你认为哪些想法可能会被过度炒作？

S: 没有人可以预测或想象这种新技术的引入会对未来的事物组织方式产生什么影响。当然，现在的确存在过度宣传。毕竟我们还没有解决真正困难的问题。人们说机器人即将取代我们，但事实是我们都还没有实现通用人工智能，而机器人远远落后于AI，因为事实证明人的身体比大脑更复杂。

我来举一个技术进步的例子：激光。它是在大约50年前发明的，当时激光可以布满整个房间。从激光布满一个房间到被做成讲课时用的激光笔，这需要50年的技术商业化。这个技术必须发展到你可以缩小激光并以五美元的价格买到它。同样的事情将发生在像自动驾驶汽车这样被热炒的技术上。我们不能说自动驾驶汽车到明年就会无处不在，10年也不一定做得到，甚至可能需要花费50年。但重点是，在此过程中技术会逐渐进步，这将使自动驾驶车辆更灵活，更安全，更兼容我们组织运输网络的方式。

炒作的错误在于人们对时间估计的错误，大家对技术的期待过多、过心急了。技术的发展急不得，但是它会在适当的时候达到我们的期待。

相关数据

人工智能技术

Artificial Intelligence

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源： Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

自动驾驶汽车技术

Autonomous cars

自动驾驶汽车，又称为无人驾驶汽车、电脑驾驶汽车或轮式移动机器人，是自动化载具的一种，具有传统汽车的运输能力。作为自动化载具，自动驾驶汽车不需要人为操作即能感测其环境及导航。

来源：维基百科

神经网络技术

Neural Network

（人工）神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型，那时候研究者构想了「感知器（perceptron）」的想法。这一领域的研究者通常被称为「联结主义者（Connectionist）」，因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型，它们都是前馈神经网络：卷积神经网络（CNN）和循环神经网络（RNN），其中 RNN 又包含长短期记忆（LSTM）、门控循环单元（GRU）等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习，但也有一些为无监督学习设计的变体，比如自动编码器和生成对抗网络（GAN）。

来源：机器之心

阿尔法围棋技术

AlphaGo

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序，也是第一个打败围棋世界冠军的计算机程序，可以说是历史上最强的棋手。技术上来说，AlphaGo的算法结合了机器学习（machine learning）和树搜索（tree search）技术，并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索（MCTS：Monte-Carlo Tree Search），以价值网络（value network）和策略网络（policy network）为指导，其中价值网络用于预测游戏的胜利者，策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的，神经网络的输入是经过预处理的围棋面板的描述（description of Go board）。

来源： Deepmind

大数据技术

Big data

大数据，又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源：维基百科

计算机视觉技术

Computer Vision

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

图网技术

ImageNet

ImageNet 是一个计算机视觉系统识别项目，是目前世界上图像识别最大的数据库。

来源： ImageNet 官网

卷积神经网络技术

Convolutional neural network

卷积神经网路（Convolutional Neural Network, CNN）是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层（对应经典的神经网路）组成，同时也包括关联权重和池化层（pooling layer）。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比，卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路，卷积神经网路需要考量的参数更少，使之成为一种颇具吸引力的深度学习结构。卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据，它可以被认为是以一定时间间隔采样的一维网格，又如图像数据，其可以被认为是二维像素网格。

来源：Goodfellow, I.; Bengio Y.; Courville A. (2016). Deep Learning. MIT Press. 维基百科

生成对抗网络技术

Generative Adversarial Networks

生成对抗网络是一种无监督学习方法，是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成：用来拟合数据分布的生成网络G，和用来判断输入是否“真实”的判别网络D。在训练过程中，生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D，而D则尽可能的分辨真实数据和生成网络的输出，从而形成两个网络的博弈过程。理想的情况下，博弈的结果会得到一个可以“以假乱真”的生成模型。

来源： Generative Adversarial Networks

逻辑技术

Logic

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

机器学习技术

Machine Learning

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

神经元技术

neurons

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源： Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

神经科学技术

neuroscience

神经科学，又称神经生物学，是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。对人脑研究是个跨领域的范畴，当中涉及分子层面、细胞层面、神经小组、大型神经系统，如视觉神经系统、脑干、脑皮层。

来源：维基百科

自动驾驶技术

self-driving

从 20 世纪 80 年代首次成功演示以来（Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)），自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展，但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个：首先，在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境，从而进行实时推论。第二，信息性决策需要准确的感知，目前大部分已有的计算机视觉系统有一定的错误率，这是自动驾驶导航所无法接受的。

来源：机器之心

时序差分学习技术

Temporal difference learning

时间差（TD）学习是一种基于预测的机器学习方法。它主要用于强化学习问题，被称为是“蒙特卡罗思想和动态规划（DP）思想的结合”。 TD类似于蒙特卡洛方法，因为它通过对环境进行取样来学习一些策略；其与动态规划技术相关，因为它基于先前学习的预估（自助法的过程）对当前状态进行近似估计。 TD学习算法也与动物学习的时间差模型有关

深度学习技术

Deep learning

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源： LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

杨立昆人物

Yann LeCun

杨立坤（法语：Yann Le Cun，英语：Yann LeCun，1960年7月8日－）是一位计算机科学家，他在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献。他最著名的工作是在光学字符识别和计算机视觉上使用卷积神经网络 (CNN)，他也被称为卷积网络之父。他同Léon Bottou和Patrick Haffner等人一起创建了DjVu图像压缩技术。他同Léon Bottou一起开发了Lush语言。

涉及领域

来源：https://en.wikipedia.org/wiki/Yann_LeCun

模式识别技术

Pattern Recognition

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

刷屏

[美] 凯文•阿洛卡 / 侯奕茜、何语涵 / 中信出版社 / 2018-10-1 / 68.00

1. YouTube流行趋势经理，解密如何打造爆款视频在视频时代，制造互动，才能创造潮流用户不再是被动的观众，而是主动的传播者 2. 《刷屏》以行内人视角解读：病毒视频粉丝经济网红产业平台如何为内容创作者赋能 3. 你是否常常被病毒视频刷屏？你是否觉得很多网红火爆到“无法用常理解释”？视频时代已经到来，我们每天观看网络......一起来看看《刷屏》这本书的介绍吧!

码农工具

《深度学习革命》作者：人们对AI概念的理解存在偏差

刷屏

HTML 压缩/解压工具

JS 压缩/解压工具

在线进制转换器