《统计学习方法》再版，我们和大牛李航聊了聊年轻人如何成长

栏目: 数据库 · 发布时间: 7年前

内容简介：在李航身边工作是一种怎样的体验？有的同学说，当然是很开心，都知道他是行业里的技术大牛，在微软亚洲研究院、华为诺亚方舟实验室等知名机构有着丰富的从业经历。还有很多同学说，其实也没有那么神秘，他总是穿着衬衫西裤而不是码农的T恤，开会带着纸质本子记东西，习惯用手表看时间，温和儒雅，一副大学教授的样子。

在李航身边工作是一种怎样的体验？

有的同学说，当然是很开心，都知道他是行业里的技术大牛，在微软亚洲研究院、华为诺亚方舟实验室等知名机构有着丰富的从业经历。还有很多同学说，其实也没有那么神秘，他总是穿着衬衫西裤而不是码农的T恤，开会带着纸质本子记东西，习惯用手表看时间，温和儒雅，一副大学教授的样子。

他的另一个身份是《统计学习方法》的作者，这本书被很多人亲切地称作“蓝宝书”，是不少同学入门机器学习的启蒙读物。他出版过三部学术专著，并在顶级国际学术会议和期刊上发表过上百篇论文，拥有40项授权美国专利。

最近，李航的《统计学习方法》第二版即将发布，字节君和他聊了聊，他就新书的内容、加入字节跳动的体验、年轻技术人的成长、机器学习的未来和人工智能的发展趋势等话题与大家进行了分享。

《统计学习方法》再版，我们和大牛李航聊了聊年轻人如何成长

关于新书

Q：《统计学习方法》第二版相对于第一版有哪些更新？

A：统计学习即机器学习，第一版主要是介绍了监督学习的算法与模型。第二版主要是在过去六年的时间里，补充了无监督学习的八个方法，并对第一版的监督学习方法做了一些修改。虽然目前90%以上的机器学习都是监督学习，但无监督学习其实是机器学习的重点和难点，即让机器自己发现数据里的规律，它是未来实现强大人工智能的重要推动力。未来我还准备花3-4年时间把深度学习和强化学习加进去。因为我都是业余时间写作，所以花的时间比较久。

Q：很多人把《统计学习方法》叫做蓝宝书，是入门机器学习的启蒙读物，但一些学生看这本书会觉得吃力，能不能推荐一些入门的方法？

A：这本书的内容本身是最基础的，也就是机器学习领域大家都应该掌握的东西，从这种意义上来说确实是一本入门书籍。但是我并没有从入门的角度写这本书，而是更多地把一些最基本的概念，提纲挈领地整理出来，也是我自己再学习和思考的过程。你也可以认为是从教材的角度来写这些内容，因此这本书适合多次阅读，需要经常查看，而不是看一遍就了事。

这本书比较适合有一定基础的读者，主要是数学基础。它不太适合特别入门的初学者，也不太适合概率论、统计学都不太了解的入门者，这些基础知识可以通过其它课程或教材快速补全。当然，读者也可以一边阅读《统计学习方法》，一边补全基础知识，这样学习可能效率更高。

当然，我希望《统计学习方法》不仅仅是教材，它还能为业界的工程师提供一些有用的帮助。

Q：能不能给我们分享一下经验，年轻技术人员如何自我成长？

A：我觉得有几件事情比较重要。一是建立远大的理想和目标，选择自己喜欢做的，擅长做的，能给自己带来利益的事情的交集去做。制定有挑战的目标，想想希望自己5-10年后成为什么样子。二是一旦有了目标之后，在日常的工作中扎扎实实地去做。其实没有捷径。

另外，我们谈到技术人员的工作的时候，科学家和工程师的思维方式应该是不一样的。工程师的思维方式应该是面向问题解决问题，而科学家的思维应该是建立普世价值的理论和方法。在AI Lab的同事们更是这样，需要明确自己当前做的工作是哪种性质的。理想是不断培养自己两方面的能力，但也有侧重。

关于加入字节跳动

Q：问答社区上有一个问题“如何评价李航加入今日头条母公司字节跳动？”，所以你为什么加入字节跳动？目前为止，感觉如何？

A：字节跳动有很好的产品和大量的用户，有人工智能研究需要的大数据，公司也有很多优秀的人才，总之这里拥有做技术开发最好的环境，有很多有意思的问题可以和大家一起去做。事实证明，这是一个正确的决定，公司的机制和文化很好，大家做起事来心情愉快，效率也很高。

Q：越来越多人工智能方向的专家从校园走向了工业界，怎么看待这种现象？

A：这取决于你自己想做什么事情，学校适合做研究，工业界更偏产品和应用。人工智能时代需要利用大数据，学校很难有这样的环境，促使很多老师选择到工业界。计算机科学领域，现在跟以前有很大的不同，以前的研究很多是大学先工业界后，现在是共同推进，甚至是反过来了。

我先后在NEC和微软的研究部门工作过，它们更像是传统工业界的研究部门，不直接负责产品的开发。字节跳动是我待过的第4家公司，这里的研究部门是这当中最接近产品的部门，很多东西需要在实际的场景中应用，这很接近美国的一些互联网公司的做法，既有偏产品的工作又有基础研究。

Q：你享受这种balance吗，难道它不是一种角力吗？

A：我个人意见：理想的情况是70%的精力做应用，30%放在相关的基础研究上，当然中间没有一个清晰的界限。我们需要为未来做一个很好的布局。这是这个时代技术发展的必然趋势。很多东西需要有现实数据以及实际场景去验证，机器学习本来也是这样一种技术。所以我很享受这种balance，而不认为是角力。

Q：现在主要在解决什么问题？

A：做好内容平台。目前主要是开发自然语言处理和机器学习的技术，希望能够开发出更好的智能信息处理技术，帮助大家更好地获得信息和知识。比如跟搜索团队合作的精准问答，是为了帮助用户更加精确地获取高质量的信息。还有在头条的新闻推荐，用算法帮助提高内容质量，打压低质内容，提高优质内容。

综合来说就是要让每个用户在信息获取过程中有更好的体验，真正得到自己想要的东西。最理想的状态就是我们每个人都有智能助手，想要什么信息助手就给你什么。

Q：你最初读的是电气电子工程专业，为什么最终进入了机器学习领域的研究？

A：算是机缘巧合吧。我最早接触人工智能，是大一的时候在京都大学的人工智能实验室，80年代末是人工智能很火的时候，那会儿看到机器翻译、图像识别就觉得很有意思。到90年代，我在日本NEC公司的研究部门工作，偶然的机会加入机器学习的小组，开始了研究之路。

这期间经历了人工智能的起起落落，但也感受到了整个领域的巨大发展。那个时候只有专家在讨论AI，现在变成家喻户晓，大家都能去评论的话题，最典型的就是AlphaGo。我们也已经在使用很多人工智能技术的产品，这是一个质的飞跃。不好的地方是，感觉大家会有一些浮躁，我们的研究和技术开发还是应该更扎实一些。

能坚持在研究路上的秘诀可能是保持年轻的心态吧，我感觉现在的心态跟20年前读博士的时候没有什么不同。做研究很痛苦，也很快乐。要去做出一个比已有的方法更好的方法很不容易，研究过程中的挫折和沮丧也挺多的。但当你把一个确实work的东西做出来的时候，你确实会有很大的成就感。可以比喻成长跑，跑的过程当中会觉得自己很累，但是当你到达了终点，会享受到完成一件事情的快乐，大概就是这种感觉吧。

Q：所以你算是见证了人工智能在中国的发展，你看好它的发展趋势吗？人工智能的未来到底是什么样的？

A：是的，2002年复旦大学组织过一个机器学习研讨会MLA，当时只有不到30人参会，但现在已经是近千人的规模了。不到20年的时间，人工智能在中国已经有了突飞猛进的发展，这是让人意想不到的。

中国市场大、人才多、从业者努力，这是别的国家没有的优势。但是也要注意到，我们在创新方面的能力离美国还有一定距离，这可能需要几代人的努力。目前最基本最核心的概念和方法大多还是在美国开发出来的，我们的快速发展更多还是体现在产品落地上。我相信我们速度很快，但还是需要不断努力，不断提高自己的创新能力，真正的创新还是需要挺长时间的。

我们可以把人工智能理解为人类很好的工具，不要把它特别的夸大，至少未来很长一段时间内是这样，就像你的秘书或者助手。

关于机器学习未来

Q：你最近的一篇论文重点讲了脑科学，有一个观点是说机器学习很重要的内容就是对人脑的研究，所以脑科学给人工智能带了来什么？

A：科学发展到今天，我们对外部宇宙有了不少了解，但是对我们自己内部的“宇宙”——人脑，我们了解得还远远不够，这是当今最大的一个未知领域。脑科学就是研究这个问题的科学领域。从计算机器的角度看，人脑是一个非常了不起的计算机，它的能耗还不到30瓦，就能做那么多复杂的计算。

人工智能希望开发智能性的工具，离不开对人脑信息处理机制的了解。脑科学的发展，对人工智能是有启发和指导作用的，特别是自然语言处理这一块。人工智能有三大应用领域——声图文，也就是语音、图像、文字，语言是最难的了。前两者是感知能力，而语言是认知能力。此外，看或听一个东西的时候，只是大脑的局部在工作，但使用语言的时候，是整个大脑在工作，所以说非常复杂。如果我们希望计算机能够像人一样去操作语言使用语言，那就需要对人的语言处理机制有进一步的了解，关注脑科学的研究成果，多去进行跨学科的研究。

Q：机器学习如何跟深度学习结合？

A：《统计学习方法》的第一版中，介绍了很多算法，都是非常基础与经典的机器学习方法，但是在深度学习时代，我们更多的是根据经验、实验和「启发式」方法理解模型，这些经典算法被大家关注得比较少，反观常见的深度学习方法与技巧，却不一定有传统方法那样的理论。

其实传统机器学习与深度学习在技术上是一脉相承的，中间并不可以割裂。在我面试员工的时候，也会发现这样的问题，大家对深度学习了解得很多，但对传统机器学习了解得非常少。这种现象并不好，例如我们在 TensorFlow 上实现某个模型，然后就直接跑实验，这样对很多基本概念了解得都不够。理想情况下，我们应该更全面地理解机器学习的概念与理论，再做深度学习实践，也就是说对传统机器学习的理解有助于更好地掌握深度学习技术。

此外，尽管深度学习在众多任务上都有极好的效果，但也不能说传统机器学习就没什么用了。例如在小数据集或简单问题上，SVM 或 GBDT 这些方法在实践中用得还是挺多的。

Q：有人说机器学习无疑是最有希望实现突破的方向之一，你怎么看待这个判断？对机器学习的未来有什么期待？

A：机器学习是人工智能的核心领域，几乎所有的人工智能技术其实都是机器学习技术，无疑机器学习技术的发展决定了人工智能的未来。希望机器学习能有更多的突破，促进整个领域的发展。我认为，长期来看，机器学习与推理和知识的结合，类脑学习或类脑计算是这个领域的未来发展大方向。

Q：近年各种自然语言对话系统如雨后春笋般地涌现，所以计算机多大程度上可以自如地和人进行对话？自然语言对话的挑战在什么地方？未来可能会有哪些突破？

A：从功能的角度，计算机也有可能能够像人一样，自如地进行自然语言对话，但是现在这个命题无法证真或证伪。原因是尚不清楚人脑的语言理解机制，用计算机完整模拟人的语言理解仍然非常困难。但在特定领域，特定场景下，和人一样进行自然语言对话的计算机的实现，我们已经看到。问题是如何进行扩展，能够以更低的开发成本覆盖更多的领域和场景。

语言理解的核心是向内部表征的映射。多义性和多样性是计算机进行语言理解最大的挑战。要完成具体的任务，体现计算机的智能性，定义和使用内部表征看来是不可或缺的。基于分析的方法本质上是重要的，甚至是在聊天机器人的场景。基于检索方法更适合于单轮问答的场景。基于生成的方法只能用于特定的场景。多轮对话要体现完成任务的整个逻辑，有限状态机表示。开放式的对话意味着动态地改变任务，所以在现在的技术条件下，是非常困难的；在特定领域任务明确的条件下的对话，现实可行。

近年，深度学习和强化学习的使用，使得对话有了长足的进步。主要体现在表征学习、端到端学习上。事实上需要符号表征和神经表征，深度学习和符号处理的结合，这应该是未来发展的重要方向。

Q：最后分享一部你最喜欢的科幻电影吧？

A：我看的电影不多，印象深刻的AI相关的是斯皮尔伯格导演的《AI》，让人去思考机器与人的智能的本质区别。

福利时间

留言你期待看到的深度学习或强化学习内容

点赞top10 将获赠

新版“蓝宝书”作者签名本

《统计学习方法》再版，我们和大牛李航聊了聊年轻人如何成长

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

热搜：搜索排名营销大揭秘

【美】肖恩·布拉德利 / 中国人民大学出版社有限公司 / 2018-7-30 / CNY 55.00

首部大数据在我国政府管理场景中的应用实践案例读本，全面展示我国电子政务与数字化建设的成果，深度理解实施国家大数据战略的重要意义。本书作者作为国内最早从事大数据应用研究的实践者之一，亲历了中国大数据的发展历程、主要事件、应用案例以及行业变化。在本书中，作者将其所亲历的大数据发展历程进行了阐述，从大数据的基本概念、特点到实践解读，通俗易懂，给我们的实际工作提供了重要参考。作者将帮助读者......一起来看看《热搜：搜索排名营销大揭秘》这本书的介绍吧!

码农工具

《统计学习方法》再版，我们和大牛李航聊了聊年轻人如何成长

Q：问答社区上有一个问题“如何评价李航加入今日头条母公司字节跳动？”，所以你为什么加入字节跳动？目前为止，感觉如何？

Q：越来越多人工智能方向的专家从校园走向了工业界，怎么看待这种现象？

Q：你享受这种balance吗，难道它不是一种角力吗？

Q：现在主要在解决什么问题？

Q：你最初读的是电气电子工程专业，为什么最终进入了机器学习领域的研究？

Q：所以你算是见证了人工智能在中国的发展，你看好它的发展趋势吗？人工智能的未来到底是什么样的？

Q：你最近的一篇论文重点讲了脑科学，有一个观点是说机器学习很重要的内容就是对人脑的研究，所以脑科学给人工智能带了来什么？

Q：机器学习如何跟深度学习结合？

Q：有人说机器学习无疑是最有希望实现突破的方向之一，你怎么看待这个判断？对机器学习的未来有什么期待？

Q：近年各种自然语言对话系统如雨后春笋般地涌现，所以计算机多大程度上可以自如地和人进行对话？自然语言对话的挑战在什么地方？未来可能会有哪些突破？

Q：最后分享一部你最喜欢的科幻电影吧？

新版“蓝宝书”作者签名本

热搜：搜索排名营销大揭秘

HTML 压缩/解压工具

HTML 编码/解码

XML、JSON 在线转换