对话阿里iDST负责人华先胜：解读阿里视觉研究的四大方向

内容简介：对话阿里iDST负责人华先胜：解读阿里视觉研究的四大方向

智东西（公众号：zhidxcom）文 | 寓扬在2017云栖大会·上海峰会上，阿里iDST（Institu […]

智东西（公众号：zhidxcom）

文 | 寓扬

在2017云栖大会·上海峰会上，阿里iDST（Institute of Data Science&Technologies，数据科学与技术研究院）视觉计算负责人华先胜接受了智东西的专访，就阿里云视觉计算的应用领域、深度学习、未来技术布局、数据与算法的关系等问题进行讨论。

阿iDST曾被称为阿里巴巴最神秘的部门，它类似于谷歌的Google X实验室，从事一些人工智能、机器学习等前沿领域的科学研究，而不注重短时的商业价值。

而华先胜就是iDST中的一员，他于2015年加入阿里巴巴，于2016年7月加入阿里云人工智能研究机构iDST科学家团队，负责阿里云视觉计算团队的研发工作。此前，华先胜在微软工作了14年，是视觉识别和图像搜索领域的国际权威学者以及IEEE Fellow成员。

一、视觉计算的四大应用方向

华先胜在2001年加入微软，就一直在做视觉识别、图像搜索这个方向。他们当时做了一项技术是把视频浓缩成三五分钟的精华，还配了音乐，这样回放的时候会比较方便，而这也是当时的十二大创新之一。后来由于视频分析的难度较大就转做了图像搜索。而在进入阿里巴巴的第一年，华先胜也是在搜索事业部，就是为了解决以图搜索商品的问题。

但随着技术的发展，尤其是深度学习技术的出现，今天已经有机会对视频里具体的语义进行分析了。当谈到深度学习时，可以观察到华先胜眼神中充满着光芒，话语里充满着肯定。华先胜谈到，目前有两种方法做视觉分析，一种是抽帧来做，图像技术的照片和视频有点不一样，对视频而言是一个连续的动画过程。另一种方法是从视频里面做，可用于追踪，比如在阿里的城市大脑中的识别，当两辆车相撞发生了交通事故，通过对这个片段的追踪，就能够识别发生了什么事情。

而在视觉计算的应用领域上，华先胜谈到了交通、营销、医疗图像分析以及搜索等几个具体的方向，而目前以交通视频为主，将来会逐渐扩展到安全、环境等更多领域。其一在交通视频上，从技术上来说会涉及好几条线，比如是监控的还是个人图像视频，通过对交通视频的监控和分析，就可以知道有什么事件发生了，可应用于追踪、识人等许多方面。

其二可用于精准营销。比如在一个电影里面投放广告，广告的内容肯定要相关，而这就需要对视频内容有所理解。再比如这个人在打瞌睡，你可能这个场景中做一个提神醒脑的广告会更好，这就是以内容为主的识别。华先胜表示，个人、媒体、电影以及网络视频之类可以放在一起来做，它们在技术上是差不多的，只是有时候问题的难度不太一样。

其三是视觉诊断，可应用到医疗图像分析和工业诊断中。华先胜谈到，医疗是阿里云的一个方向，他们也在跟医疗部门进行合作。其实可以把这个归到一个大类里面叫视觉诊断，包括人的诊断、设备的诊断、生产线的诊断等等。如工业生产线上的次品检测，包括生产车间的设备状况，这些过去都需要人来看，一是耗费人力，另外可能环境也不是太好，而有个摄像头可能会解决很多问题，从而大大减少人力。

其四是搜索。它本身是一个技术也是一个场景，比如个人视频里用得到，医疗里面也用得到，它更文字搜索引擎不一样，它是视觉信息，这也是阿里巴巴所擅长的。比如说，在城市一辆车要找它的轨迹，你可以用手机来搜，有个照片也可以搜，或者一张照片搜一个电视剧之类的，这些都是视觉搜索，并且是偏分析识别方向的。另外一个是反过来的，是要生成一些识别信号，比如说生成一个艺术图片，或者根据视频生成一个广告，而这种广告基本不影响体验，会是一种比较优雅的广告，这也是它能够带来商业价值的地方。

二、把神经网络逼到死角

在谈及到深度学习技术时，华先胜对它充满了热枕，他认为深度学习在视觉领域几乎横扫过去的所有传统方法。

他谈到，其实很多传统的研究机器学习的人不能接受深度学习，即为什么这个理论没有完备就可以做的那么好，而原来的传统机器学习有很好的理论，它可以推导，而深度学习有了假设也推不好。很多人觉得深度学习就是随便乱试，其实这需要很多的经验和分析在里面，你这个网络怎么设计，你才能达到你的目的，尤其是你怎么去逼迫你的视频网络达到目的，但这确实是有规律可循的。另外还要有一个好的策略，甚至有一些样本和数据，样本本身也是你最后能不能做好的一个关键因素。

深度学习还有一个好处，你把这个网络设计出来以后，用很多的手段去把它调到好的状态，有很多手段可以让这个网络收敛到你想要的地步，尽管不是所有的问题都能做到，但是你可以去做这件事情，通过训练的策略等很多手段，就相当于说你要让他有很多的目标，把它逼到死角，然后他就能够收敛到你想要的目标。

此外，视觉计算团队也在布局一些未来的技术，如在城市大脑中，如何在一个复杂场景下进行时空异常检测。目前我们有近期的解法，这个可以用机器学习对图像视频做初步的分解，比如说车、人、车流的情况分解，然后通过这些对异常进行检测。那能不能上升到更高的高度，我们有这方面的尝试，但还没有到使用的地步，这种异常情况也并不多，但缺少一个通用的办法来解决所有的小概率事件。

三、数据对整体智能更重要

在5月底的数博会上，李彦宏称“数据不是根本，技术才是王道”。而今天华先胜给出了不一样的答案。

当智东西问及数据与算法的关系时，华先胜更加认同数据的价值。他指出，其实数据拥有两个含义和用处的，第一个是对算法的研发，这个一定要有数据；另一方面智能的产生，本身就是靠数据才能产生的。

数据驱动下的智能，不是算法本身，算法只是为智能这部分提供了一个基础。比如说有个很好的检测算法，就能让我们知道车流的状况，但是如果要优化城市的交通，这一定要有很多数据才能做到，这个时候是数据本身就产生了智能，没有大数据是产生不了智能的。这是一个单体智能和整体智能的区别，单体智能的数据只是为了算法本身的效果服务的，但整体智能中算法的作用就会大大降低。而未来一定是两者结合起来共同发挥作用的。

对话阿里iDST负责人华先胜：解读阿里视觉研究的四大方向

上一篇：小鹏汽车获A轮22亿元融资神州优车领投

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

OpenCV3编程入门

毛星云 / 电子工业出版社 / 2015-2 / 79

OpenCV在计算机视觉领域扮演着重要的角色。作为一个基于开源发行的跨平台计算机视觉库，OpenCV实现了图像处理和计算机视觉方面的很多通用算法。本书以当前最新版本的OpenCV最常用最核心的组件模块为索引，深入浅出地介绍了OpenCV2和OpenCV3中的强大功能、性能，以及新特性。书本配套的OpenCV2和OpenCV3双版本的示例代码包中，含有总计两百多个详细注释的程序源代码与思路说明。读者......一起来看看《OpenCV3编程入门》这本书的介绍吧!

码农工具