计算机视觉应用背后对深度学习框架有怎样的挑战

栏目: 编程工具 · 发布时间: 7年前

内容简介：【TechWeb报道】7月19日消息，现今伴随人工智能在技术上的不断突破，一些领域如计算机视觉，已开始与各个行业进行了深度融合。例如保险行业已通过人脸识别这种新时代的认证方式，来对用户身份信息进行识别与审核。而在计算机视觉背后，是以深度学习为依托进行的展开，目前深度学习较为成熟分别是人脸识别、物体检测、物体跟踪等方面的应用。而在应用的背后，深度学习计算的优化亦成为了重中之重，毕竟深度学习的模型是迅速迭代的，开发者要针对每一个模型尝试不同的模型和算法，从而对其参数和网络结构进行调整。但大模型的训练要耗费上数

【TechWeb报道】7月19日消息，现今伴随人工智能在技术上的不断突破，一些领域如计算机视觉，已开始与各个行业进行了深度融合。例如保险行业已通过人脸识别这种新时代的认证方式，来对用户身份信息进行识别与审核。

而在计算机视觉背后，是以深度学习为依托进行的展开，目前深度学习较为成熟分别是人脸识别、物体检测、物体跟踪等方面的应用。而在应用的背后，深度学习计算的优化亦成为了重中之重，毕竟深度学习的模型是迅速迭代的，开发者要针对每一个模型尝试不同的模型和算法，从而对其参数和网络结构进行调整。

但大模型的训练要耗费上数天乃至数月的时间，所以若想实现模型的快速迭代，高效的训练和推理的方式显得尤为重要。因此模型优化虽然费时费力，但却是个高回报的投入。

深度学习框架的现状与挑战

众所周知，深度学习对人工智能的发展起着至关重要的影响，但深度学习也是一项极具挑战的工作。其一是深度学习领域以大规模标注数据为支撑进行的展开，必须要以数据为前提才能利用现有的统计学模型。

其二是需要先进的网络模型的创新，记得在2015年，微软夺冠ImageNet计算机视觉识别挑战时，曾揭开过152层的神经网络模型，比VGG网络深8倍，并使用“残差学习”理论来指导神经网络结构的设计。但如此深的模型，自然也对系统提出了很高要求。

虽然目前硬件和网络的发展极为迅速，GPU、芯片等硬件的发展也提供了比以往更为强大的计算能力，同时网络连接也为深度学习带来了全新的发展机遇。但遗憾的是，系统方面所出现的瓶颈问题却尚未得到解决，如何将不同模型高效地映射到相应的硬件上并定制优化，是深度学习目前面临的挑战之一。

对于微软而言，其愿景是让每个人都能用上人工智能，解放从业者不必要的工作量，因此若想让人工智能变得更为大众化，系统优化上的工作自然落在了微软的肩上。

深度学习优化三大挑战

在此前一次媒体交流的活动中，微软亚洲研究院资深研究员伍鸣曾指出，目前深度学习计算的优化主要面临三大挑战：扩展性、局部计算以及内存的使用效率。

扩展性方面，微软通过远程直接数据存取（RDMA）以及NVLink（英伟达开发并推出的一种总线及其通信协议）等高速的网络硬件能力，设计出了一个讨巧的零拷贝通信机制，让计算能力能够线性增加。也为深度学习开发人员带来更大的想象空间。

计算机视觉应用背后对深度学习框架有怎样的挑战

此外优化算法是求解目标函数中极为重要的一环，需要设计并行与分布式优化算法。但开发者通常更关注于神经网络结构和算法的本身，并不擅长指导其在分布式环境中去具体执行，为此微软开发了一套能够实现自动优化的系统软件，能够自动把模型做分布式的执行。

利用RDMA优化分布式的深度学习训练，微软有效提高了多机训练的吞吐量和收敛速度，在不同应用类型下，取得了2-8倍的加速效果。

计算机视觉应用背后对深度学习框架有怎样的挑战

（红色是微软的数据，蓝色是原始数据）

在局部计算方面，目前很多深度学习模型背后有着大规模的数据流图，在这其中有很多非常小的算子组成，这些算子在GPU上启动执行时都存在着内存开销。为了减少这些系统开销避免影响计算效率，微软设计了一个能自动内核融合的方式。

在个标准循环神经网络LSTM模型的例子，微软通过把整个模型所有的算子融合成一个内核函数，从而基本消除了所有框架本身的额外开销。跟原始的TensorFlow相比快了10倍之多，而与TensorFlow开发的编译优化系统XLA相比，也有很大程度的提升。

计算机视觉应用背后对深度学习框架有怎样的挑战

最后在内存使用效率上，如GPU或者定制硬件加速器，这些硬件的内存资源有限，很可能限制模型的规模。微软的解决方法是利用模型量化和压缩去减小它的体积，或是如果模型很大，可以将其放在host内存中，使数据分段地传输到GPU里，但对于不同的模型任务或应用，需要挑选最合适的方法。同时也对TensorFlow做了一些改进，将接口更为便捷的开放给开发者进行尝试，以此来实现不同的压缩和量化方法。

微软的意图很明显，就是将技术更好的对外进行输送，帮助开发者、企业能够更聚焦在自家业务方面，而不是去关注底层系统到底是如何运行的。

通过这些巨头的不断努力，或许终有一天大多深度学习框架都将具备互通统一特性，就好比当年的数据库，最早数据库有很多类型，但最后伴随Relational algebra（关系代数）为基础的数据库的诞生，让所有数据库模型都成为一种统一的模型。而在人工智能方面，从系统角度来看，这必然是未来的大趋势之一。

正如微软印度公司人工智能部门总经理桑达尔·斯理尼万森所说，微软要让所有个人和机构都使用上人工智能。未来即使是非人工智能或是机器学习方面的专家，也能将最新的人工智能技术融入到自家所研发的产品当中。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

The Definitive Guide to MongoDB

Peter Membrey、Wouter Thielen / Apress / 2010-08-26 / USD 44.99

MongoDB, a cross-platform NoSQL database, is the fastest-growing new database in the world. MongoDB provides a rich document orientated structure with dynamic queries that you’ll recognize from RDMBS ......一起来看看《The Definitive Guide to MongoDB》这本书的介绍吧!

码农工具

计算机视觉应用背后对深度学习框架有怎样的挑战

深度学习框架的现状与挑战

深度学习优化三大挑战

The Definitive Guide to MongoDB

随机密码生成器

HTML 编码/解码

RGB CMYK 转换工具

计算机视觉应用背后 对深度学习框架有怎样的挑战

深度学习框架的现状与挑战

深度学习优化三大挑战

The Definitive Guide to MongoDB

随机密码生成器

HTML 编码/解码

RGB CMYK 转换工具

计算机视觉应用背后对深度学习框架有怎样的挑战