视频访谈：彭垚：七牛云的人工智能实践——富媒体弹性深度学习云平台

栏目: 数据库 · 发布时间: 8年前

内容简介：视频访谈：彭垚：七牛云的人工智能实践——富媒体弹性深度学习云平台

2. 能向大家简单的介绍一下您自己吗？

彭垚： 大家好，我是七牛云的技术总监，也是七牛云人工智能实验室的发起人和负责人。我们人工智能实验室是16年成立的，到现在大概一年左右，已经做了不少在机器视觉方面的应用了。

彭垚： 我们七牛云是从存储起家的公司，这么多年积累下来，使用云存储的用户是最多的。从15年开始，我们的统计数据就显示每天上传的图像已经超过了10亿，现在这个数据还在一直不停的增长。而我们线上还会在图像上传的时候做一次缩放，现在每天请求都超过20亿。视频存储那就更多了，都是超过万亿小时总长的视频。还有像唱吧、喜马拉雅之类的客户会有很多语音存储。所以我们对外宣称我们是一个提供支撑富媒体行业的云计算解决方案的公司，主要原因就是因为我们这么多年积累下来的都是图像、视频、语音等富媒体的数据，现在还有一些流式的数据，比如直播。因为直播每三个月都要做审核，所以三个月之内的视频都要存储。这些都有很大存储量。

4. 那么这么巨大的存储量，你们怎么样保证及时处理？

彭垚： 多媒体数处理这块业务，我们做了很多年，研发了一套基于容器架构的分布式平台。刚刚说了，我们每天有超过20亿的图片请求，还有很多的音视频编解码。这些都是用的我们自主研发的这套基于 Docker 的容器云平台，在这个之上，我们慢慢架设了很多多媒体的应用，然后去处理这些七牛云存储上的数据。当然我们存储经过这五六年的这么多客户的打磨，也成为了一个存储性能和可靠性非常高、非常优秀的一个产品。

彭垚： 我们刚开始做AI实验室的时候，我就跟老板老许聊，说我刚进来的时候，还没有完全把实验室建起来，就发现了一个问题，就是我们客户对于他们在我们上面存储的这些数据，其实是很想了解的。我们的客户，大部分是移动互联网公司，对他们来说，他们的用户上传的这些数据，包括图像视频，里面的内涵到底是什么，对他们来说非常重要：首先他们需要去审核这些内容是不是健康、合法的，其次，他们希望通过这些用户上传的数据内容做一些深度的分析，比方说上传视频图像相似的人群可以把他们划成一个圈子。我们发现，对于这样的事情，他们没有能力去做，这需要一个实验室的投入专门去做。我们七牛一贯的理念就是缩短想法到实现的距离，所以我就跟老许商量，他马上就答应我们成立这个实验室。成立实验室以后，我们做的第一件事情是鉴别黄色视频，然后我们同时也会去做一些人脸识别、场景识别等图像的识别。在这些过程中，我们发现，数据很多，但是要把有效的数据过滤出来，又能用一个很好的深度学习平台去学习，它的瓶颈在于计算平台的能力。基于此，我们意识到，平台在我们做这些事的过程中是一个最核心的，所以我们就是去做了这么一个平台。至于为什么是弹性的呢？是因为我们有一套基于容器到自研体系，我们在这套体系上去开发这个平台，它有很多的好处，一是方便管理，二是我们的资源利用率也会更加高一些。

彭垚： 最早我们自己最熟的就是Caffe，然后 Tensorflow在去年前年开始突然就特别火，我们又开始研究Tensorflow，然后支持了Tensorflow。在应用这两个框架的过程中，我们同时调研了MXNet。我们团队里面除了我们这些资深的算法人员之外，还有很多非常优秀的资深工程人员，这些工程人员跟我们一起讨论，觉得MXNet，是现下更优雅的一个平台。所以我们现在相当于Caffe、Tensorflow、MXNet我们全都支持。我们可能后续会做更多的投入在MXNet上。至于你刚刚说到的弹性，就是容器这块，支撑我们快速搭建各种算法镜像，以及很多对大的算法进行管理的有效工具。如果没有容器，我们可能要去做很多复杂的代码管理或升级。再一个就是，对我们的模型评估，以及很多效率上的东西都影响很大。这就是我们为什么去做这个事情。

彭垚： 我是说对MXNet我们可能会投入多一些，但是我们同时也支持Caffe和Tensorflow，而且我们线上的很多的模型都是Caffe和Tensorflow学习出来的，线上也一直在迭代更新。只是说我们会用MXNet做更深层次、更大量、更要求分布式的训练，我们会在这上面做更多框架上的投入，比如社区贡献之类的。并不是说Caffe和Tensorflow我们就会放弃，那两块还是我们主要的线上产品在学习的东西。

8. 那么能对比下这三种框架的使用场景和技术优势么？

彭垚： 说到场景的话，像我们现在参加比赛，用的是PyTorch，这个我们用的还挺多的。这几个框架的区别，取决于具体的应用场景。Caffe和Torch都是学术出来的东西，Caffe用于纯图像识别，跟我们的场景非常契合，我们有很多的图像识别，最早期全是用Caffe快速堆积做出来。而Tensorflow呢，我个人理解，它是一个更工程化、更云化的，你看现在很多云计算公司都自己搭Tensorflow在做一些公有云。我觉得Tensorflow这块，总的来说，它的一个发展方向是更云化、更工程化的，它支持更多异构的东西，比如我们很多模型要压缩之后放到嵌入式平台，它都能支持。Tensorflow支持的东西多，但是要把每一项东西做深的话，他还处于比较初级的阶段。就是每一样你要做的好的话，还是要投入非常多的精力和资源才能优化到很好，我们也在Tensorflow包括Tensorflow Parameter Server上花了很多时间。至于MXNet，是我们的工程人员在最近调研，觉得它是一个非常优雅的完整架构。因为它本身是工程人员而非学术人员去设计的框架，所以它本身的工程可用性、可扩展性都要更好一些，对分布式、可编程的方法，它支持的更多一些。另外一方面，李沐不是现在去了亚马逊吗，亚马逊在这块上会有大的投入，我们也会看到这个框架后面会有一些快速的成长。

彭垚： 我们是有专门的准确性的衡量标准的。比方说人脸的话，有很多公开的数据集，这些公开的数据集大家都在对外号称99.6%甚至更高的人脸检测率、识别率，这些都是拿着标准数据集来做，这块大家的效果都是差不大多的，因为人脸数据集虽然挺多，但是如果专门拼这些特定的数据集的话，因为现在算法流动性很快，所以新算法很快大家都知道了，所以针对特定数据集的结果的差别不是特别大，只是对科研、对竞赛可能会有些差别。但是对特定领域，数据集都是自己去收集的。收集了以后，你需要一个长期积累的数据库，用这个数据库来不停地评估你的模型的可靠性。当然，你还要看要解决的问题，对于有的问题，可能随着时间的积累，你会发现有各种各样的新数据出现，这时你必须去丰富这个测试的样本库，不然的话就算对于模型来说可能一直在提升，但是对整个的应用价值来说并没有太大的提升。遇到新的样本的数据，你一定要拿进来，这样对应用体系才是真正有价值的。所以说学术和应用的评估手段还是不一样。

彭垚： 应用领域还是非常多的，就富媒体而言，主要就是图像、视频、音频。我们现在专攻的主要还是图像和视频的一些应用，拿图像来说，图像能够提取更多的内容的话，你能够满足的场景就更多。比如说告知你的客户，这个人上传上来的这张照片里面，包含了网球场，又包含了很多各种款式的球鞋、衣服，这个信息对他来说是有很大价值的。我们在专注做的一个事情，就是针对我刚刚说的这种场景，我们把这些非结构化的非常复杂的内容提取出来，告诉我们的客户，他们的用户在传些什么东西。至于可以基于此做哪些实际的应用场景，你可以做相册，也可以做广告推荐，还可以做分析——行业分析、分析某品牌的使用率，你也可以做一些人群的细分，做精细化运营，因为不同喜好的人传的照片肯定是不一样的。至于短视频和直播，应用场景就更多了，因为它们是流动的，互动性更强。一个视频里面可能会出现一些人物，那客户可能需要找一下，某个人物，在几点几分有出现，把这段视频截出来。那这可以用来做什么呢？其实可以做很多有意思的事情，比如给这个人加上兔耳朵，给这个人加上好多效果，或者换脸。整体来说，机器视觉，仅仅是视觉领域，在图像和视频上能做的事情就非常多，我这一两年大部分精力都花在这上面。至于语音，暂时的投入不会太多。研发上面，可以像找讯飞这样的合作伙伴，我们共同的对一个视频加语音。我现在在研究Multi-Clue，对于一些原子模型，我自己就不训练了，直接去用别人的语音的东西，我呢就多线索的去得出更多的视频的内容，然后去得到一些效果。

11. 那么在富媒体领域中主要的难点和挑战都是什么呢？

彭垚： 富媒体领域你可以认为就是它跟其他的一些数据很像，比方说网易的点击数据，或者说是有人写了几个词语，或者我选了某个东西，这样的一些数据，它是非结构化的数据，所以它的内容提取是针对泛化的内容，就好像是我们人，我现在跟你聊天，我看到你坐在这里，这个画里面有很多的内容，你要想把这些内容拿出来，首先你要做一个通用的抽象。这本身就是很难的，因为不同的任务，不同的事情，抽象的方法是不一样的。所以说首先是找场景，然后是做抽象。做抽象的整个过程，复杂度要比做这种点击量之类的日常数据要大的多，所以其实整个过程最难的是把它抽象出来，抽象完了以后，后面再去做的事情可能就比较类似于这些点击的数据，也就是大数据范畴的这些事情。对于已经在某个领域沉淀很深，有很多业务逻辑的互联网公司来说，他自己本身就有这个能力去做这些分析了。

彭垚： 数据标注永远是每一家做视觉相关领域工作的人会仔细考虑的问题。首先，我们自己也做了一套视觉标注的系统。其次，我们还做了一套半监督的打标系统，我们会用预模型去过滤掉很多不需要再学习、不需要再标注的数据，对剩下的数据，我们则会用我们的标注系统，让我们雇的人员来帮我们去做些标注。也可以找一些第三方的来做标注，最主要的标注目的是要非常高的准确率，这是根本。

彭垚： NLP相关的技术，我们可能会涉及一些。就是在描述方面，比方说我们可能把一个图像转成一句话，这样可能会应用到一些NLP相关的技术，但是我们不会涉入太深，因为这完全是另外一个领域。对我们来说，我们要做的事情就是把图像和视频的东西抽象出来。但我们肯定也不会排除语音，因为视频里面肯定是有语音的，所以肯定是多线索的，光靠一家人是不可能做得很好的，这也是为什么我要做深度学习平台，就像我前面给大家介绍的，我们这个系统可以接受很多第三方的API，也就是客户定义的API，来植入到我们的整个系统里。我把整个系统设计的更像一个大脑的结构，这个结构能够让我们自己定义的API和不同的客户定义的API一起合起来去完成真正的人工智能的任务。

彭垚： 我们平台现在应用方式有两种，一个是找第三方合作，他们提供技术模型、API，他可以在上面开发一些应用的API，这种叫User Defined。另一个，就是整个训练的过程，也就是我们自己做的一块，机器视觉图像识别的应用的过程，生成原子API的过程都是我们自己做的，但是我们的合作方式是有的，可能客户他想对某个特定的东西去做识别，我们会和他合作，客户把相关的数据提供给我们，甚至有些标注信息相关的数据，因为他可能有各种渠道拿到相关的标注信息，我们可能这样子一起合作去做。但大量的原子API产出，还是以我们自己做为主。

彭垚： 直接用户都是我们自己的算法人员，但实际上深度学习这块，在用我们模型的用户还是非常多的，具体数字没有统计过，但有很多做审核类的、各种识别请求、API调用的大小的客户可能都会有些。

彭垚： 我们当然是想把它开放，让更多的人去用它，但是实际上把他用起来是有难度的，因为我们可以把一些简单的，比如分类、检测一类的算法提供给我们的客户，但是实际上你在解决一个实际应用问题的时候，往往不会这么简单的。你要去分析事情的目标和边界。要了解目标的边界，要去解决这些问题，一般都是一个算法架构解决的问题，除非我们的客户他本身就是搞视觉这块的，或者说他雇了一个很懂算法架构的人，他才能很好的去运用这个平台。我也很希望有越来越多的人加入人工智能的这个行业，那我这个平台可能就有很大的受众群体。现在的话，这个群体还没有大到人人都能用，但其实我们很希望看到的是，基本上每个公司都有一个人在搞人工智能，在带头牵头做人工智能，那我们的平台应该会很有市场。

彭垚： 我们可能会考虑把我们的平台的做好的一些算法给到我们客户，让他们用来直接去解决一些实际的问题。但这个我们现在还在考虑中，还没有完全说要对外。像腾讯，它刚刚推出一个深度平台，它提供了少量的算法的一些东西在里面，我也很想看一下他们每个具体的客户的应用的情况，不管开放不开放，我都很想看一下，业界各位同行到底用的怎么样。

彭垚： 我倒是觉得学校搞人工智能的还是挺多的。我本人是自动化专业的，我们以前就有一些搞人工智能的，当然它跟现在的深度学习挺不一样，可能是执行器相关的，就是更接近于机器人这样的。但是现在深度的搞AI的，包括图像，包括语音，在很多学校的计算机专业，几乎可能有一半的专业是在搞人工智能相关的，比如知识图谱、机器视觉、语音识别、NLP，其实挺多的。但是很多都是还是在Research的阶段，怎样去让这些人毕业了以后继续从事这些工作呢。现在人工智能有这个热度，被AlphaGo炒起来了，我觉得这个行业还是很有生机，更多的人会愿意加入这个行业。可能原来他实验室做这个事情，他出去了以后，最多做个大数据分析什么就完了，因为他也找不到以前搞相关算法的能应用的地方，现在这个情况会有很大的改观。

彭垚： 我其实觉得就图像识别和语音识别来说，现在已经有很多领域都超过人了。比如内容审核，你一天看到晚，你也会漏掉，看不清楚。语音识别领域，你听东西，或者做翻译，可能你的效率已经达不到机器了。再深层次，比方说视频的理解，可能现在机器还比不上人，这个很值得搞，这也是我在搞的。还有些领域，我觉得会火的，有闲聊机器人，这块现在其实特别不成熟，但是这个东西如果能做起来，以后它就是个通用的聊天机器人，不像以前的这种客服，而是会有一定的成熟能力，能够应用一些范围了。还有一些医疗方面的，就我个人觉得，近期这块有些突破的是医疗领域的一些分析，特别是医疗影象方面的一些突破，因为这块其实现在，基础算法我觉得已经发展起来了，不过最主要的，就是这些学校、科研院所，去把这些数据打通。

彭垚： 不能说是成熟，因为没有商业的产品，你不能认为有些东西就是成熟的，你只能说现在是有个契机可以把某个行业迭代出来，到了一个技术的生命周期了，经济周期到了，就是你可以认为又到了新一轮经济周期了，有些东西能转化为产品了。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

秩序之美

Vinh / 人民邮电 / 2011-5 / 35.00元

怎样才能设计出简洁大方而不落于俗套的超人气网站？纽约时报网站的资深设计师Khoi Vinh在这《秩序之美——网页中的网格设计》一书中将为你揭示其中的奥秘。　　《秩序之美——网页中的网格设计》将源自传统平面设计、被众多平面设计大师推崇的网格设计方法应用于网页设计，向读者详细介绍了网格设计成熟而经典的设计模式，并以整个网站的设计为例，对工作流程、设计工具和方法进行了系统而全面的介绍，手把手教读......一起来看看《秩序之美》这本书的介绍吧!

码农工具