熊辉教授:数据挖掘就像医生诊疗,最新的疑难杂症才是我最感兴趣的

栏目: 数据库 · 发布时间: 5年前

内容简介:作为美国罗格斯-新泽西州立大学终身正教授,熊辉教授于今年年初加盟百度研究院,担任商业智能实验室主任。这一年间,他负责百度地图「智行」项目,「数读城市」项目,开发出《基于大数据的幸福城市指数》,带领团队拿下了管理界的最高奖项——哈佛商业评论「拉姆·查兰管理实践奖」全场大奖。在即将于美国夏威夷召开的 AAAI 2019 会议上,他带领团队中了四篇论文。在百度这一年来的成果,只是熊辉教授漫漫研究长河中展现在大家面前的一小部分。在数据挖掘顶级会议 KDD-2017 上,熊辉教授中了九篇论文,在 IJCAI-201

作为美国罗格斯-新泽西州立大学终身正教授,熊辉教授于今年年初加盟百度研究院,担任商业智能实验室主任。这一年间,他负责百度地图「智行」项目,「数读城市」项目,开发出《基于大数据的幸福城市指数》,带领团队拿下了管理界的最高奖项——哈佛商业评论「拉姆·查兰管理实践奖」全场大奖。在即将于美国夏威夷召开的 AAAI 2019 会议上,他带领团队中了四篇论文。

在百度这一年来的成果,只是熊辉教授漫漫研究长河中展现在大家面前的一小部分。在数据挖掘顶级会议 KDD-2017 上,熊辉教授中了九篇论文,在 IJCAI-2018 上,他中了五篇论文。虽然学术会议并不是衡量一个人学术水平的充分条件,但这些数据却是外界所能实实在在感受到的。

众所周知,学术界比较公认的一件事情是,在美国做教授非常难。目前,熊辉教授在美国已经毕业了 11 个博士生,大多数都任职于高校。

熊辉教授:数据挖掘就像医生诊疗,最新的疑难杂症才是我最感兴趣的

熊辉,美国罗格斯-新泽西州立大学终身正教授,百度商业智能实验室主任。本科毕业于中国科学技术大学,博士毕业于美国明尼苏达大学,目前为美国罗格斯-新泽西州立大学正教授 (终身教授)、RBS 院长讲席教授,并担任中国科学技术大学大师讲席教授。

熊辉教授主要研究领域涵盖数据挖掘、大数据、人工智能;获得的部分荣誉包括 ACM 杰出科学家,长江讲座教授,海外杰青 B 类(海外及港澳学者合作研究基金)。

日前,就如何选择科研课题与人才培养这两个问题,雷锋网 (公众号:雷锋网) AI 科技评论在 2018 中国大数据技术大会(BDTC 2018)上,与熊辉教授进行了一次探讨。熊辉教授把数据挖掘科学家比作医生,他的选题原则是,探索前人未曾发掘过的病历,以应用为导向,寻找出更加新颖、更加复杂的应用场景;在人才培养上,熊辉教授遵循十字箴言:兴趣、基础、态度、习惯、毅力。以下为雷锋网 AI 科技评论与熊辉教授的访谈内容。

数据挖掘行业就像医生诊疗,我会选择最新的疑难杂症进行研究

我从读硕士时就已经开始做数据挖掘研究,对数据进行分析研究与医生诊断病例很相似。医生在做各种各样的疾病研究时,需要了解病症,需要现场看到并了解病人。真正优秀的医生都是诊疗经验丰富的医生,他可以从实践中吸取很多经验。我们数据科学家的病人是数据,各行各业的数据就代表着患有不同疾病的病人。

在科研课题的选择上,我通常是从具体的应用场景入手。比如,我们做过 2B 的市场分析,移动推荐,金融大数据分析,城市计算和人力资源大数据分析,这些都是与应用相关的课题,是来自不同领域的应用。

我一直在寻求创新型的应用场景,这些应用场景得符合以下两个特点:

第一,必须要具有新颖度。我们这一行既然这么像医生,要想做创新性的研究,首先要找到那种没怎么被其他医生诊断过的疾病。

当出现一种新的病毒,比如 SARS 刚刚出现时,那将是我所感兴趣的问题。对于我们来说,「新的病人」没有被其他的数据科学家充分挖掘过,是一个全新的应用场景。我们首先开始在这方面做研究,所做的任何工作,都将是创新性的。

第二,应用场景必须要足够复杂,值得去研究。如果太简单,也不容易取得相对较高水平的技术进步。这里也以医疗为例,如果病毒过于简单,简单的抗生素就能把问题解决。

如果是其他行业,他们的选题可能不一定遵循这些规律,数据挖掘行业有其行业特殊性。在数据挖掘行业,我的经验就是,一旦涉及到人的行为,模型的复杂度就上去了。人的行为与很多传统的学习目标不一样,比如下围棋,现在深度学习、强化学习解决得很好,因为这些任务目标明确,规则也很明确。而在研究人的行为时,因为每个人都是差异化的,每个个体的目标都不明确,而且呈动态变化,所以这样的问题往往很复杂。

我选择的课题,无论是大数据人力资源管理,还是 to B 的市场分析,或者是行为轨迹数据分析,这些都是关于人的行为。拿人力资源管理举例,这里涉及到对人的选拔,对人岗的匹配,对优秀人才的挖掘,还有离职预测等研究;这些都涉及非常复杂的对人的理解。

我们做科研选题可以有两种路径,有些人做科研选题,感兴趣的是一种已经被定义的很好了的问题,这是一种选题方法。就我个人来说,我更加喜欢去研究一些相对来说比较新的问题,相对来说比较新的病例。当选题比较创新的时候,相对来说,也就容易产生新成果。

学生培养十字箴言: 兴趣、基础、态度、习惯、毅力

对于学生培养,我首先考虑的是选材。「巧妇难为无米之炊」,要有好的食材,才能够做出一桌好菜。

助理教授特别像一家刚刚创业的企业,资源非常缺乏。刚开始做助理教授的时候,你可能只有资源招收一个学生,在招生时就得特别小心;这就好比一家创业公司,你现在只有招一、两个员工的预算,也得特别小心。而且学生和员工还不一样,你认为员工不合适,可以立马开除,但学生的话,既然你已经招收,你要为他的未来负责。

我在很早的时候,对选学生定义了十个字原则:兴趣、基础、态度、习惯、毅力。

首先要有兴趣,对数据挖掘没兴趣,对行业没兴趣,对研究没兴趣的学生,我是不会去挑选的。

我会关心你曾经读过的书。比如我会问你,你喜不喜欢福尔摩斯,喜不喜欢看破案类小说,你有什么兴趣爱好,你是否喜欢历史。这些都可以展示学生对数据挖掘的兴趣。

其实数据挖掘就是从历史的数据中去理解现状和未来,破案就是从很多数据中找到蛛丝马迹。根据你的爱好和经历,可以判断出你是不是真的对数据分析感兴趣,是不是真的喜欢观察,从细微的事物中去找到本质。

第二,基础一定要好。做任何科研都要有很强的专业技能作为基础。

有些老师一定要选择名校的前几名学生,这样你的可选范围就特别小。我并不要求学生一定是前几名,高 GPA,我更在乎的是你的数学基础好不好,英文、写作水平怎么样,表达能力如何,知识面能不能达到我的要求。我相信中国、全世界的人才非常多,世界上前 10% 的人才,可能都非常优秀,值得培养。中上游的很多学生,尤其是好学校的中上游的学生,他们的基础通常已经够用,已经很扎实了。

如何判断学生的基础是否扎实?「猝然问焉而知其知」。比如你是学统计的,你来我这里面试,你肯定会以为我会面试你统计的知识,但既然我同意面试你,我基本上认为你的统计知识已经没有问题了,我会问你计算机的编程和算法知识。我并不是想刁难你,我也并不指望你能回答得很好,但是我希望你有解决问题的思路,在回答里带有逻辑性。

要是我突然问你这些内容,你一问三不知,那就说明你对这个领域知识的认识非常匮乏。你对统计的专业知识很了解,相当于站在山峰上,但一涉及到其他知识,你立马跌到山底,那样不行,我希望学生知识面全面些。

第三是态度,做研究、治学、做事的态度一定要好。

我考察学生,一定要看你能不能做小事。如何判断?「烦使之而观其能」,让你做很多繁杂的小事情,然后我就知道你的能力和态度了。

什么是繁杂的小事情?比如你读研究生,有没有帮老师写过 PPT,有没有帮老师写过科研报告、项目申报书,有没有帮老师评审文章。这些任务派下去之后,立马就有四个象限的结果。第一个象限,你什么事情都做了,而且做得很漂亮,还不抱怨,这就是我说的态度好,能力强的学生,这种学生是我想要的。第二种学生,事情都做了,做得也很漂亮,但是不停抱怨;这种学生有能力但态度有问题,不是我想要的。第三种学生,那些小事都做了,虽然做得不是很好,但是不抱怨,态度非常好,这种学生如果有其他优点,我也会考虑。最后一种学生我就肯定不会考虑了,既做不好事情,还有态度问题。

最后,习惯和毅力也很重要。优秀的人才要有良好的生活习惯、做事习惯和作息习惯;有毅力的人,可以坚持努力,可以走得更长远。

另外,从学生培养的角度,我会根据学生自身的特点为他们选择不同的研究方向。

每个学生的优点不同,能力、特点也各有侧重,比如有的人统计强,有的人数学强,有的人计算机能力强,为学生选择题目时,一定要能发挥出他们的长处。

同时,人的性格也不尽相同,我把学生分为金、木、水、火、土五种性格。

举个例子,有些人是火型性格,这种性格的人,你不能让他做很经典的问题。就像淘金,这个地方已经被很多批淘金者淘过了,你要是还想从中发现黄金,得找得更细,需要耐心。这样的课题如果你交给火型的人去做,就是把他给害了,但是你交给水型的人做,他们就有可能找到其中的瑰宝。

火型的人做事很着急,水型的人做事慢但是有耐心,很细致。那么什么样的项目适合火型人去做?一些全新的开拓型的项目,这种项目开始时竞争对手少,这个时候你就希望火型的而不是水型的学生去做,火型的学生可以快速推进项目,但是你要给他配一个木型的助手(木生火),火型的人做事不够仔细,需要木型的学生帮助保证研究结果的正确性和完整性。

(完)

雷锋网雷锋网

雷锋网原创文章,未经授权禁止转载。详情见 转载须知

熊辉教授:数据挖掘就像医生诊疗,最新的疑难杂症才是我最感兴趣的

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Defensive Design for the Web

Defensive Design for the Web

37signals、Matthew Linderman、Jason Fried / New Riders / 2004-3-2 / GBP 18.99

Let's admit it: Things will go wrong online. No matter how carefully you design a site, no matter how much testing you do, customers still encounter problems. So how do you handle these inevitable bre......一起来看看 《Defensive Design for the Web》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

MD5 加密
MD5 加密

MD5 加密工具

SHA 加密
SHA 加密

SHA 加密工具