授人以渔? 授人以鱼! NLP的民主化之路

栏目: 编程工具 · 发布时间: 6年前

内容简介:首先,我们一起来看一段客户(User)和开发人员(Developer)的对话。U: 我们就是想给客服的投诉信息自动分类。D: 这个啊,需要用到NLP中的分词、词性标注、句法分析等技术。

首先,我们一起来看一段客户(User)和开发人员(Developer)的对话。

U: 我们就是想给客服的投诉信息自动分类。

D: 这个啊,需要用到NLP中的分词、词性标注、句法分析等技术。

D: 也会用到CNN+LSTM的自动分类。

U: ...... 我们...客服的投诉信息自动分类。

D: Google最近的BERT模型,您知道吗?有1亿的参数训练,用在这里,效果肯定好。

D: 需要100万条标注语料,给我们4台GPU,必须是英伟达的,训练2周。

U: ...... 我们.....投诉分类。

D:我们公司的NLP技术是国家级项目成果,在国际比赛中可是第一名。

U: ...... 能不能有个懂客服业务的人啊? !.

D: ......

1.NLP应用之惑

上面这段虚构的对话,反映了当前自然语言处理(Natrual Language Processing)的应用现状。

一方面,NLP技术具有很高的门槛。(1)NLP技术的专业性很强。要处理一段文本,中间涉及很多个步骤,如自动分词、词性标注、句法分析、篇章分析等;也涉及很多个算法,如深度学习的CNN、LSTM、BERT等,每个算法都有其自身的约束条件,在条件满足的前提下,才能得到较好的效果;需要有大量的标注语料,让机器自动训练;当然也需要很强的算力资源,如GPU服务器等。NLP技术开发的过程,从外人看起来,更像是艺术创造。NLP技术是零散的,需要把各种NLP技术拼凑起来,还需要进行参数优化等大量的工作。而调参的过程,相当于黑盒子,需要技术人员反复尝试。(2)NLP的应用,需要与场景知识结合起来,需要有业务规则、标注语料等数据资源。但是很多时候,业务人员一句话就明白的业务规则,在这里却需要用上万条标注语料来说明,更不用说,标注语料要均衡、要定期更新等。(3)NLP人才缺乏,从事NLP开发的人员,要么是研究机构的学术研究人员,要么是BATJ大厂的“深度学习实验室”中的高端人才,据报道今年应届毕业的博士的入门年薪是80万,组建个团队价格不菲,只有少数头部企业,如BAT、华为、神州泰岳等,有实力参与其中。

另外一方面,NLP的需求广泛存在,只要有文本的地方,就有NLP应用的需求。NLP需求往往都不是独立存在的,只是存在与某个业务环节。比如企业风控中,有90%以上的工作是风控模型的构建与应用,为了扩大风控模型的数据源,希望用NLP技术从非结构化文本中提取风险标签,如裁判文书、招标公告等。大量的传统行业解决方案提供商,在某个行业有很好的客户资源和落地能力,他们希望在自己的产品和解决方案中增加NLP技术,提升非结构化数据的处理能力。这些需求过于零散,再加上给NLP的预算有限,所以头部企业很难为他们提供支持。另外,自己组建个NLP团队,代价太大,也很难吸引到高端人才。

NLP技术的门槛高,广泛存在的需求无法满足,是当前NLP应用的现状和困难。

2.授人以渔,还是授人以鱼

著名华人科学家、斯坦福教授李飞飞提出“AI民主化”是当前人工智能应用的主流趋势。Google、亚马逊AWS、Microsoft Azure均通过云平台,对外开放了部分NLP服务,如AWS的LEX会话机器人服务,微软的BOT工具提供认知服务和会话AI等。国内的BAT、华为们也通过人工智能平台开放NLP API,如句子向量表示、文本相似度计算等。可以看出,这些服务基本是以输出技术框架和基础技术为主,希望“授人以渔”,用户可以利用这些技术接口,进行二次开发,开发出满足业务场景需要的NLP应用。NLP应用的效果,平台无法保证,依然需要用户具有一定的专业知识,来完成优化。

鉴于NLP技术的专业性太强,上述“授人以渔”的开放方式,对不懂NLP的开发者来说,依然无从下手。 泰岳语义工厂 希望更进一步降低NLP的门槛,提出“授人以鱼”的民主化策略。

语义工厂不仅开放基础的NLP技术,同时将把神州泰岳数十年来,在多个行业典型用户积累的应用场景知识、算法、模型,打包成面向场景的服务,服务的效果已经在行业用户中得到验证。开发者只需要一次调用,输入待处理的非结构化文本,即可输出想要的结构化数据。 整个过程,无须开发者标注数据,无须调参,无须长时间训练,无须二次开发,开发者即使没有任何NLP技术背景,也可以轻松地把NLP技术嵌入到自己的应用中去。

3.语义工厂的NLP开放赋能

语义工厂将开放包含 NLP基础服务应用场景服务数据服务 等三大类服务,涉及 16个行业领域 ,共计 200余项服务

(1)NLP基础服务

NLP服务提供7类共计43个NLP服务接口,可以通过restful方式方便快捷地调用,涵盖NLP基础、深度学习、分类聚类、信息抽取、情感计算、自动写作、对话机器人、效果评估等服务。

NLP基础服务,是神州泰岳人工智能研究院团队20年来,在NLP领域的研究和开发积累,并在真实应用环境下经过检验的NLP技术模块。基础服务的性能优异,均可达到实用。

NLP基础服务,面向的是懂NLP的专业开发人员,熟悉每个算法的优缺点,能调用一个或多个服务,快速搭建起一个完整的NLP应用。

NLP基础服务的适用客户,是在人工智能、大数据行业(如视频、图像、语音等相关的行业)有一定积累,希望整合NLP的能力,完善自身解决方案的公司和个人开发者。NLP基础服务将免费开放给开发者。

(2)NLP场景服务

NLP场景服务涵盖16个行业领域共计142个具体场景服务,如银行、政府、互联网、电商、证券、保险、企业应用、运营商、娱乐、医疗、能源、军事、物流、科研等领域、通用领域以及场景定制化服务等。

NLP场景服务,是神州泰岳集团多年来NLP应用开发、项目交付积累的成果。自2011年以来,团队在为几大国有银行、电信运营商、政府机构等典型客户服务的过程中,将客户的场景化需求和业务知识,与NLP技术结合起来,研发了大量的业务模型,形成了很多面向场景的NLP应用系统,处理了亿级以上的数据,处理效果上均达到或超过了客户的预期。NLP场景服务,将把这些业务模型、NLP应用系统中的算法,打包成SAAS服务,对外开放。

NLP场景服务,面向的是完全不懂NLP的应用开发人员,本身在做 javapython 或前端开发,开发过程中,其中某环节需要用到NLP技术,对特定场景下的非结构化数据进行处理。

NLP场景服务的适用客户,是各个行业领域的应用开发商或解决方案集成商,主营业务是提供行业解决方案,如风险控制等,希望在自己方案中增加NLP的能力,但团队中没有NLP技术专家。NLP场景服务,将根据应用场景的复杂程度采取收费方式开放。同时,为了更好的满足特定场景下客户的NLP需求,也提供场景的定制开发服务。

(3)NLP数据服务

数据服务分5类,共计30个服务,包括语义资源服务、深度学习模型、数据资源服务、建模服务、数据加工服务等。

数据服务,开放的是神州泰岳人工智能研究院团队20年来,在NLP领域的研究和开发积累的知识库资源、语料库,以及训练好的模型等。如其中有一个“中文词向量模型”,提供全网语料覆盖最广、维度最全(字、词、偏旁等多个维度)的中文词向量,用户无须再费时、费力的训练自己的词向量,只需调用服务,即可在此服务的基础上,开展词向量相关的深度学习开发。

数据服务,面向的是懂NLP的专业开发人员,降低前期语料收集和标注、数据训练、资源整理等工作量,专注自身的开发需求。数据服务也支持定制化服务,如语料标注、资源加工等。

数据服务的适用客户,是有算法调优等开发需求的公司和个人开发者。数据服务将采取收费方式开放给开发者。

(4)NLP培训课程

NLP相关的 培训课程 ,共计 四类200节 ,包括:

1、NLP基础课程:介绍NLP的基本概念、基本处理流程、基础算法等内容;

2、NLP技能课程:介绍NLP开发相关的技能,包括需求分析、环境准备、服务调用、建模技能、效果测试、分布式调用等,以及各种 工具 的使用,TensorFlow、Spark等;

3、NLP资源课程:介绍NLP相关的多个知识库资源、数据资源等的背景、资源现状,以及如何做语料标注等;

4、NLP前沿课程:介绍最新的NLP研究动态、新的算法、新的应用等。

培训课程面向所有希望了解、提升NLP知识和能力的开发者。 培训课程免费开放 给开发者。

最后,我们再回到开始的客户(User)和开发人员(Developer)的对话场景,对话已经变成这样的。

U: 我们就是想给客服的投诉信息自动分类。

D: 这个啊,您只要调用我们“客服投诉自动分类”服务就可以了。

D: 我们这个服务的准确率和召回率都可以达到98%,已经有100个客户在用了,每天调用量有200万次。

D: 除了自动分类,我们还有一个“客服投诉信息的热点发现”服务,可以把投诉中无法归类的“其他”类自动细分,给出其中的热点类。

U: 这个我们需要。

D: 其实投诉信息中,还可以挖掘潜客呢,我们这有个“客服潜客挖掘”服务,能把投诉转换成绩效,对您肯定有用。

U: 这个我们也需要。

U: 还有什么服务,再给我介绍介绍......

D: 我们有16个行业,200多个服务呢,我给您说说......

“凡事都应该尽可能地简单,而不是较为简单。”  ——  阿尔伯特.爱因斯坦


以上所述就是小编给大家介绍的《授人以渔? 授人以鱼! NLP的民主化之路》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

精通Windows应用开发

精通Windows应用开发

[美] Jesse Liberty Philip Japikse Jon Galloway / 苏宝龙 / 人民邮电出版社 / 59.00元

Windows 8.1的出现不仅提供了跨设备的用户体验,也提供了跨设备的开发体验。本书着眼于实际项目中所需要的特性,以及现有C#编程知识的运用,对如何最大限度地利用Metro、WinRT和Windows 8进行了讲解,内容详尽,注重理论学习与实践开发的配合。 Windows 8.1和WinRT的作用及其特殊性 如何使用先进特性创建具有沉浸感和吸引力的Windows 8.1应用 如......一起来看看 《精通Windows应用开发》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具