深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术

栏目: 数据库 · 发布时间: 7年前

内容简介：中文语义理解技术长期以来被誉为“人工智能皇冠上的明珠”，是人工智能领域最难攻克的堡垒。SMP2018-ECDT由中国中文信息学会（人工智能自然语义理解、自然语言处理最权威学会）主办，旨在评测中文语义理解与人机交互的最高水平。近日SMP2018-ECDT结果公布，据机器之心了解深思考人工智能（iDeepWise.AI）作为上届全国冠军，继续成功加冕，包揽任务一、任务二两项大奖，再次斩获中文语义理解与多轮人机交互全国第一名，蝉联2017、2018两届全国冠军。由中国中文信息学会社会媒体处理专委会主办、哈尔滨工

中文语义理解技术长期以来被誉为“人工智能皇冠上的明珠”，是人工智能领域最难攻克的堡垒。SMP2018-ECDT由中国中文信息学会（人工智能自然语义理解、自然语言处理最权威学会）主办，旨在评测中文语义理解与人机交互的最高水平。近日SMP2018-ECDT结果公布，据机器之心了解深思考人工智能（iDeepWise.AI）作为上届全国冠军，继续成功加冕，包揽任务一、任务二两项大奖，再次斩获中文语义理解与多轮人机交互全国第一名，蝉联2017、2018两届全国冠军。

由中国中文信息学会社会媒体处理专委会主办、哈尔滨工业大学承办的第七届全国社会媒体处理大会（SMP 2018）于 2018 年 8 月 2 日 - 4 日在哈尔滨召开。8月3日，SMP2018举行了中文人机对话技术评测（ECDT）颁奖仪式，深思考人工智能首席机器学习科学家王泳博士受邀参加，并现场分享深思考人工智能SMP2018用户意图领域分类技术报告与特定域任务型人机对话在线评测技术报告。

SMP2018深思考人工智能用户意图领域分类技术报告

摘要：本文介绍深思考人工智能公司开发的用户意图领域分类系统。针对本次测评所关注的31个类别，我们采用了领域关键词的识别方式和多分类器的领域分类相结合的方案，领域关键词主要来源于数据集的统计和外部网络资源的采集，多分类器采用了长短期记忆网络（LSTM）的变体GRU。在本次测评中，领域分类效果较为出色，达到预期结果。

1 引言

近年来，人机对话技术受到了学术界和产业界的广泛关注。在学术界，人机对话相关技术不断发展，如语音识别、对话管理、自然语言生成等。在产业界，多家公司开发出了许多人机对话产品，如聊天机器人siri、情感陪护机器人小忆等。人机对话主要分为目标驱动型（或任务驱动型）和非目标驱动型对话，其中典型的任务驱动型人机对话系统主要包含自然语言理解（NLU）、对话管理(DM)、自然语言生成(NLG)三个模块。

自然语言理解(NLU)应用在我们的日常生活中变得越来越重要，其主要目标是识别用户输入话语的领域和意图，例如：用户说：“我要买一张下周去上海的飞机票，国航的”，这时，NLU需要准确识别出这句话所属的领域是机票，才能给用户返回正确的回复结果。领域分类 ^[1] 属于文本分类，常见的传统领域分类方法有SVM ^[2] 、随机森林、KNN等，随着深度学习的不断发展，深度学习的技术也逐渐应用到自然语言理解领域，如卷积神经网络 CNN、循环神经网络RNN ^[3] 以及长短期记忆网络LSTM ^[4] 等。

2 用户意图领域分类系统

2.1 技术架构

图1是用于解决意图分类问题的总体技术架构。在这个架构中用到了31分类器、领域关键词词典、领域句子词典共同来决策句子的意图。

（1）31类领域分类器：采用GRU（Gated Recurrent Unit）神经网络训练31类分类器，并用K折交叉验证用于评估模型效果。

（2）领域关键词词典：基于数据的领域关键词提取，并结合人工知识对领域关键词进行了扩展。

深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术图1 技术架构

2.2 关键词识别

基于数据集，我们统计了其中的各个领域的特有关键词，经人工筛选后加入关键词词典；基于外部网络资源，我们搜集了个别类的常见关键词，如股票领域、彩票领域、疾病领域等。

2.3 基于GRU的领域分类

长短期记忆网络(LSTM)是一种特殊的RNN类型，通过门控机制使循环神经网络不仅能记忆过去的信息，同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模，缓解了RNN的梯度消失问题，而GRU作为LSTM的变体，在保持了LSTM的效果的同时又使结构更加简单，所以在某些任务上更为流行。本文针对同一数据集，验证了不同模型的分类效果，如传统分类模型LR、KNN、SVM、RF等，深度学习模型ICDCNN、FastText、GRU等。

3 实验方案

3.1 数据集及任务介绍

此次用户意图领域分类任务包括闲聊和垂类两大类，其中垂类分为天气(weather)、航班(flight)、火车(train)等30小类，总共31个类别，数据分为训练集、测试集、验证集，在官方的数据(train:2299,dev:770)基础上，我们对31个类别分别进行了数据扩展，扩展后训练集每个类的数据如图2所示。

深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术图2 扩展后类别数据

3.2 实验结果与分析

我们在同一训练集和开发集的情况下尝试了不同的分类模型，如传统分类模型LR、KNN、SVM、RF等，深度学习模型ICDCNN、FastText、GRU等，表1是各个模型的结果。

深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术表1 各模型结果

从上表可看出，传统的分类模型在这个数据集上表现并不出色。在深度学习模型中，GRU比ICDCNN、FastText表现都要好很多，F1值比它们高了3.81和5.15个百分点，原因是文本属于一种序列化结构，而GRU由于其特殊的网络结构，比较适合处理序列化问题。所以，我们最终选择了GRU模型。

在GRU模型的基础上，我们比较了扩展数据前后的F1值，结果如表2所示。

深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术表2 扩展前后的F1值

从上表可看出，扩展数据对模型的效果提升十分明显。

最后，我们在GRU模型的基础上，使用了关键词词典，F1值提升了约1个百分点，结果如表3所示。

深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术表3 加关键词前后的F1值

4 总结

自然语言处理/理解是人工智能的一个终极目标，在人机对话产品方面，深思考人工智能iDeepWise机器人已经实现了在音乐、天气、酒店、美食、火车票、机票、医疗问诊、医疗领域智能客服、车载等多个垂直领域的多轮人机交互引擎。本文介绍的基于GRU模型的领域分类系统，并在模型之上加入关键词词典，在处理人机对话中的短文本上有较好的效果。

参考文献

[1] Ravuri S, Stolcke A. A comparative study of recurrent neural network models for lexical domain classification C]// Proceedings of the 41th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2016), 2016: 6075-6079.

[2] Haffner P, Tur G, Wright J H. Optimizing SVMs for complex call classification[ C]// Proceedings of the 28th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2003), 2003: I-632-I-635.

[3] Xu P, Sarikaya R. C ontextual domain class ification in spoken language understanding systems using recurrent neural network[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2014:136-140.

[4] Suman Ravuri and Andreas Stolcke, “Recurrent neural networkand LSTM models for lexical utterance classification,” in Proc. Interspeech, Dresden, Sept. 2015.

深思考人工智能SMP2018特定域任务型人机对话在线评测技术报告

摘要：本文主要介绍了深思考人工智能机器人科技（北京）有限公司的研发团队针对SMP2018特定域任务型人机对话评测任务所研发的系统，并详细介绍了该系统的技术实现细节。本次评测任务的特定领域包括：机票类、火车票类、酒店类3个垂直领域，相比于上一届特定域任务型人机对话在线评测任务，本届评测的最大变化就是加入了多意图识别以及多意图场景下的预定或查询任务。为了实现多意图场景下的多轮人机交互，深思考人工智能团队重点进行了多意图场景下的多标签分类、意图理解与推理以及对话管理模块的研究和设计。最终评测结果显示，利用上述技术的人机对话系统能够取得理想的效果。

引言

SMP2018中文人机对话技术评测（ECDT）的任务二是特定域任务型人机对话在线评测任务，本次评测任务的特定领域包括：机票类、火车票类、酒店类3个垂直领域，系统通过与测试人员实时在线对话完成相应的预定或查询任务，从而满足测试人员的需求。相比于上一届特定域任务型人机对话在线评测任务，本届评测的最大变化就是加入了多意图识别以及多意图场景下的预定或查询任务。

本次评测扩充的多意图场景下的意图识别和相应的预定或查询任务相比较于单意图的处理在难度上有了很大的提升，这里面涉及到意图的多标签分类、意图间关系的推理以及意图之间属性特征的推理。为了实现多意图场景下的多轮人机交互，深思考人工智能团队重点进行了多意图场景下的多标签分类、意图理解与属性推理以及对话管理模块的研究和设计。

1 系统实现

我们首先将工作重心主要放在意图的层次分类中，将多意图看做是一个大类，对多意图进行多标签分类。其次进行多意图问句和单意图问句的属性抽取以及多意图的属性推理。然后在对话管理模块中通过深度强化学习Deep Reinforcement Learning进行信息和状态的处理。最后各个业务模块的逻辑处理，从而实现多任务场景下的多轮交互。系统的总体框架图如图-1所示：

深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术图-1人机多轮交互系统总体框架

1.1 输入预处理

在特定域任务型人机对话在线评测系统中，首先需要对用户输入的问句进行纠错，其次还需要进行分词、词性标注，最后进行补全和指代消解。

1.2 意图分类

在多领域的人机交互系统中，意图分类是整个系统的核心。当用户说了一句话时，首先要知道这句话是哪个领域的问题，才能交给这个领域的业务处理模块进行处理。因为本次测评加入了多意图识别，这属于一个多标签分类问题，和传统的意图分类有很大的差别。

在这里我们采用层次分类的思想，首先利用GRU模型对意图进行粗粒度划分，从而划分出多意图，然后在多意图中利用胶囊网络进行多标签分类从而识别出多意图中的子意图。长短期记忆网络(LSTM)是一种特殊的RNN类型，通过门控机制使循环神经网络不仅能记忆过去的信息，同时还能选择性地忘记一些不重要的信息而对长期语境等关系进行建模，缓解了RNN的梯度消失问题，而GRU作为LSTM的变体，在保持了LSTM的效果的同时又使结构更加简单，所以在某些任务上更为流行。首先我们选用了基于GRU模型的领域分类系统，并在模型之上加入关键词词典，在处理人机对话中的短文本上有较好的效果。胶囊网络 ^[1] 是Hitton针对卷积神经网络的缺陷而提出的，卷积神经网络的核心在卷积层，它能够抽取出更高维的特征，但是在抽象过程中没能够将低层特征之间的位置关系考虑进去。而胶囊网络作为一个新的神经网络框架，它是由胶囊而不是由神经元构成的，其中一个胶囊就是一个向量神经元，它的输出是一个向量，所以我们利用胶囊网络实现多标签分类。

1.3 属性抽取与推理

属性抽取也可以称为序列标注，可以以字为单位进行序列标注，也可以以词为单位进行序列标注，经过实验验证发现，利用字为单位进行序列标注可以取得比较好的效果。我们一个设计了13个待标注标签，分别是：time、to_address、address、num_day、room_type、hotel_name、quantity、money、seat_type、train_type、berth_type、airline_company、flight_no。其中标注采用的是BIEO。B表示一个待标注标签的起始字；I表示一个待标注标签的非起始非末尾字；E表示一个待标注标签的末尾字；O表示非待标注标签字，该模块我们采用Bi-LSTM+CRF ^[2] 进行序列标注，其中Bi-LSTM能够充分的捕捉上下文特征信息，而CRF中有转移特征，即它会考虑输出label之间的顺序性。

多意图问句中会涉及到属性的推理与共享，其中时间属性和地点属性的推理最常见，依存句法分析能够分析出各个语义角色之间的依存关系，从而可以利用这些依存关系进行属性间的推理，而意图间的属性是否可以共享则根据意图之间的关系确定。比如：

预订明天北京去上海 的机票 ， 经济舱 ，价格 五百元左右 ， 再预定 第二天 返程的火车票 ， 动车二等座 。

其中这里面第二个意图的时间属性“ 第二天 ”需要根据第一个意图的时间属性“ 明天 ”进行推理。此外第二个意图的地点属性也需要根据第一个意图的地点属性来进行推理。

1.4 对话管理

在多轮交互时，我们设计了对话管理模块，该模块需要识别出本轮意图已经进行到哪一步，因为用户有时会跳出该意图，该模块可以将跳出的意图恢复，从而实现多轮交互。并且可以实现多任务的衔接和信息的共享。

对话管理模块的决策器中采用了深度强化学习Deep Reinforcement Learning中的Deep Q Learning算法来训练一个最佳上下文决策模型。其中决策过程为一个马尔可夫决策过程(MDPs)，反复在会话中间节点状态S、会话话术行为A、回报R、状态S...之间轮换直到一次多轮对话结束，最终获得最佳回报即能够正确完成任务的Q network模型，该模型从而可以决策当前的会话由哪个业务模块去处理。

1.5 意图理解及处理

当对话管理模块将当前会话交给某个领域业务处理模块进行处理时，该模块就需要对这句话中用户的意图进行理解。虽然在这些特定的任务型领域，用户的意图相对比较确定，但人们的语言却是无法限定的，所以即使同一个意图的表达，不同的人、不同的场景、不同的时间，所用的文字话术多少会有些不同。

我们使用了文本匹配模型进行用户的意图理解，为了达到良好的匹配效果，所以使用双边多角度文本匹配模型Bimpm ^[3] 进行用户问句与FAQ中话术的匹配（如图-2）。

深思考获SMP2018-ECDT两项任务第一名，解读中文语义理解技术图-2 Bimpm模型框架图

1.6 业务领域及逻辑处理

对于每个领域，该领域的业务逻辑处理模块需要确定该领域业务所需的信息点。每个领域的业务逻辑处理模块会根据当前会话的意图理解结果，将抽取解析到的信息，填充或者更新到对应的槽位。并根据当前各槽位的缺失情况进行交互引导，从而完善业务处理所需信息，进而完成用户的任务请求。

2 应用与意义

基于上述技术，深思考研发团队推出了新一代ideepwise交互机器人，该交互机器人可以在特定领域场景下达到近似于人一样流畅的交流，其中最为核心的是可以有效识别多意图问句中的多个子意图并对子意图的属性值进行准确的推理，此外在对话管理模块中通过深度强化学习Deep Reinforcement Learning进行信息和状态的处理，从而实现特定域任务型多轮语义交互。

参考文献

[1] Zhao W, Ye J, Yang M, et al. Investigating Capsule Networks with Dynamic Routing for TextClassification[J]. arXiv preprint arXiv:1804.00538, 2018.

[2] Dong C, Zhang J, Zong C, et al. Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition[C]//International Conference on Computer Processing of Oriental Languages. Springer International Publishing, 2016: 239-250.

[3] Wang Z, Hamza W, Florian R. Bilateral multi-perspective matching for natural language sentences[J]. arXiv preprint arXiv:1702.03814, 2017.

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网