微软亚洲研究院发布业界最全面的语义分析数据集MSParS

栏目: 数据库 · 发布时间: 6年前

内容简介:编者按:自然语言处理(Natural Language Processing, NLP)是人工智能领域中最重要的分支之一,而

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

编者按: 语义分析引擎是诸多人工智能产品的核心模块,但由于标注成本高、难度大,学术界现有的语义分析数据集存在数据规模小、问题种类少、问题模板结构过于单一等缺陷。为此,微软亚洲研究院自然语言计算组与微软必应(Bing)搜索引擎团队合作构建并发布了大规模、高质量、多类型的语义分析数据集 MSParS(Multi-perspective Semantic ParSing Dataset),希望供科研人员和工业界同行研究和使用。欢迎通过GitHub下载和使用V1.0版本!

自然语言处理(Natural Language Processing, NLP)是人工智能领域中最重要的分支之一,而 语义分析(Semantic Parsing) 则是NLP诸多任务中最核心、也最具挑战的一项。

语义分析旨在将自然语言转换为机器能够理解的结构化语义表示 (例如Lambda表达式、 SQL 语句和SPARQL语句等)。基于语义表示,下游NLP任务(例如智能问答和对话系统等)能够从对应的结构化知识图谱中进行相关信息的精准查询,并将其用于输出结果的生成。下图就是语义分析在多轮问答中的一个应用示例。

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

语义分析引擎是目前诸多人工智能产品的核心模块 ,例如微软必应(Bing)搜索引擎、微软小冰、微软小娜等。然而,由于对自然语言进行语义分析标注的成本非常高、难度非常大,因此,学术界现有的语义分析数据集存在数据规模小、问题种类少、问题模板结构过于单一等缺陷。

针对这些问题,微软亚洲研究院自然语言计算组与微软必应(Bing)搜索引擎团队合作构建并发布了一个 大规模、高质量、多类型的语义分析数据集:MSParS (Multi-perspective Semantic ParSing Dataset) ,希望供科研人员和工业界同行进行研究和使用。该数据集(V1.0版本)包含了81,826个自然语言问题及其对应的结构化语义表示,覆盖12种不同的问题类型和2,071个知识图谱谓词, 是学术界目前最全面的语义分析数据集。 现在,MSParS V1.0版本已经可以通过GitHub进行下载。

MSParS 下载

下载地址:https://github.com/msra-nlc/MSParS

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

长按扫码,下载数据集

MSParS:开放领域语义分析数据集

传统的语义分析数据集,如ATIS、JOBS、Geoquery等均针对特定领域进行构建,其特点是数据规模小,并且覆盖的领域知识非常有限。近年来,随着包括Freebase等在内的大规模知识图谱的快速发展,很多更具挑战的开放领域语义分析任务被陆续提出,例如SimpleQuestions、WikiSQL、ComplexWebQuestions等。这些语义分析数据集规模较大,但只针对极少数常见问题类型进行语义标注,例如单关系(single-relation)问题、多跳(multi-hop)问题和多约束(multi-constraint)问题。

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

现有的语义分析数据集对比

而MSParS基于微软的开放领域知识图谱Satori进行标注,目前发布的 V1.0版本总共包含81,826条人工标注,每条数据由一个四元组构成:问题、语义表示、语义表示参数、问题类型。 其中,语义表示参数是指在问题中出现的构成语义表示所需的实体名称、实体类型或数值等。问题类型则由 9种单轮问题类型和3种多轮问题类型 组成,包括单关系(single-relation)、多跳(multi-hop)、多约束(multi-constraint)、复合事件(CVT)、是非判断(yesno)、选择(multi-choice)、最高级(superlative)、数值比较(comparative)、聚集查询(aggregation)、前一轮问题实体省略(multi-turn-entity),前一轮问题谓词省略(multi-turn-predicate)和前一轮答案省略(multi-turn-answer)。

整个MSParS数据集被划分为训练集(63,826条人工标注)、验证集(9,000条人工标注)和测试集(9,000条人工标注), 总共覆盖2,071个知识图谱谓词和121种不同的实体类型。 具体统计数字,详见下图。

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

MSParS数据集划分

数据集构建

MSParS数据集采用众包(crowd-sourcing)的方式进行构建。下面以多跳(multi-hop)类型问题进行标注的流程为例:首先,基于语义表示模板,从知识图谱中采样抽取符合条件的语义表示实例;然后,基于规则为每个语义表示实例生成一个伪造的自然语言问题;再采用众包的方式对生成的伪造问题进行改写,形成<问题,语义表示>对;最后,添加语义表示参数和问题类型,生成最终的标注四元组。

数据集应用

目前,MSParS数据集已经成为 NLPCC 2019的三大评测任务之一 ,具体信息可以从NLPCC官网进行查找。

NLPCC官网

http://tcci.ccf.org.cn/conference/2019/cfpt.php

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

长按扫码,查看链接

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

除了语义分析任务外,MSParS还能够支持其它若干种NLP任务,例如实体识别、问题分类、问题生成、知识图谱问答等。

当然,微软的科研人员也意识到MSParS中的问题与现实生活中可能遇到的问题相比,在覆盖度、复杂度等方面依旧存在很大的差距。所以,MSParS的后续版本中会引入更多的对抗样本,用来模拟在真实应用中可能遇到的不可解析查询情况。微软会持续对该数据集进行更多的问题标注和扩充,欢迎大家保持关注并下载使用。

你也许还想看

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

微软亚洲研究院发布业界最全面的语义分析数据集MSParS

感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。

微软亚洲研究院发布业界最全面的语义分析数据集MSParS


以上所述就是小编给大家介绍的《微软亚洲研究院发布业界最全面的语义分析数据集MSParS》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Introduction to Computation and Programming Using Python

Introduction to Computation and Programming Using Python

John V. Guttag / The MIT Press / 2013-7 / USD 25.00

This book introduces students with little or no prior programming experience to the art of computational problem solving using Python and various Python libraries, including PyLab. It provides student......一起来看看 《Introduction to Computation and Programming Using Python》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具