机器阅读(一)--整体概述

栏目: 数据库 · 发布时间: 7年前

内容简介：主要包含：机器阅读的起因和发展历史；MRC数学形式；MRC与QA的区别；MRC的常见数据集和关键模型1) 词性分析2) 命名实体识别

主要包含：机器阅读的起因和发展历史；MRC数学形式；MRC与QA的区别；MRC的常见数据集和关键模型

发展动机

传统NLP任务

1) 词性分析 part-of-speech tagging ：判断词性

2) 命名实体识别 named entity recognition 识别实体

3) 句法依存 sytactic parsing 找到词间关系、语法结构信息

4) 指代消解 coreference resolution

阅读理解动机

让机器理解人类语言是AI领域长期存在的问题
阅读理解能综合评估各项NLP任务，是一个 综合性任务
阅读理解探索更加 深层次的理解
回答问题是 检测机器是否读懂文章 最好的办法

历史发展

早期系统

1. QUALM系统 Lehnert ，1977年

2. 早期数据集 Hirschman ，1999年

小学文章，3年级-6年级
60篇 - 60篇：dev - test
只需要 返回包含正确答案的句子 即可
who what when where why

3. Deep Read系统 Hirschman ，1999年

rule-based bag-of-words

4. QUARC系统 Riloff and Thelen ，2000年

rule-based
基于词汇和语义对应

还有3和4的结合（ Charniak ，2000年），准确率在30%-40%左右。

机器学习时代

1. 三元组

（文章，问题，答案）

2. 两个数据集

MCTest ：四选一；660篇科幻小说

ProcessBank ：二分类；585问题，200个段落；生物类型文章；需要理解实体关系和事件

3. 传统规则方法

不使用训练数据集

1）启发式的滑动窗口方法

计算 word overlap 、 distance information

2）文本蕴含方法

用现有的文本蕴含系统，把 (问题，答案) 对转化为一个 statement 。

3）max-margin 学习框架，使用了很多语言特征:

句法依存、semantic frames、指代消解、 discourse relation和词向量等特征。

4. 机器学习方法

机器学习方法比规则方法好，但是任然有很多不足：

1）依赖于现有语言特征工具

许多NLP任务没有得到有效解决
任务泛化性差，一般在单一领域训练
语言特征任务添加了噪声

2）很难模拟人类阅读，难以构建有效特征

3）标记数据太少，难以训练出效果好的统计模型

深度学习时代

深度学习火热于2015年，DeepMind的Hermann大佬提出了一种新型低成本构建大规模监督数据的方法，同时提出了 attention-based LSTM 。

神经网络效果较好，能更好地在词/句子上做match。

1) CNN/Daily-Mail数据集

把文章标题/摘要中的名词mask掉，再提问这个名词
使用NER和指代消解等技术
半合成的数据集，存在误差，影响发展

2) SQuAD数据集

107785问答数据，546文章
第一个大规模机器阅读理解数据集
推动了很多机器阅读模型的发展

3) 深度学习的优点

不依赖于语言特征工具，避免了噪声误差等
传统NLP方法特征稀少、难以泛化
不用去手动构建特征，工作重心在模型设计上

任务形式

阅读理解任务看作是一种监督学习任务，目的是学习一种映射关系： \[ f: (p, q) \to a \] 根据答案类型，分为如下四种形式的机器阅读任务。

完形填空

预测一个词汇，一般平均3.5个词汇长度。准确率评估。

四选一

从k个答案中选择一个，一般是一个词、一个短语和一个答案。准确率评估。

Span预测

抽取式问答，预测答案在文章中start和end位置。

Exact Match 评估：准确率。测试集会有多个正确答案，EM匹配一个就好。

F1 score 评估：句子单词之间的overlap，忽略字符和a an the。计算最优的F1。 \[ \rm{ F1 = \frac{2*Precision*Recall}{Precision + Recall} } \]

自然形式

自然语言回答，没有固定的形式 free-form answer 。没有明确统一的评估指标。有如下几个：

BLEU(注意看新文章，好像说这个评测不是很好)
Meteor
ROUGE

MRC和QA的比较

机器阅读理解是Question Answering的一个特例。

1) 相同点：问题形式、解决方法和评估方法

2) 不同点

问答系统 在于：

旨在构建问答系统，依赖于各种资源
资源包括：结构化数据、非结构化文本、半结构化表格和其他形式的资源
QA致力于：寻找和识别有用资源；集成各种资源的信息；研究人们常问的问题

机器阅读 在于：

文本问答
需要去理解文本信息
答案只依赖于文章
会设计不同类型问题去测试机器对文章不同方面的理解

数据集和模型

机器阅读的发展原因：大规模数据和端到端神经网络模型的出现。

数据集促进了模型，模型又进一步促进了数据集的发展。

机器阅读(一)--整体概述

主要模型

CNN/Daily Mail

完型填空，名词

MCTest

四选一，MCTest论文

SQuAD 1.1

span预测。SQuAD1.1有如下缺点：

问题是根据文章提出的，降低了回答问题的难度
答案缺少yes/no、计数、why、how等问题类型
答案很短，只有span类型
缺少多句推理，SQuAD只需要一个句子便能回答

TriviaQA

span预测。 TriviaQA 和数据集论文

优点
缺点

RACE

四选一。中国初高中试题。 RACE 和数据集论文

NarrativeQA

free-form答案形式。 NarrativeQA 和数据集论文

书籍/电影：原文和摘要
摘要问答和原文问答，平均长度分别是659和62528
如果是原文，需要IR提取相关片段
free-form 难以评估

SQuAD 2.0

Span预测。加入no-answer。SQuAD 2.0和数据集论文

HotpotQA

113k问答数据，可解释的多步推理问答。HotpotQA和数据集论文

supporting fact

参考文献

NEURAL READING COMPREHENSION AND BEYOND

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

构建高可用Linux服务器

余洪春 / 机械工业出版社华章公司 / 2011-11-1 / 79.00元

资深Linux/Unix系统管理专家兼架构师多年一线工作经验结晶，51CTO和ChinaUnix等知名社区联袂推荐。结合实际生产环境，从Linux虚拟化、集群、服务器故障诊断与排除、系统安全性等多角度阐述构建高可用Linux服务器的最佳实践。本书实践性非常强，包含大量企业级的应用案例及相应的解决方案，读者可以直接用这些方案解决在实际工作中遇到的问题。全书一共10章。第1章以作者的项目实践为......一起来看看《构建高可用Linux服务器》这本书的介绍吧!

码农工具

机器阅读(一)--整体概述

发展动机

传统NLP任务

阅读理解动机

历史发展

早期系统

机器学习时代

1. 三元组

2. 两个数据集

3. 传统规则方法

4. 机器学习方法

深度学习时代

1) CNN/Daily-Mail数据集

2) SQuAD数据集

3) 深度学习的优点

任务形式

完形填空

四选一

Span预测

自然形式

MRC和QA的比较

2) 不同点

数据集和模型

主要模型

CNN/Daily Mail

MCTest

SQuAD 1.1

TriviaQA

RACE

NarrativeQA

SQuAD 2.0

HotpotQA

参考文献

构建高可用Linux服务器

图片转BASE64编码

HTML 编码/解码

html转js在线工具