和清华大学自然语言处理与社会人文计算实验室一起读机器翻译论文

栏目: 编程工具 · 发布时间: 5年前

内容简介:雷锋网 AI 科技评论按:在生产和经济高度全球化的今天,机器翻译(Machine Translation)是人类面对外语时最渴望拥有的工具,也是神经网络带来最大变革的人工智能问题之一。从最早的基于规则的机器翻译,到基于概率的机器翻译,再到现在的基于神经网络的机器翻译,机器学习和语言学的研究人员们一起经历了几十年的历程。如今的机器翻译系统虽然还算不上尽善尽美,但以谷歌翻译、百度翻译为代表的,使用神经机器翻译技术的大规模开放使用的翻译系统,已经可以时不时地给出一些流畅、明了的双语互译结果了。当然了,在神经网络/

雷锋网 AI 科技评论按:在生产和经济高度全球化的今天,机器翻译(Machine Translation)是人类面对外语时最渴望拥有的工具,也是神经网络带来最大变革的人工智能问题之一。

从最早的基于规则的机器翻译,到基于概率的机器翻译,再到现在的基于神经网络的机器翻译,机器学习和语言学的研究人员们一起经历了几十年的历程。如今的机器翻译系统虽然还算不上尽善尽美,但以谷歌翻译、百度翻译为代表的,使用神经机器翻译技术的大规模开放使用的翻译系统,已经可以时不时地给出一些流畅、明了的双语互译结果了。

当然了,在神经网络/深度学习的冲击之下,我们也不免看到这样的调侃:“团队里每开除一个语言学家,翻译模型的准确率就可以再提升一点。”在越来越大的语料库、越来越多的模型设计和训练技巧的帮助下,来自语言学领域的指导带来的提升远不如机器学习领域的新技术成果、甚至已有技术成果的好的实现带来的提升大。雷锋网 AI 科技评论的读者们相信也有这样的感觉。

机器翻译,尤其是神经机器翻译(neural machine translation,NMT)也是清华大学自然语言处理与社会人文计算实验室重点关注的研究课题之一。为了便于自己研究,也给这个课题的其他研究人员提供从那靠和指引,清华大学自然语言处理与社会人文计算实验室机器翻译小组在 GitHub 上维护着一份神经机器翻译论文清单,包含了这个领域内他们认为起到重要作用的研究论文。

列表中的神经机器翻译论文划分为了模型架构、注意力机制、开放词库、训练目标、解码、低语言资源翻译、先验知识集成、文档级别翻译、鲁棒性、可视化和可解释性、语言学解释、公平性和多样性、效率、语音翻译、多模态、集成和重新 排序 、预训练、领域适应、质量估计、以人为中心的神经机器翻译、单词翻译及双语专用语翻译、诗歌翻译等主题,内容十分全面细致。除此之外,他们也列出了 10 篇必读论文。

这 10 篇必读论文是:

  • Peter E. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. 1993. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics. (Citation: 4,965)

  • Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of ACL 2002. (Citation: 8,507)

  • Philipp Koehn, Franz J. Och, and Daniel Marcu. 2003. Statistical Phrase-Based Translation. In Proceedings of NAACL 2003. (Citation: 3,514)

  • Franz Josef Och. 2003. Minimum Error Rate Training in Statistical Machine Translation. In Proceedings of ACL 2003. (Citation: 2,982)

  • David Chiang. 2007. Hierarchical Phrase-Based Translation. Computational Linguistics. (Citation: 1,192)

  • Ilya Sutskever, Oriol Vinyals, and Quoc V. Le. 2014. Sequence to Sequence Learning with Neural Networks. In Proceedings of NIPS 2014. (Citation: 5,428)

  • Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural Machine Translation by Jointly Learning to Align and Translate. In Proceedings of ICLR 2015. (Citation: 5,572)

  • Diederik P. Kingma, Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In Proceedings of ICLR 2015. (Citation: 16,572)

  • Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural Machine Translation of Rare Words with Subword Units. In Proceedings of ACL 2016. (Citation: 789)

  • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Proceedings of NIPS 2017. (Citation: 1,047)

论文列表具体内容请见: https://github.com/THUNLP-MT/MT-Reading-List

另外,在清华大学自然语言处理与社会人文计算实验室机器翻译小组的 GitHub 页面还可以看到他们的开源神经机器翻译 工具 包 THUMT ( https://github.com/THUNLP-MT/THUMT )。

祝各位阅读论文愉快。

雷锋网 (公众号:雷锋网) AI 科技评论报道。

雷锋网原创文章,未经授权禁止转载。详情见 转载须知


以上所述就是小编给大家介绍的《和清华大学自然语言处理与社会人文计算实验室一起读机器翻译论文》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

计算机程序设计艺术(第1卷)

计算机程序设计艺术(第1卷)

[美] Donald E. Knuth / 清华大学出版社 / 2002-9 / 80.00元

第1卷首先介绍编程的基本概念和技术,然后详细讲解信息结构方面的内容,包括信息在计算机内部的表示方法、数据元素之间的结构关系,以及有效的信息处理方法。此外,书中还描述了编程在模拟、数值方法、符号计算、软件与系统设计等方面的初级应用。此第3版增加了数十项简单但重要的算法和技术,并根据当前研究发展趋势在数学预备知识方面做了大量修改。一起来看看 《计算机程序设计艺术(第1卷)》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具