准确率创新高，北大开源中文分词工具包 pkuseg

栏目: IT资讯 · 发布时间: 7年前

内容简介：北京大学近日开源了一个全新的中文分词工具包 pkuseg ，相比于现有的同类开源工具，pkuseg 大幅提高了分词的准确率。 pkuseg 由北大语言计算与机器学习研究组研制推出，具备如下特性：高分词准确率。相比于其他的...

北京大学近日开源了一个全新的中文分词工具包 pkuseg ，相比于现有的同类开源工具，pkuseg 大幅提高了分词的准确率。

pkuseg 由北大语言计算与机器学习研究组研制推出，具备如下特性：

高分词准确率。相比于其他的分词工具包，pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果，pkuseg 分别在示例数据集（ MSRA 和 CTB8 ）上降低了 79.33% 和 63.67% 的分词错误率。
多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点，用户可以自由地选择不同的模型。
支持用户自训练模型。支持用户使用全新的标注数据进行训练。

性能对比

在 Linux 环境下，各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下：

准确率创新高，北大开源中文分词工具包 pkuseg

预训练模型

分词模式下，用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型，根据具体需要，用户可以选择不同的预训练模型。以下是对预训练模型的说明：

MSRA : 在 MSRA（新闻语料）上训练的模型。新版本代码采用的是此模型。下载地址

CTB8 : 在 CTB8（新闻文本及网络文本的混合型语料）上训练的模型。下载地址

WEIBO : 在微博（网络文本语料）上训练的模型。下载地址

更多详情可查阅项目仓库。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Big C++中文版

霍斯特曼 / 姚爱红 / 电子工业 / 2007-3 / 85.00元

本书是一本关于C++的优秀教材，南圣何塞州立大学知名教授Horstmann编写。全书深入探讨了C++的知识，并着重强调了安全的标准模板库；本书较厚，但它可用做程序设计专业学生的教材(两学期)。全书在介绍基础知识后，作者论及了一些高级主题。书中面向对象的设计一章探讨了软件开发生命周期问题，给出了实现类关联的实用提示。其他高级主题包括模板，C++标准模板库，设计模式，GUI，关系数据库以及XML等。本......一起来看看《Big C++中文版》这本书的介绍吧!

码农工具

准确率创新高，北大开源中文分词工具包 pkuseg

Big C++中文版

Base64 编码/解码

XML、JSON 在线转换

XML 在线格式化