使用pynlpir增强jieba分词的准确度

栏目: 编程工具 · 发布时间: 7年前

内容简介：在使用jieba分词时，发现分词准确度不高。特别是一些专业词汇，比如首先安装pynlpir。pynlpir的相关说明可以参考https://pynlpir.readthedocs.io/en/latest/index.html。而后为jieba生成字典。jieba支持的字典格式为

在使用jieba分词时，发现分词准确度不高。特别是一些专业词汇，比如 堡垒机 ，只能分出 堡垒 ，并不能分出 堡垒机 。这样导致的问题是很多时候检索并不准确。经过对比测试，发现 nlpir 进行分词效果更好。但是nlpir的效率和各种支持又没有jieba那么好，因此采用了一种折中的方案。就是先用nlpir生成字典，然后使用jieba利用字典进行分词。

首先安装pynlpir。pynlpir的相关说明可以参考https://pynlpir.readthedocs.io/en/latest/index.html。

// 安装
$ pip install pynlpir
// 证书更新
$ pynlpir update

而后为jieba生成字典。jieba支持的字典格式为 单词词频 ，中间用空格隔开，每行一个单词。使用pynlpir生成词典的方式如下：

import pynlpir
pynlpir.open()
f = open("doc.txt", "r")
s= f.readlines()
s = '\n'.join(s)
f.close()
key_words = pynlpir.get_key_words(s, max_words=1000, weighted=True)
for key_word in key_words:
    print '%s %s' % (key_word[0], int(key_word[1]*10))

这里之所以为每个 词频*10 ，主要是为了加强其权重。而后再使用jieba利用该字典进行分词。至于jieba分词如何使用词典，可以参考https://github.com/fxsjy/jieba/blob/master/test/test_userdict.py。这里就不再重复了。

对于sphinx-doc，其最新版本也是使用的jieba分词。同样可以使用本方法来提升其分词的准确率。中文分词引入可以参考https://www.chenyudong.com/archives/sphinx-doc-support-chinese-search.html。在conf.py中，配置 html_search_options = {'dict': '/usr/lib/jieba.txt'} ，加入字典的路径。这里一定要绝对路径。相对路径不能生效。

Previous

graph easy绘制ascii简易流程图

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

PHP Cookbook

Adam Trachtenberg、David Sklar / O'Reilly Media / 2006-08-01 / USD 44.99

When it comes to creating dynamic web sites, the open source PHP language is red-hot property: used on more than 20 million web sites today, PHP is now more popular than Microsoft's ASP.NET technology......一起来看看《PHP Cookbook》这本书的介绍吧!

码农工具

使用pynlpir增强jieba分词的准确度

PHP Cookbook

SHA 加密

RGB CMYK 转换工具

HEX HSV 转换工具