内容简介:FoolNLTK之前发布了分词等功能,但很多场景需要自定义模型,现发布训练代码,只需要准备好训练数据,其他交给工具完成。 另外修改了之前用户词典合并局部出现的 Bug。 提供训练和模型调用接口详情查看项目地址。 ...
FoolNLTK之前发布了分词等功能,但很多场景需要自定义模型,现发布训练代码,只需要准备好训练数据,其他交给 工具 完成。
另外修改了之前用户词典合并局部出现的 Bug。
提供训练和模型调用接口详情查看项目地址。
FoolNLTK是一款中文处理工具包
特点
可能不是最快的开源中文分词,但很可能是最准的开源中文分词
基于BiLSTM模型训练而成
包含分词,词性标注,实体识别, 都有比较高的准确率
用户自定义词典
可训练自己的模型
用户自定义词典
词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1
难受香菇 10 什么鬼 10 分词工具 10 北京 10 北京天安门 10
加载词典
import fool fool.load_userdict(path) text = "我在北京天安门看你难受香菇" print(fool.cut(text)) # ['我', '在', '北京天安门', '看', '你', '难受香菇']
删除词典
fool.delete_userdict();
词性标注
import fool text = "一个傻子在北京" print(fool.pos_cut(text)) #[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]
实体识别
import fool text = "一个傻子在北京" words, ners = fool.analysis(text) print(ners) #[(5, 8, 'location', '北京')]
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 也谈 Python 的中文编码处理
- 自然语言处理之中文自动分词
- R语言自然语言处理:中文分词
- 中文自然语言处理数据集:ChineseNLPCorpus
- SnowNLP情感分析使用教程(中文文本处理库)
- FoolNLTK 发布 Java 版,基于深度学习的中文文本处理工具
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
首席产品官2 从白领到金领
车马 / 机械工业出版社 / 79元
《首席产品官》共2册,旨在为产品新人成长为产品行家,产品白领成长为产品金领,最后成长为首席产品官(CPO)提供产品认知、能力体系、成长方法三个维度的全方位指导。 作者在互联网领域从业近20年,是中国早期的互联网产品经理,曾是周鸿祎旗下“3721”的产品经理,担任CPO和CEO多年。作者将自己多年来的产品经验体系化,锤炼出了“产品人的能力杠铃模型”(简称“杠铃模型”),简洁、直观、兼容性好、实......一起来看看 《首席产品官2 从白领到金领》 这本书的介绍吧!
CSS 压缩/解压工具
在线压缩/解压 CSS 代码
RGB转16进制工具
RGB HEX 互转工具