Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包

栏目: 软件资讯 · 发布时间: 6年前

内容简介:Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的l...

Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!

Jcseg 2.4.0更新如下:

1,修复时间组合实体识别的bug,有时候会出现错误组合的情况。

2,优化NLP模式的时间实体的识别,区分组合时间,例如:"米"实体为"length.m","3米"为"nuc_length.m"。

长度单位/null 米/n/length.m ,/w/null 例如/d/null 这/r/null 根/q/null 线/q/null 长/d/null 3米/q/nuc_length.m

3,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/4f08a01ea94828e4c4ac585a744b4755f33c8c4b

4,修复中文数字转阿拉伯数字后词条的offset错误。

5,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/3de95015056a7ea683c5955faef891fa68af36b5

6,修改Elasticsearch的资源访问为官网建议的安全资源访问形式,意味着es插件不需要再grant privileges。

7,Elasticsearch插件中增加插件级别的单例词库创建接口并且使用安全方式加载词库。

8,修改jcseg-server中的jetty版本为:9.3.24.v20180605

9,jcseg-server.properties配置文件增加自定义host支持,便于外网访问。

10,修复maven编译中的全部javadoc报错。

11,README中增加了jcseg的使用案例和链接,以及微信和QQ沟通账号。

下载地址:

Gitee: https://gitee.com/lionsoul/jcseg/tree/v2.4.0-release

Github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.4.0-release

maven仓库地址:

<dependency>
    <groupId>org.lionsoul</groupId>
    <artifactId>jcseg-core</artifactId>
    <version>2.4.0</version>
</dependency>

【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Growth Hack 這樣做

Growth Hack 這樣做

Xdite / PCuSER電腦人文化 / 2016-5-7 / 300.00台幣

◎具體教你在預算有限的情況之下,把成長做出來的可行與必要方法! ◎帶動台灣成長駭客話題的專業講師,親授讓產品突破80分的成長秘笈 @這本書要給誰看? 1. 創業者、個人品牌經營者,想要提高自己服務轉換率的人。 2. 空有產品,但是賣不出去,花了錢投廣告卻效果低落的人。 @這本書有什麼不一樣? 1.全球最重要的趨勢,台灣最知名的 Growth Hack 講師 Xd......一起来看看 《Growth Hack 這樣做》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具