中文分词工具包 smallseg

码农软件 · 软件分类 · 中文分词库 · 2019-08-29 12:43:32

软件介绍

smallseg -- 开源的,基于DFA的轻量级的中文分词工具包

特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。

Python 示例代码:

s3 = file("text.txt").read()
words = [x.rstrip() for x in file("main.dic") ]

from smallseg import SEG
seg = SEG()
print 'Load dict...'
seg.set(words)
print "Dict is OK."

A,B = seg.cut(s3) #A是识别出的登录词列表,B是未登录词列表
for t in A:
    try:
        print t.decode('utf-8')
    except:
        pass
print "============================"
for t in B:
    try:
        print t.decode('utf-8')
    except:
        pass

Java 示例代码: 

Seg seg = new Seg();
seg.useDefaultDict();
System.out.println(seg.cut("至于在这个程序中没有太大的意义, 这是Java提供的强制转化机制。草泥马"));

stdout>>
r:[至于, 在这, 程序, 没有, 太大, 意义, 这是, 提供, 强制, 转化, 机制]
u:[Java, 草泥马, 泥马]
(因为“草泥马”并没有在词库中)

本文地址:https://www.codercto.com/soft/d/13423.html

C语言程序设计

C语言程序设计

K. N. King / 吕秀锋、黄倩 / 人民邮电出版社 / 2010-4 / 79.00元

时至今日, C语言仍然是计算机领域的通用语言之一,但今天的 C语言已经和最初的时候大不相同了。本书最主要的一个目的就是通过一种“现代方法”来介绍 C语言,书中强调标准 C,强调软件工程,不再强调“手工优化”。这一版中紧密结合了 C99标准,并与 C89标准进行对照,补充了 C99中的最新特性。本书分为 C语言的基础特性、 C语言的高级特性、 C语言标准库和参考资料 4个部分。每章末尾都有一个“问与......一起来看看 《C语言程序设计》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

SHA 加密
SHA 加密

SHA 加密工具