Python中文分词 scseg

码农软件 · 软件分类 · 中文分词库 · 2019-08-29 06:57:37

软件介绍

scseg中文分词,是基于mmseg的简单分词组件

Feature

  • 支持pinyin分词
  • 支持用户自定义词典
  • 支持单位合并
  • 支持汉字数字识别

Install

  • pip install scseg
  • 通过import scseg来引用

Algorithm

  • 采用mmseg算法进行切分
  • 采用规则方式支持中文数字分词

功能 1):分词scseg.seg_text方法

  • scseg.seg_text函数接受3个参数:
  • text参数为需要分词的字符
  • ext_dict_words为用户自定义的扩展字典
  • use_combine代表是否需要合并处理

代码示例( 全功能分词 )

#encoding=utf-8
import genius

seg_list = scseg.seg_text(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

功能 2):面向索引的分词

  • scseg.seg_keywords为面向索引的切割方式
  • 其作用是枚举出所有可能的切割方式
  • text参数为需要分词的字符

代码示例( 全功能分词 )

#encoding=utf-8
import scseg

seg_list = scseg.seg_keywords(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

本文地址:https://www.codercto.com/soft/d/13400.html

微信民族志、自媒体时代的知识生产与文化实践

微信民族志、自媒体时代的知识生产与文化实践

赵旭东 / 中国社会科学出版社 / 2017-9 / 98.00元

进入二十一世纪以来,随着网络技术的发展,自媒体的悄然登场深度影响着我们的日常生活。中国社会中自媒体通讯方式的普及以及随之而有的一种文化书写的新形式——微信民族志的出现使原有文化秩序中时空意义发生转变的同时,也在重新塑造着以研究异文化为己任的人类学学科自身的成长、转型与发展。在此种情境之下,由中国人民大学人类学研究所、中国人民大学国家发展与战略研究院、中国人民大学社会学理论与方法研究中心、《探索与争......一起来看看 《微信民族志、自媒体时代的知识生产与文化实践》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

SHA 加密
SHA 加密

SHA 加密工具