SnowNLP情感分析使用教程(中文文本处理库)

栏目: 数据库 · 发布时间: 5年前

内容简介:SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。MIT licensed.1、cd /usr/local/lib/python2.7/dist-packages/snownlp

SnowNLP简介

SnowNLP是一个 python 写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。MIT licensed. SnowNLP情感分析使用教程(中文文本处理库)

SnowNLP特性

  • 中文分词(Character-Based Generative Model)
  • 词性标注(TnT 3-gram 隐马)
  • 情感分析(现在训练数据主要是买卖东西时的评价,所以对其他的一些可能效果不是很好,待解决)
  • 文本分类(Naive Bayes)
  • 转换成拼音(Trie树实现的最大匹配)
  • 繁体转简体(Trie树实现的最大匹配)
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25)
  • 支持python3(感谢erning)

SnowNLP作者

  • http://www.isnowfy.com/
  • https://github.com/isnowfy/snownlp

SnowNLP使用介绍

代码一(分词,词性,情感):

# coding: utf-8
from snownlp import SnowNLP
 
s = SnowNLP(u"这个东西真心很不错呀")
# 分词
print(s.words)
# 词性
print(s.tags)
# 情感: positive概率
print(s.sentiments)

代码一输出:

[u'这个', u'东西', u'真心', u'很', u'不错', u'呀']
[(u'这个', u'r'), (u'东西', u'n'), (u'真心', u'd'), (u'很', u'd'), (u'不错', u'a'), (u'呀', u'y')]
0.959021236049

代码二(主题词,摘要,情感):

# coding: utf-8
from snownlp import SnowNLP
 
text = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,
所以它与语言学的研究有着密切的联系,但又有重要的区别。
自然语言处理并不是一般地研究自然语言,
而在于研制能有效地实现自然语言通信的计算机系统,
特别是其中的软件系统。因而它是计算机科学的一部分。
垃圾,今天天气真的很差,风很大。
'''
s = SnowNLP(text)
# 主题词
print(s.keywords(3))
# 摘要
print(s.summary(3))
# 情感: positive概率
print(s.sentiments)

代码二输出:

[u'语言', u'自然', u'计算机']
[u'而在于研制能有效地实现自然语言通信的计算机系统', u'这一领域的研究将涉及自然语言', u'自然语言处理是计算机科学领域与人工智能领域中的一个重要方向']
1.0

SnowNLP训练介绍

代码一:

# coding: utf-8
from snownlp import SnowNLP
 
text = u'''
今天xxx战队打野真的很菜鸡,迷之走位,几次大招放空,辅助玩的也菜鸡。
xxx战队今天失败了!
'''
s = SnowNLP(text)
# 主题词
print(s.keywords(3))
# 摘要
print(s.summary(3))
# 情感: positive概率
print(s.sentiments)

代码一使用默认词库输出:

[u'菜鸡', u'战队', u'空']
[u'今天xxx战队打野真的很菜鸡', u'迷之走位', u'几次大招放空,辅助玩的也菜鸡']
0.657116516575(与真实情感出入较大,by:cpp.la)

代码一使用自定义标注词库训练输出:

1、cd /usr/local/lib/python2.7/dist-packages/snownlp/sentiment

2、积极词库pos.txt尾部增加

  • 牛逼
  • 666666
  • 风骚走位

3、消极词库neg.txt尾部增加

  • 菜鸡
  • 迷之走位
  • 大招放空
  • 失败

4、训练,保存为sentiment.marshal.2

from snownlp import sentiment
sentiment.train(
    '/usr/local/lib/python2.7/dist-packages/snownlp/sentiment/neg.txt',
    '/usr/local/lib/python2.7/dist-packages/snownlp/sentiment/pos.txt'
)
sentiment.save('/usr/local/lib/python2.7/dist-packages/snownlp/sentiment/sentiment.marshal.2')

5、切换成新训练集。vim __init__.py

data_path处修改为sentiment.marshal.2

6、

[u'菜鸡', u'战队', u'空']
[u'今天xxx战队打野真的很菜鸡', u'迷之走位', u'几次大招放空,辅助玩的也菜鸡']
0.195107836491(接近真实情感,by:cpp.la)

SnowNLP情感测试

大数据测试集,未完待续

by:cpp.la


以上所述就是小编给大家介绍的《SnowNLP情感分析使用教程(中文文本处理库)》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

图解物联网

图解物联网

[ 日] NTT DATA集团、河村雅人、大塚纮史、小林佑辅、小山武士、宫崎智也、石黑佑树、小岛康平 / 丁 灵 / 人民邮电出版社 / 2017-4 / 59.00元

本书图例丰富,从设备、传感器及传输协议等构成IoT的技术要素讲起,逐步深入讲解如何灵活运用IoT。内容包括用于实现IoT的架构、传感器的种类及能从传感器获取的信息等,并介绍了传感设备原型设计必需的Arduino等平台及这些平台的选择方法,连接传感器的电路,传感器的数据分析,乃至IoT跟智能手机/可穿戴设备的联动等。此外,本书以作者们开发的IoT系统为例,讲述了硬件设置、无线通信及网络安全等运用Io......一起来看看 《图解物联网》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码