手把手教你学会 LDA 话题模型可视化 pyLDAvis 库

栏目: 数据库 · 发布时间: 7年前

内容简介：在之前我们学习过lda话题模型，相关的文章我放在这里，大家有兴趣可以看一看。

在之前我们学习过lda话题模型，相关的文章我放在这里，大家有兴趣可以看一看。

对文本分析感兴趣的可以关注下我的直播间内的课程 python文本分析：从入门到精通

pyLDAvis是话题模型交互式可视化库，最初是在R语言社区的Carson Sievert和Kenny Shirley开发的。他们俩的努力使得话题可视化成为可能，现在pyLDAvis可以通过 python 特别是jupyter notebook来分析并可视化话题模型。如果你对pyLDAvis的运行原理感兴趣，建议你阅读这篇论文。

LDAvis: A method for visualizing and interpreting topics https://nlp.stanford.edu/events/illvi2014/papers/sievert-illvi2014.pdf

pyLDAvis安装

一、pyLDAvis使用方法

导入模型语法

pyLDA需要先导入模型，支持的模型的来源有三种：

sklearn的lda模型
gensim的lda模型
graphlab的lda模型

导入的语法

参数解读：

sklearn lda/gensim lda: 计算好的话题模型
sklearn dtm/gensim dtm: 文档词频矩阵
vectorizer/dictionary: 词语空间
topic_model: graphlab生成的话题模型
docs: 语料集

graphlab我们没有学习，之后的课程可能会讲到。gensim和sklearn我们都接触过，而且昨天我们分享的教程是gensim方式生成话题模型，今天我们主要是看看sklearn方式生成的话题模型的可视化。其实不管哪一种模型生成方式，使用方法基本类似。

可视化语法

二、实战

我们做pyLDAvis话题模型可视化，步骤分为：

数据读取
预处理
生成文档词频矩阵
生成LDA模型
pyLDAvis可视化

数据读取

昨天我分享的内容作为话题分析实际上略微有些牵强，因为对褚时健先生讨论其实主要是他的不认输精神，本质上话题之间界限很模糊。今天我专门从知乎上采集了 大学生创业、学术圈 两种数据源。

运行

我们假设现在数据在采集或者保存过程中，丢失了话题类别的标注。但是我们知道数据大概有四类，按照话题数等于2去做话题分析，理论上应该能区分开。整个 df['content'] 作为我们研究的语料库，语料库中的每一行数据是一个文档。

运行

预处理

数据预处理是文本分析的开始，也是最重要最费功夫的地方。上面的数据我们看到有很多html标签，在这部分我们将剔除非中文字符，只保留中文。而且要保证进入语料库中的文本是长文本（比如在这里我们只要长度大于20的文本保留到语料库中）。

将非汉字替换为""

运行

语料库中可能因为剔除非中文后，内容已经非常简短，为防止短文本进入语料库，我这里设置长度大于10的才能进入语料库中。我比较喜欢dataframe.agg方法来做一些数据操作，不熟悉的童鞋可以看使用Pandas更好的做数据科学，里面有详细的介绍。

生成文档词频矩阵

做文本分析，尤其是涉及到sklearn机器学习。我们需要将中文文本数据整理成sklearn能懂的形式，因为sklearn最初只是为西方语言设计的，而西方文本中的单词是以空格间隔，而中文是所有的字词没有空格间隔。所以我们需要设计一个文本清洗函数：

先分词
剔除无意义词语和长度小于2的词语
之后用空格间隔词语

运行

创建LDA话题模型

在这里我们使用sklearn生成LDA话题模型，一般做LDA时我们都有对研究数据有大致的了解。像我知道数据包含两类（大学生创业、学术圈），所以这里我们将话题数设置为n_components=2

运行

pyLDAvis可视化

最后，我们使用 pyLDAvis库 进行话题的可视化。该库可以交互式的显示不同话题，及每个话题的相关词语。

导入模型方法

可视化方法

执行下方可视化代码

手把手教你学会 LDA 话题模型可视化 pyLDAvis 库

pyLDAvis可以进行参数微调，在上面的动态图我调整了lambda参数，词语的权重就发生了变化。综合图中的特征词分布来看，话题1是学术圈话题，话题2是大学生创业。

往期文章

Python系列课（爬虫、文本分析、机器学习）

致敬褚先生：pyLDAvis可视化不认输的一生

将excel中某一列拆分为多个列

【工具篇】如何用Google Colab高效的学习Python

爬虫实战：抓取知乎问题“大学生如何赚到一万元”

小demo：对德文数据进行文本分析

使用Python制作WORD报告

使用Pandas、Jinja和WeasyPrint制作pdf报告

如何让python代码显示进度信息？

PySimpleGUI: 开发自己第一个软件

100G 文本分析语料资源（免费下载）

文件腾转挪移操作，那都不是事儿

在微信后台回复 lda可视化 ，即可获得本项目代码

你看到这里，你懂得手把手教你学会 LDA 话题模型可视化 pyLDAvis 库

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

大转换

尼古拉斯·卡尔 / 闫鲜宁、张付国 / 中信 / 2016-2 / 49

1、我们这个时代最清醒的思考者之一尼古拉斯·卡尔继《浅薄》《玻璃笼子》之后又一重磅力作。 2、在这部跨越历史、经济和技术领域的著作中，作者从廉价的电力运营方式对社会变革的深刻影响延伸到互联网对我们生活的这个世界的重构性影响。 3、《快公司》《金融时报》《华尔街日报》联袂推荐简介早在2003年，尼古拉斯·卡尔先生发表在《哈佛商业评论》上的一篇文章——IT Doesn't ......一起来看看《大转换》这本书的介绍吧!

码农工具

手把手教你学会 LDA 话题模型可视化 pyLDAvis 库

pyLDAvis安装

一、pyLDAvis使用方法

导入模型语法

导入的语法

参数解读：

可视化语法

二、实战

数据读取

预处理

生成文档词频矩阵

创建LDA话题模型

pyLDAvis可视化

往期文章

大转换

HTML 压缩/解压工具

XML 在线格式化

HEX HSV 转换工具