内容简介:大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。
在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。 惊奇的是使用 Python 最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有 经济学、管理学、会计学、社会学、传播学、新闻学 等等。
大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:
-
数据的获取
-
文本(非结构化)数据的处理与分析
数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。 本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。 课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。
课程目录
第一节 简介
课程介绍
课程知识点分布
第二节 环境配置
Mac环境配置
Windows环境配置
pip安装问题解决办法
jupyter notebook使用方法
第三节 python基本语法
python跟英文一样也是一门语言,这很文科
字符串
列表
元组
字典
集合
if条件语句
for循环语句
try-except异常处理语句
第四节 python高级语法
切片-对想要的数据字段进行切片
列表推导式
函数
csv文件存储库
os文件路径操作库
re正则表达式(文本分析利器)
python初学者常见错误
第五节 网络爬虫原理
理解访问与请求
寻求网址规律
开发者 工具 的使用
requests访问库
pyquery网页解析定位库
第六节 网络爬虫实战
静态网站-天涯论坛
静态网站-大众点评
静态网站-boss直聘
动态网站-百度企业信用
动态网站-京东评论
动态网站-B站弹幕
动态网站-B站评论
如何用pandas采集网页中的表格数据
第七节 初识文本分析
如何从不同格式的文件中读取数据
jieba分词、词频统计与可视化
海量公司年报的情感分析(中文)
英文数据的情感分析
如何对excel、csv文件做数据分析(pandas数据分析库)
第八节 文本分析与机器学 习
机器学习概论
用机器学习做文本分析的步骤
机器学习库scikit-learn
文本特征工程(描述数据的方式)
在线评论情感分类
了解聚类Kmeans算法
文本相似度计算
LDA话题模型
计算消费者异质性(特征向量)
文本分析在经管研究中的应用案例
相关文献
了解文本分析在经管研究中使用情况,可以参考
-
沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19
-
Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics
-
Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing (2019): 0022242919873106.
-
孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.
-
王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.
-
Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.
-
Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.
课程地址
长按二维码或点击下方原文链接
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- Python网络爬虫与文本数据分析
- Python网络爬虫与文本数据分析(视频课)
- 倒计时 | Python网络爬虫与文本数据分析
- 一次即兴的爬虫经历:A站B站数据分析实战
- Python网络爬虫实战:根据天猫胸罩销售数据分析中国女性胸部大小分布
- cdfang-spider:成都房协网爬虫,可视化数据分析
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Fluent Python
Luciano Ramalho / O'Reilly Media / 2015-8-20 / USD 39.99
Learn how to write idiomatic, effective Python code by leveraging its best features. Python's simplicity quickly lets you become productive with it, but this often means you aren’t using everything th......一起来看看 《Fluent Python》 这本书的介绍吧!
HTML 编码/解码
HTML 编码/解码
RGB HSV 转换
RGB HSV 互转工具