Python网络爬虫与文本数据分析(视频课)

栏目: IT技术 · 发布时间: 4年前

内容简介:数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。课程内容

大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。 非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。 使用网络世界数据进行研究,面临两大难点:

  • 数据的获取

  • 文本(非结构化)数据的处理与分析

数据获取需要借助 Python 编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。 本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。 课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。

课程内容

第一部分 Python基础(2小时)

python跟英语一样也是一种语言

环境配置

jupyter notebook使用方法

数据类型-list、str、dict、tuple、set

for循环、if逻辑

try-except

常用函数

常用库

pip安装问题解决办法

常见错误

第二部分 网络爬虫(2小时)

网络爬虫原理

开发者 工具 使用

数据抓包

requests库

pyquery库

元素(数据)定位

数据存储(txt,csv)

案例1:天涯论坛

案例2:大众点评‍

案例3:BOSS直聘

案例4:百度企业信用

案例5:京东评论

案例6:网页上的表格数据

案例7:B站弹幕数据、评论数据

案例8: 从浪潮咨询批量下载上市公司公告pdf文件

第三部分 文本分析入门(2小时)

文本分析应用场景

txt、pdf、word等类型文件的数据读取

中文分词-jieba库

可视化-pyecharts库

英文通用情感词库-Harvard-IV4

英文金融会计领域情感词库Loughran&MCdonald

常见的中文情感词典

中文情感词典的构建及使用

数据分析-pandas库

案例1-词频统计

案例2-制作词云图

案例3-海量公司年报文本分析

案例4-使用情感词典进行情感计算

第四部分 文本分析进阶(2小时)

什么是机器学习

监督学习与非监督学习

使用机器学习进行文本分析的步骤

表达文本数据信息的方式(独热编码、词袋法、TF-IDF)

文本可读性计算

公司年报信息含量(标准信息与特有信息)计算思路

理解特征矩阵、语料、文档、特征

机器学习库-sklearn语法学习

了解协同过滤-推荐系统

案例1-在线评论情感分析

案例2-文本分类

案例3-LDA话题模型

案例4-计算消费者异质性信息

相关文献

了解文本分析在经管研究中使用情况,可以参考

  • 沈艳,陈赟,黄卓.文本大数据分析在经济学和金融学中的应用:一个文献综述[EB/OL].http://www.ccer.pku.edu.cn/yjcg/tlg/242968.htm,2018-11-19

  • Berger, Jonah, Ashlee Humphreys, Stephan Ludwig, Wendy W. Moe, Oded Netzer, and David A. Schweidel. "Uniting the tribes: Using text for marketing insight." Journal of Marketing (2019): 0022242919873106.

  • Loughran T, McDonald B. Textual analysis in accounting and finance: A survey[J]. Journal of Accounting Research, 2016, 54(4): 1187-1230. Author links open overlay panelComputational socioeconomics

  • 孟庆斌, 杨俊华, 鲁冰. 管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J]. 中国工业经济, 2017 (12): 132-150.

  • Cohen, Lauren, Christopher Malloy, and Quoc Nguyen. Lazy prices. No. w25084. National Bureau of Economic Research, 2018.

  • 王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.

  • Hansen S, McMahon M. Shocking language: Understanding the macroeconomic effects of central bank communication[J]. Journal of International Economics, 2016, 99: S114-S133.

  • Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.

购买方式

1. 长按下方二维码

2. 关注千聊公众号

3. 稍等几秒

4. 会弹出录播课购课链接

购课操作小视频在文章最底部

Python网络爬虫与文本数据分析(视频课)

(如失效,请加我微信372335839,备注"学校-专业-名字")


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

最优状态估计

最优状态估计

[美] D. 西蒙 / 张勇刚、李宁、奔粤阳 / 国防工业出版社 / 2013-5-1 / 68.00元

《最优状态估计——卡尔曼H∞及非线性滤波》共分为四个部分,全面介绍了最优状态估计的理论和方法。第1部分为基础知识,回顾了线性系统、概率论和随机过程相关知识,介绍了最小二乘法、维纳滤波、状态的统计特性随时间的传播过程。第2部分详细介绍了卡尔曼滤波及其等价形式,介绍了卡尔曼滤 波的扩展形式,包括相关噪声和有色噪声条件下的卡尔曼滤波、稳态滤波、衰减记忆滤波和带约束的卡尔 曼滤波等。第3部分详细介绍了H∞......一起来看看 《最优状态估计》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试