2019 Stata & Python 实证计量与爬虫分析暑期工作坊

栏目: Python · 发布时间: 4年前

内容简介:Stata & Python 实证前沿与爬虫分析2019年暑期工作坊1
2019 Stata & Python 实证计量与爬虫分析暑期工作坊

相约钱塘江畔,研讨经济计量

2019 Stata & Python 实证计量与爬虫分析暑期工作坊

Stata & Python 实证前沿与爬虫分析2019年暑期工作坊

1

工作坊信息

·  工作坊简介

为推动我国经济、统计等社会科学量化研究方法学习与应用,培养和训练社会科学相关领域的青年学者、硕博士研究生,促进社会科学相关领域研究方法科学化规范化,《 Stata & Python 实证前沿与爬虫分析暑期工作坊》提供一个高水平的学术交流、研究方法普及与研究经验分享的学术平台。工作坊采用模块式教学方法,不仅侧重经济、统计等社会科学量化基本方法的介绍,而且更加注重研究设计与研究选题训练,注重理论与实践相结合,培养学员的社会科学量化分析研究的综合能力。

经济学研究正经历大转型:最前沿研究越来越少依赖于个别脑力超群学者发展的数学模型,而更多取决于从不断增长的数据中挖掘真知灼见的能力 。克拉克奖60%的获得者后来都获得诺贝尔经济学奖,他们主要研究领域变化很大程度上反映经济学科发展趋势。1995年以前,80%获得者主要研究领域为理论,20%为实证。1996-2005年,主要研究领域为理论获奖者比例降至50%,主要研究领域为实证的获奖者比例增至50%。2006-2016年,只有33%获奖者主要研究领域为理论,其余67%均为实证。 克拉克奖获得者主要研究领域已由理论转为实证,经济研究前沿主要以数据来验证理论 ,较少出现新理论创新。

计算机的迅速发展,更加促进了以数据分析见长的计量经济学的发展。比如Stata软件功能日益强大,并不断开发新程序,以将 最常 用、最流行、最新计量方法推广应用,大幅提高数据分析效果 大数据时代到来,网络数据正成为潜在宝藏 ,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用 网络数据进行研究,面临两大难点-数据获取与文本分析 。数据获取需要借助 Python 编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。

前沿分析固然可能会给你的Paper加分,但不理解其假设,也不知道如何检验假设?在假设得不到满足时也不知道如何用更高级方法去控制?那么会导致前沿方法的滥用!会使你的研究大为失色!为此, 邀请三位走在微观计量前沿和爬虫文本分析的学者,为青年教师、研究生们集中讲解前沿模型的基本思想、基于Stata和Python实操估计,并就研究设计、论文选题、国家课题申报等展开辅导和释疑,帮助大家了解数据采集和文本分析

本课程结合案例,将每部分中学到的知识通过实战方式加深各位对知识的理解,具有极强实用性,内容涵盖了数据分析比较重要和前沿的几个方面。例如江艇老师在前次寒假工作坊关于识别匹配的讲解,让学员有茅塞顿开的感觉;慧航老师与学员分享了最近几个月的最新研究。本次工作坊二位老师又有 新的讲解内容与大家分享,给学员带来可能未见或不熟悉的最新微观数据因果识别技术 。新加盟工作坊的邓老师乃活跃在 国内爬虫文本分析领域的青年学者,为学员带来新的爬虫文本分析技术 。根据形势发展需要,工作坊将继续根据各界反馈筹划新的论文撰写与课题申报等期次。

·  工作坊特色

方法应用为基 :讲解经济、统计、管理等科学量化前沿方法的机理与Stata & Python实操

经典论文复制 :讲解高质量经典论文如何使用前沿量化方法

突出研究设计 :突出量化方法和经典论文背后的精巧研究设计

强化互动交流 :强化讲师与学员之间的工作论文和研究计划交流

2

主讲嘉宾简介

江艇: 香港科技大学商学院经济学博士,中国人民大学经济学院副教授,人大国家发展与战略研究院研究员,人大微观数据与实证方法研究中心副主任,美国哥伦比亚大学商学院访问学者。主要研究领域为经济增长与发展、城市经济学、新政治经济学,在Economics Letters、Review of Development Economics、《经济研究》、《管理世界》、《世界经济》等国内外著名学术刊物上发表多篇论文。曾应邀在多所高校讲授“应用微观计量经济学”短期前沿课程,学员反响热烈。

司继春 (慧航): 上海对外经贸大学统计与信息学院助理教授,主要研究领域为微观计量经济学、产业组织理论。在 Journal of Business and Economic Statistics、《财经研究》等学术刊物上发表多篇论文。其实,大家更熟悉的是知乎上大名鼎鼎的[慧航],拥有 219,753 个关注者,获得过 110,578 次赞同,他就是司继春老师 —— [慧航]。

邓旭东(大邓): 哈尔滨工业大学(HIT)管理学院信息管理系统方向在读博士。曾在多所大学分享数据采集和文本分析培训课程,运营【公众号:大邓和他的Python】主要分享Python、爬虫、文本分析、机器学习等相关内容。

3

课程安排

Day 1  上午

主讲人:江艇

课程安排:《匹配方法(上)》

1、如何从反事实框架理解匹配方法?

2、匹配能解决内生性问题么?

3、匹配与OLS的区别何在?

4、为什么说匹配的本质是良好的控制?

5、匹配是一种估计方法还是一种数据预处理手段?

重点文献:Dale and Krueger (2002), Imbens (2015)等,Stata实操

Day 1  下午

主讲人:江艇

课程安排:《匹配方法(下)》

1、如 何选择协变量?

2、如何估计倾向得分?

3、如何删截样本?

4、如何构造匹配样本?

5、应该用协变量匹配还是倾向得分匹配?

重点文献:Aidt &Franck (2015), Dehejia and Wahba (1999, 2002)等, Stata实操

Day 2  上午

主讲人:江艇

课程安排:《双重差分方法(上)》

1、双重差分要求随机分组么?

2、如何根据不同的数据结构设定不同的估计方程? 

3、双重差分方法的威胁有哪些?

4、如何展示和解释结果?

5、如何进行稳健性分析?

重点文献:Card & Krueger (1994), Nunn & Qian (2011), Qian (2008)等,Stata实操

Day 2  下午

主讲人:江艇

课程安排:《双重差分方法(下)》、《合成控制方法》

1、双重差分方法与匹配方法的结合

2、半参数双重差分方法

3、模糊双重差分方法

4、单个处理组个体的合成控制方法

5、多个处理组个体的合成控制方法

重点文献:Abadie (2005), Abadie et al (2010), Abadie et al (2015), Acemoglu et al (2016), de Chaisemartin and D’HaultfŒuille (2018), Derrien and Kecskes (2013), Fowlie et al (2012)等, Stata实操

Day 3  上午

主讲人:司继春(慧航)

课程安排:《统计基础与机器学习》

1、条件期望的概念和应用

2、如何估计条件期望1:OLS

3、预测:过拟合、欠拟合与交叉验证

4、如何估计条件期望2:广义线性模型

5、离散选择模型:Probit、Logit回归与分类树

学习材料:Wooldridge(2010)、周志华(2016)等,Python等实操

Day 3  下午

主讲人:司继春(慧航)

课程安排:《外生性条件下的推断》

1、作为因果推断的OLS:控制变量与固定效应

2、作为因果推断的OLS:系数的解释

3、作为因果推断的OLS:标准误的估计与统计推断

4、计量经济学中的离散选择模型:理论基础与解释

5、面板数据:固定效应、随机效应、交互固定效应

6、面板数据离散选择模型介绍

学习材料:Wooldridge(2010)、Train(2009)等,Stata实操

Day 4  上午

主讲人:司继春(慧航)

课程安排:《内生性条件下的推断》

1、内生性问题:何时出现内生性?

2、 工具 变量法:两阶段最小二乘 

3、工具变量法:控制函数法

4、使用控制函数法解决非线性模型中的内生性

5、局部平均处理效应(LATE)

学习材料:Imbens and Angrit(1004)、Wooldridge(2010)等,Stata实操

Day 4  下午

主讲人:司继春(慧航)

课程安排:《非线性模型与结构模型前沿选讲》

1、样本选择模型

2、半结构的政策评价:充分统计量简介

3、需求估计:几乎完美的需求系统(AIDS)介绍

4、需求估计:离散选择模型

5、动态规划与动态离散选择模型(DDC)介绍

重点文献:Wooldridge(2010)、Train(2009)、Chetty(2009)、Deaton and Muellbauer(1980)、Rust(1987)等,Python & Matlab实操

Day 5  上午

主讲人:邓旭东(大邓)

课程安排:《Python基础语法》

1、Anaconda安装及使用;Jupyter notebook使用方法;第三方库安装方法

2、初识python(python语法)

3、数据结构(编程语言的单词)-list、str、dict、tuple、set

4、for循环、if逻辑 try-except (编程语言中的句法)

5、常用函数、常用库

Day 5  下午

主讲人:邓旭东(大邓)

课程安排:《数据采集-Python网络爬虫》

1、爬虫原理、设计思路;数据抓包(开发者工具使用方法)

2、网络访问库(requests、selenium);网页数据定位库-bs4、re

3、静态网站与动态网站区别

4、数据存储(txt,csv,json)

5 、案例

例1:(静态)抓取大众点评网酒店数据;

例2:(动态)淘宝商品商品信息

例3:selenium抓取百度企业信用

Day 6  上午

主讲人:邓旭东(大邓)

课程安排:《初识文本分析 》

1、文本分析应用场景;文件的读取(txt、pdf、docx等)

2、中文分词-jieba库;数据清洗-re、flashtext;pyecharts库制作词云图

3、数据分析-pandas库

4、可视化库-matplotlib/seaborn

5、案例

例1:词频统计

例2:excel文件中时间及文本数据处理方法

例3:共现法构建专业情感词典

例4:基于词典法进行情感计算

重点文献:王伟,陈伟,祝效国,王洪伟. 众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.管理世界.2016;5:81-98.

Day 6  下午

主讲人:邓旭东(大邓)

课程安排:《文本分析(数据分析)进阶》

1、监督学习与非监督学习

2、使用机器学习方法进行文本分析的方法和步骤

3、表达文本数据信息的方式(one-hot、bag-of-words、TF-IDF)

4、理解特征矩阵、语料、文档、特征

5、机器学习库 sklearn语法学习

6、协同过滤-推荐系统

7、案例

例1:lda话题模型实战

例2:文本分类实战

重点文献:Wang, Quan, Beibei Li, and Param Vir Singh. "Copycats vs. Original Mobile Apps: A Machine Learning Copycat-Detection Method and Empirical Analysis." Information Systems Research 29.2 (2018): 273-291.

4

课程概览

·    主办 杭州国商智库信息技术服务有限公司

·   时间:2019年7月13-18日

·   地点:浙江  ·  杭州 · 钱塘新区高教园区东区

·   主讲嘉宾:江艇;司继春(慧航);邓旭东(大邓)

·   授课内容 :Stata & Python 实证前沿与爬虫分析

5

报名信息

参加对象 全国高等院校及研究机构从事经济科学研究的青年教师。尤其适合那些希望掌握高级实证方法,提升量化研究设计能力和国家课题申报能力的研究者。

参会费用 4800元/人,可开具发票。交通与食宿费自理,提供 歌江维嘉大酒店 周边住宿信息,并协助安排附近校内就餐事宜。同一单位或机构三人九折,五人八折,同一单位十人七五折(同一税号单位),在校学生可凭学生证补贴折扣200元/人。

住宿安排: 工作坊签约四星级酒店,标间或大床房每天约350元,含自助早餐;或附近旅馆标间、大床房每天约200元。

报名时间: 从即日起( 按缴费顺序安排教室座位 )。

报名咨询 19817117852;18458247922

交通路线指南 :杭州东站搭乘地铁1号线 下沙江滨方向 (注意不要选择间隔的临 平方向 ),40分钟即达报到地点: 钱塘新区高教园区东区 27号大街301号(地铁1号线云水站旁)歌江维嘉大酒店 在萧山国际机场打的约半小时到达 钱塘新区高教园区东区 歌江维嘉大酒店

缴费信息

单位:杭州国商智库信息技术服务有限公司

开户银行: 中国银行杭州大学城支行

银行账户:6232636200100260588

特别提示: 为不影响各单位、老师、同学的日常工作和学习,工作坊安排在假期举办。如果一些机构暑假期间暂停财务工作,建议拟报名同学老师在之前办理相关事项,报到则可拿到发票,以免等到秋季开学办理而可能有所影响相关程序。

扫描下方二维码报名(请注明:单位—姓名),提供参 会人员个人信息、单位相关信息后缴费。

2019 Stata & Python 实证计量与爬虫分析暑期工作坊

下载报名材料:

链接:https://pan.baidu.com/s/1bjZUPwHYjAjM2XbcLIhH7Q 

提取码:d4zj 

2019 Stata & Python 实证计量与爬虫分析暑期工作坊

请扫码关注我们!


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

C++面向对象程序设计

C++面向对象程序设计

萨维奇 (Walter Savitch) / 周靖 / 清华大学出版社 / 2003-12 / 59.0

《C++面向对象程序设计》具备良好的编排体系,适合打算涉足编程领域的读者阅读,尤其适合大一学生。它最大的特色是Savitch教授最受欢迎的写作风格,这一风格非常适合初学者,能迅速引导他们开始编程实践。《C++面向对象程序设计》包括全面的习题、项目、编程提示、编程示例、编程陷阱以及有用的小结,以帮助初学者更清楚地了解C++。一起来看看 《C++面向对象程序设计》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换