内容简介:本笔记以秦路老师的文章「初入数据分析的大门,笔记大部门的知识模块以阅读原资料总结、整理而得,难免有理解偏差、错误的地方。若有不正当的解释,还望朋友不吝指教!
本笔记以秦路老师的文章「 如何七周成为数据分析师 」为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记,主要目的是检验自己的学习效果和日常复习之需。
初入数据分析的大门,笔记大部门的知识模块以阅读原资料总结、整理而得,难免有理解偏差、错误的地方。若有不正当的解释,还望朋友不吝指教!
更新进度
- 2018.09.29:完成初稿,形成笔记的整体框架。
学习框架
-
整体框架
:本笔记以秦路老师的文章「 如何七周成为数据分析师 」为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记。 -
数学部分
:数据分析,离不开数学。关于学习资料的选择,这里推荐盛骤老师的《概率论与数理统计·第4版 》和张宇老师的 《 带你学概率论与数理统计·浙大四版 》。
由于自己数学基础差,故选择了
大学教材
和考研辅导书
,希望借以习题辅导书复习教材内容,以短时间获得最大成效比。 -
统计部分
:很遗憾对此部分知识不了解,同时也是自身后期需要强化学习的模块。 -
数据库部分
:在秦路老师的文章中,数据库部分侧重 SQL ( 结构化查询语言 ) 的讲解,语言学习核心的一点:理解、多写、多练
。当然,数据库的知识不仅如此,有兴趣的朋友可继续参阅书籍《数据库系统概念》$^{[1]}$,即以数据库工程师的角度出发,从需求分析到数据库维护的流程化学习过程。- :book: Abraham Silberschatz. 数据库系统概念. 机械工业出版社
- :book: 福达(Ben Forta). SQL 必知必会. 人民邮电出版社
- :memo: W3CSchool SQL 教程 & 练习题
- :memo: LeetCode SQL 练习题
-
编程部分
:主导 Python 语言。由于篇幅的缘故,该部分内容已转移至另一篇博文 Python 3 入门系列教程 。
数据分析初体验
Excel:不考虑性能和数据量
-
[x] 掌握各类功能强大的函数 — 常见 Excel 函数
substotal datedif
-
[x] Excel 常用工具 — 数据分析:Excel 技巧大揭秘
-
格式转换
:自定义格式规范时间。2016/11/11 写成 yyyy/MM/dd
2016-11-11 23:59:59 写成 yyyy-MM-dd HH:mm:ss
-
分列
:分列功能可以将某一列按照特定规则拆分,常常用来进行数据清洗。 -
数据透视表
:数据透视表的核心思想是聚合运算,将字段名相同的数据聚合起来,所谓数以类分。列和行的设置,则是按不同轴向展现数据。简单说,你想要什么结构的报表,就用什么样的拖拽方式。
-
删除重复项
:一种数据清洗和检验的快速方式。想要验证某一列有多少个唯一值,或者数据清洗,都可以使用。 -
自定义下拉菜单
(数据有效性):数据有效性是一种约束,针对单元格限制其输入,也就是让其只能固定几个值。下拉菜单是一种高阶应用,通过允许下拉箭头即可。 -
查找公式错误
:公式报错也不知道错在哪里时候可以使用该功能,尤其是各类IF嵌套或者多表关联,逻辑复杂时。查找公式错误是逐步运算的,以方便定位。 -
分组和分级显示
:常用在报表中,在报表行数多到一定程度时,通过分组达到快速切换和隐藏的目的。 -
分析 工具 库
:分析工具库是高阶分析的利器,包含很多统计计算,检验功能等工具。Excel是默认不安装的,要安装需要加载项,在工具菜单下(不同版本安装方式会有一点小差异)。分析工具库是统计包,如随机数发生器、排位与百分比排位、回归、抽样、t-检验等。
-
-
[x] Excel 实战教程 — 数据分析:手把手教你Excel实战
-
明确目的
- 数据用来解决什么问题?
- 汇总统计制作报表?
- 数据可视化,作为一张信息图?
- 验证某一类业务假设?
- 提高某一个指标的KPI?
-
观察数据
-
数据有无缺失值
- 某一字段缺失数据较多,要考虑是否删除该字段(超过 50% 即没有业务意义了)
- 数据是否一致化
- 数据是否有脏数据:乱码,错位,重复值,未匹配数据,加密数据
- 数据标准结构
-
数据有无缺失值
-
数据清洗:结合
观察数据
阶段完成的工作,对数据进行预处理操作
。 -
分析过程
- 数据透视表
-
明确目的
- 单元格格式:数据分析师会和各种数据类型打交道,包括各类 timestamp,date,string,int,bigint,char,factor,float 等。
- 了解中文编码:UTF-8、GBK、ASCII 码。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 数据分析的三大框架:底层技术、分析建模、工具选择
- Nfstream:一款易于扩展的网络数据分析框架
- 记一次安全培训中对Yii框架数据库操作层若干接口安全性分析的总结
- 数据分析是什么,如何完善数据分析知识体系
- 大数据分析工程师入门(二十):数据分析方法
- 蚂蚁数据分析平台的演进及数据分析方法的应用
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Web Design Handbook
Baeck, Philippe de 编 / 2009-12 / $ 22.54
This non-technical book brings together contemporary web design's latest and most original creative examples in the areas of services, media, blogs, contacts, links and jobs. It also traces the latest......一起来看看 《Web Design Handbook》 这本书的介绍吧!