内容简介:python数据分析于实现,单样本体检验、独立样本体检验、相关分析、列联表分析!
1、假设检验
做出一个假设,去验证。
需要设定置信度,如95%
两类错误:
两类错误是概率
原假设一般为等式。
样本量的影响:
步骤:假设—置信度—收集数据—计算p值判断
T检验
拒绝域和接受域。
单样本T检验,没有数据,这个课程没有数据,很遗憾,一会在找数据从新做一遍!
两变量
男生和女生的月均支出是否有差异?
方差是否相等?F检验!
开始,t统计量!
数据说明,目的为筛选变量
方差分析
教育程度对信用卡支出是否有差别?
总变异说明:
组内变异:
组间变异:
自己理解:总变异:(单个样本的均值 -总体样本的均值)的平方和
组内变异: 这个组(样本的值- 这个样本所在组的均值)的平方和 + 另一组(样本的值- 这个样本所在这个组的均值)平方和
组间变异:(每个组的均值-总体的平均值)的平方和
我能理解,别人能不能理解我不知道,看实例很容易理解!
F统计量
要求,这些要达到
数据要求,按一列一列的,所以创建这个数据,然后用F_onewasy()函数去实现!后面的值就是p值。
这是利用statsmodels去实现也能得到方差分析的结果
多因素方差分析
r方
做个线性回归就出来:
加上交互项
两连续变量!
相关分析:
散点图:看是否线性。是否相关。先大概看看!
相关系数介绍,用最多pearson。
相关系数的计算
相关系数与相关性之间关系
相关系数的检验
看看代码:
散点图
计算相关系数
一般不去相关系数的可信度,只要样本量足。
分类和分类的比较
分类变量相关关系
列联表分析
经理脾气和天气是否相关:无
有相关:
违约与破产之间的分析,行轮廓是比较列
列轮廓是比较行 如果相差不大,就说明影响不大。这是比较粗糙的分析。不严谨!
用稍微严谨的方法:
假设检验
卡方检验1:
卡方检验2:
python的实现:
这是频率表!
数据是一个交叉表:
以上都是总体为正太分布的。。。。。。。
注意一下 :非正态可以考虑变成正太分布。
:样本量不可太小,但是也不能太大。这个公式 上下都有N,样本量大了会影响统计量T的变化!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
编程原本
Alexander Stepanov、Paul McJones / 裘宗燕 / 机械工业出版社华章公司 / 2012-1-10 / 59.00元
本书提供了有关编程的一种与众不同的理解。其主旨是,实际的编程也应像其他科学和工程领域一样基于坚实的数学基础。本书展示了在实际编程语言(如C++)中实现的算法如何在最一般的数学背景中操作。例如,如何定义快速求幂算法,使之能使用任何可交换运算。使用抽象算法将能得到更高效、可靠、安全和经济的软件。 这不是一本很容易读的书,它也不是能提升你的编程技能的秘诀和技巧汇编。本书的价值是更根本性的,其终极目......一起来看看 《编程原本》 这本书的介绍吧!