[机器学习]ID3决策树详细计算流程周志华机器学习笔记原创Excel手算方法

栏目: 编程工具 · 发布时间: 6年前

内容简介：1.11.2

1.用到的主要三条熵公式：

1.1 信息熵 详情见香农信息论概率越平衡事件所含有的信息量越大

1.2 条件熵 代表某一属性下不同分类的信息熵之和

[机器学习]ID3决策树详细计算流程周志华机器学习笔记原创Excel手算方法

1.3 信息增益 等于信息熵减去条件熵，从数值上，越大的信息增益在信息熵一定的情况下，代表条件熵越小，条件熵越小，即该分类下的不平衡性越大

[机器学习]ID3决策树详细计算流程周志华机器学习笔记原创Excel手算方法

2.西瓜数据集2.0的详细手算结点划分原创的Excel方法

zhonglihao 即本人原创的这个excel计算方法适合初学者理解计算过程，不会迷糊

西瓜数据集2.0 （版权来自周志华教授-《机器学习》）

表1
编号	色泽	根蒂	敲声	纹理	肚脐	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
11	浅白	硬挺	清脆	模糊	平坦	硬滑	否
12	浅白	蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否
14	浅白	稍蜷	沉闷	稍糊	凹陷	硬滑	否
15	乌黑	稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

step 1首先，统计每个属性下的分类计数，计算完可验证一下是否加起来的和等于17：

表2
属性计数表
色泽	根蒂	敲声	纹理	肚脐	触感
青绿 = 6	蜷缩 = 8	沉闷 = 5	清晰 = 9	凹陷 = 7	硬滑 = 12
乌黑 = 6	稍蜷 = 7	浊响 = 10	稍糊 = 5	稍凹 = 6	软粘 = 5
浅白 = 5	硬挺 = 2	清脆 = 2	模糊 = 3	平坦 = 4

step 2 然后，在分类下统计该分类的正例(是好瓜)和反例(不是好瓜)的计数，通过加起来确定是否等于属性分类的计数：

这样我们就可以去计算条件熵了

表3

属性子分类标签计数（是否好瓜是：否）

色泽

根蒂

敲声

纹理

肚脐

触感

青绿

6 = 3:3

蜷缩

8 = 5:3

沉闷

5 = 2:3

清晰

9 = 7:2

凹陷

7 = 5:2

硬滑

12 = 6:6

乌黑

6 = 4:2

稍蜷

7 = 3:4

浊响

10 = 6:4

稍糊

5 = 1:4

稍凹

6 = 3:3

软粘

5 = 2:3

浅白

5 = 1:4

硬挺

2 = 0:2

清脆

2 = 0:2

模糊

3 = 0:3

平坦

4 = 0:4

step 3 通过上表先计算每一个属性分类的信息熵（公式1），若信息熵中有正例或反例为0，则整个信息熵公式的计算值为0，可以对比一下上表和下表的值：

表4
计算属性下单个分类的信息熵
色泽	根蒂	敲声	纹理	肚脐	触感
青绿	蜷缩	沉闷	清晰	凹陷	硬滑
乌黑	稍蜷	浊响	稍糊	稍凹	软粘
浅白	硬挺	清脆	模糊	平坦

1	0.954434003	0.970950594	0.764204507	0.863120569	1
0.918295834	0.985228136	0.970950594	0.721928095	1	0.970950594
0.721928095	0	0	0	0

step 4 根据条件熵公式计算每个属性分类在该属性中的比例如青绿分类所示为6个青绿分类除以17个样本，其余的计算雷同：

表5
计算属性下分类除以所有样本的比例
色泽	根蒂	敲声	纹理	肚脐	触感
青绿	蜷缩	沉闷	清晰	凹陷	硬滑
乌黑	稍蜷	浊响	稍糊	稍凹	软粘
浅白	硬挺	清脆	模糊	平坦

6/17 = 0.352941176	0.470588235	0.294117647	0.529411765	0.411764706	0.705882353
0.352941176	0.411764706	0.588235294	0.294117647	0.352941176	0.294117647
0.294117647	0.117647059	0.117647059	0.176470588	0.235294118

step 5 将表5和表4的分类属性进行乘加运算即可得到属性下的条件熵：

例如条件熵（色泽） = 1 * 0.352941176 + 0.918295834 * 0.352941176 + 0.721928095 * 0.294117647 = 0.889

表6
计算条件熵
色泽	根蒂	敲声	纹理	肚脐	触感
0.889377381	0.854827587	0.856721113	0.616910649	0.708343764	0.991456057

step 6 回到西瓜数据表1，我们可以知道整个表的正反例的信息熵是

Ent = -（(8/17)*log2(8/17) + (8/17)*log2(8/17)）= 0.998

step 7利用全局信息熵减去表6中每一个属性的条件熵得到该属性的信息增益：

表7
计算信息增益
色泽	根蒂	敲声	纹理	肚脐	触感
0.108622619	0.143172413	0.141278887	0.381089351	0.289656236	0.006543943

如表7所示，可以得到每个属性的信息增益了，信息增益最大的属性将被用于作为这一层的结点，所以我们选择 纹理！纹理！纹理！重要的事情说三十遍 作为第一个结点，其余结点的计算雷同，把纹理属性去掉后，依照上述流程再做就可以了，不啰嗦。

观察数值可知此Excel计算得出的数值与周志华机器学习中的数值一致，整个计算过程也比较容易理解，不容易出错。

3.笔记1：为什么ID3要选择信息增益这个指标呢？

zhonglihao的定性回答：从第一层结点最终选择属性纹理可知，纹理属性中的三个分类的正反例基本都是最不平衡的，意味着选择纹理作为结点能够尽可能减少往后结点的判断数，减少分支和深度，使得整颗决策树的分类效率达到最大，大概是这么一回事，也是信息增益计算的初衷吧。

4.笔记2：剪枝处理

*剪枝处理有助于提升决策树的泛化能力

在未剪枝前先计算验证集的分类准确率 a，然后对某一结点进行裁剪，并把该结点固定为一个分类，观察剪枝后验证集的准确率是否有上升，若变好则确定裁剪，若变差，则保留该结点。

5.笔记3：连续值处理

对连续值进行排序后，于某一点割裂两边，并计算二分后的信息增益，取信息增益最大的分割点作为不等式判决值。

6.笔记4：缺失值处理

强制计算存在的分类属性信息增益，最后把信息增益乘以存在的属性数/总样本比例，加入了权重值。

以上所述就是小编给大家介绍的《[机器学习]ID3决策树详细计算流程周志华机器学习笔记原创Excel手算方法》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

如何不在网上虚度人生

[美] 肯尼思·戈德史密斯 / 刘畅 / 北京联合出版公司 / 2017-9 / 39.80元

我们平时上网多大程度上是浪费时间，多大程度是在学习、关心社会、激发创造力？我们真能彻底断网，逃离社交网络吗？手机把都市人变成一群电子僵尸，是福是祸？浏览记录就是我们将来的回忆录吗？文件归档属于一种现代民间艺术？不自拍、P图、发朋友圈，我还是我吗？美国知名概念艺术家戈德史密斯认为：上网绝不是浪费时间，而是一种创造性的活动。在本书中他以跨学科角度、散文式语言进行论证，涉及大众传播学、计算......一起来看看《如何不在网上虚度人生》这本书的介绍吧!

码农工具

[机器学习]ID3决策树详细计算流程周志华机器学习笔记原创Excel手算方法

1.用到的主要三条熵公式：

2.西瓜数据集2.0的详细手算结点划分原创的Excel方法

3.笔记1：为什么ID3要选择信息增益这个指标呢？

4.笔记2：剪枝处理

5.笔记3：连续值处理

6.笔记4：缺失值处理

如何不在网上虚度人生

CSS 压缩/解压工具

RGB转16进制工具

在线进制转换器

[机器学习]ID3决策树 详细计算流程 周志华机器学习 笔记 原创Excel手算方法

1.用到的主要三条熵公式：

2.西瓜数据集2.0的详细手算结点划分 原创的Excel方法

3.笔记1：为什么ID3要选择信息增益这个指标呢？

4.笔记2：剪枝处理

5.笔记3：连续值处理

6.笔记4：缺失值处理

如何不在网上虚度人生

CSS 压缩/解压工具

RGB转16进制工具

在线进制转换器

[机器学习]ID3决策树详细计算流程周志华机器学习笔记原创Excel手算方法

2.西瓜数据集2.0的详细手算结点划分原创的Excel方法