当前位置:网站首页>【机器学习 - 决策树】信息增益
【机器学习 - 决策树】信息增益
2022-07-16 03:20:00 【想变厉害的大白菜】
一、理解信息增益
几个概念:
熵:表示随机变量的不确定性。
条件熵:在一个条件下,随机变量的不确定性。
信息增益:熵 - 条件熵。信息增益代表了在一个条件下,信息不确定性减少的程度。
例子:
通俗地讲,X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。X的熵减去Y条件下X的熵,就是信息增益。
具体解释:原本明天下雨的信息熵是2,条件熵是0.01(因为如果知道明天是阴天,那么下雨的概率很大,信息量少),这样相减后为1.99。在获得阴天这个信息后,下雨信息不确定性减少了1.99,不确定减少了很多,所以信息增益大。也就是说,阴天这个信息对明天下午这一推断来说非常重要。所以在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键,决策树就是这样来找特征的。
二、信息增益在决策树算法中的应用
在决策树算法的学习过程中,信息增益是特征选择的一个重要指标,它定义为一个特征能够为分类系统带来多少信息,带来的信息越多,说明该特征越重要,相应的信息增益也就越大。
前面我们说,信息增益代表了在一个条件下,信息不确定性减少的程度。
那么我们现在也很好理解了,在决策树算法中,我们的关键就是每次选择一个特征,特征有多个,那么到底按照什么标准来选择哪一个特征。这个问题就可以用信息增益来度量。如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。
参考链接
边栏推荐
- 一个优秀的智慧展厅应该具备哪些能力
- 19th week homework
- Use of resttemplate
- 社区峰会|Pulsar Summit 旧金山峰会议题亮点曝光!
- Iptables port forwarding
- 安装g2opy框架
- 添加右键新建Markdown文件
- 打工人打工魂!销售分析案例来啦!
- Kingbasees SQL language reference manual of Jincang database (3.1.2. domain type)
- Mysql5.7创建用户错误:ERROR 1364 (HY000): Field ‘ssl_cipher‘ doesn‘t have a default value解决方法
猜你喜欢

股价跌穿!慕思这是要为“智商税”买单了吗?

ES6 browser support and running environment support detection and ES6 transcoding Es5

ReversingKr-wp(4)

hcip第五天筆記

Pytoch -- error reporting solution: runtimeerror: expected all tensors to be on the same device, but found at least two

Theoretical basis of zoom tracking

【剑指 Offer】从尾到头打印链表(栈思想)+ 数组中重复的数字(哈希映射)

变焦跟踪理论基础

Network protocol -- concept and function analysis of seven layer, five layer and four layer protocols

EFCore——Entry和Attach
随机推荐
Pytoch -- error reporting solution: runtimeerror: expected all tensors to be on the same device, but found at least two
【RT-Thread】nxp rt10xx 设备驱动框架之--uart搭建和使用
Kingbasees SQL language reference manual of Jincang database (2. Introduction to kingbasees SQL)
金仓数据库 KingbaseES SQL 语言参考手册 (3.1.1.6. 布尔类型、3.1.1.7. 位串类型)
Mgre/ospf comprehensive experiment
Decompression error -- error: entry too big to split, read, or write (poor compression result in unexpectedly large
Use of resttemplate
今日份工作感悟
简述memcached的工作原理
洛谷_P3383 【模板】线性筛素数_欧氏筛筛素数
HMS Core图形图像技术展现最新功能和应用场景,加速构建数智生活
es查询案例
STL小知识点
[today in history] July 15: Mozilla foundation was officially established; The first operation of Enigma cipher machine; Nintendo launches FC game console
金仓数据库 KingbaseES SQL 语言参考手册 (3.1.1.12. XML类型)
ReversingKr-wp(4)
Jincang database kingbasees SQL language reference manual (3.1.1.10. text search type, 3.1.1.11. UUID type)
【编程强训10】井字棋+密码强度等级
工作方法记录
解决pycharm无法输入中文的方法: