当前位置:网站首页>二分类学习推广到多分类学习
二分类学习推广到多分类学习
2022-07-17 12:38:00 【tt丫】
入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。
目录
一、主要思想
拆解法——将多分类任务拆为多个二分类问题进行求解。
经典拆分策略有:一对一,一对其余,多对多
二、一对一(OvO)
假定总共有N个类别,我们随机选两个类别来进行二分类学习,那么一共有
种组合,即产生
个二分类的分类器。最后的预测结果则由这
个分类器的结果进行投票得出。
三、一对其余(OvR)
1、方法阐述
假定总共有N个类别,我们随机选一个类别作为正例,其余作为反例来进行二分类学习,产生N个二分类的分类器。最后的预测结果则由这N个分类器的结果进行投票得出(选择最大置信度的那个类别)。
2、与OvO的对比
(1)OvO的存储开销和测试时间比OvR大
(2)OvR的每个分类器都用了全部的样本,OvO的每个分类器仅用到两个类别的样本。
(3)预测性能的区别需要看具体的数据分布,多数情况下两者效果差不多。
四、多对多(MvM)
1、方法阐述
假定总共有N个类别,我们随机选若干个类别作为正例,其余作为反例来进行二分类学习。
MvM需要有特殊的设计。
常见的MvM技术——纠错输出码(ECOC)
2、ECOC
将编码思想引入类别拆分,并尽可能在解码过程中具有容错性。
基本工作流程:
(1)编码:对N个类别做M次划分,每次划分将一部分类别划分为正类,另一部分划分为反类,从而形成一个二分类训练集。这样就可以训练出M个二分类器。
(2)解码:M个分类器分别对测试样本进行预测分类,这些预测标记组成一个预测编码,将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。
具体过程阐述
类别划分通过编码矩阵指定。常见的编码矩阵形式有二元码和三元码。以下我们以二元码为例:

其中+1代表在分类器
下是正例,-1代表反例。 C代表类别。最后一行是最终得到的测试编码。
海明距离:两个合法代码对应位上编码不同的位数。
欧氏距离:对于C1:sqrt(0+4+4+4+0)=2√3 (C1行编码与测试样例的编码)
基于欧氏距离和海明距离:最终预测结果是C3。
特点:
(1)ECOC编码越长,纠错能力越强,但码长有一定的限制(组合数目的限制)—— 某个分类器若分错了,影响的程度随编码的增长而减弱。
(2)对于同等长度编码,任意两个类别之间的编码距离越远,则纠错能力越强。
五、python实现
详见逻辑回归(Logistic Regression)_tt丫的博客-CSDN博客_逻辑回归csdn
中的“逻辑回归的python实现”——函数参数选择决定多分类任务中的拆解方式
欢迎大家在评论区批评指正,谢谢~
边栏推荐
- 2022年全国最新消防设施操作员(中级消防设施操作员)模拟试题及答案
- NJCTF 2017messager
- Virtual CPU and memory in yarn (CDH)
- String类型函数传递问题
- 爱可可AI前沿推介(7.17)
- 【Unity技术积累】实现鼠标画线功能 & LineRenderer
- HCIA 静态综合实验报告 7.10
- R语言使用epiDisplay包的ordinal.or.display函数获取有序logistic回归模型的汇总统计信息(变量对应的优势比及其置信区间、以及假设检验的p值)、使用summary汇总统计
- R语言ggplot2可视化:使用ggpubr包的ggstripchart函数可视化点状条带图(dot strip plot)、设置add参数为mean_sd添加均值标准差竖线、设置error.plot
- R language uses LM function to build linear regression model, and uses subset function to specify the subset of data set to build regression model (uses subset function to filter the data subset that
猜你喜欢
随机推荐
顺序表的基本建立,以及增删改查的相关操作(c语言描述之顺序表)
Stream stream
SAP Fiori Launchpad 上看不到任何 tile 应该怎么办?
R language uses the ordinal of epidisplay package or. The display function obtains the summary statistical information of the ordered logistic regression model (the odds ratio and its confidence inter
华为防火墙认证技术
SAP ECC 和 S4HANA Material 物料库存管理的模型比较
Analysis of Web Remote Code Execution Vulnerability of Zhongke panyun-d module
通过中序遍历和前序遍历,后续遍历来构建二叉树
基于 koa2 + mysql 实现用户管理的 CRUD 代码实践
因果学习将开启下一代AI浪潮?九章云极DataCanvas正式发布YLearn因果学习开源项目
koa2 连接 mysql 数据库实现增删改查操作
Job: enter an odd number of 1-100
R language ggplot2 visualization: use the ggstripchart function of ggpubr package to visualize dot strip plot, and set the add parameter to mean_ SD add the mean standard deviation vertical line and s
【Makefile】关于makefile使用上的一些备忘
Bazel use tutorial to
R语言ggplot2可视化:使用ggpubr包的gghistogram函数可视化分组直方图、使用palette参数自定义分组直方图的条形边框颜色
R语言使用原生包(基础导入包、graphics)中的plot函数可视化散点图(scatter plot)
笔记本键盘失灵解决办法
SAP Fiori 的附件处理(Attachment handling)
Excel表格转换为Word表格,并且保留Excel表格中公式不发生变化
![[PostgreSQL] PostgreSQL 15 optimizes distinct](/img/18/5aaae76c1c269960defc7db8a9e63f.png)








