当前位置:网站首页>机器学习预备知识:分类与回归
机器学习预备知识:分类与回归
2022-07-15 10:35:00 【不一样的崽】
分类、回归问题的不同
首先解释一下回归问题,分类问题的不同点。回归问题预测的结果是连续的值,而分类问题的预测结果是离散的。拿支持向量机举个例子,分类问题和回归问题都要根据训练样本找到一个实值函数g(x). 回归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。综上,回归问题和分类问题的本质一样,不同仅在于他们的输出的取值范围不同。分类问题中,输出只允许取两个值;而在回归问题中,输出可取任意实数。
分类预测建模
分类预测建模是将输入变量(X)到离散输出变量(y)的映射函数(f)近似的任务。
输出变量通常称为标签或类别。映射函数预测给定观察的类别或类别。
例如,可以将文本电子邮件分类为属于两个类别之一:“垃圾邮件”和“ 非垃圾邮件 ”。
- 分类问题要求将示例分为两个或更多个类中的一个。
- 分类可以具有实值或离散输入变量。
- 两个类的问题通常被称为两类或二元分类问题。
- 两个以上类的问题通常被称为多类分类问题。
- 为示例分配多个类的问题称为多标签分类问题。
分类模型通常将连续值预测为属于每个输出类的给定示例的概率。概率可以被解释为属于每个类的给定示例的可能性或置信度。通过选择具有最高概率的类标签,可以将预测概率转换为类值。
例如,特定的文本电子邮件可以被指定为0.1的概率为“垃圾邮件”而0.9为“非垃圾邮件”。我们可以通过选择“非垃圾邮件”标签将这些概率转换为类别标签,因为它具有最高的预测可能性。
有许多方法可以估计分类预测模型的技能,但最常见的可能是计算分类准确性。
分类准确度是所有预测中正确分类的例子的百分比。
例如,如果分类预测模型做出5个预测,其中3个是正确的,其中2个是不正确的,那么基于这些预测的模型的分类准确性将是:
1 2 3 | accuracy = correct predictions / total predictions * 100 accuracy = 3 / 5 * 100 accuracy = 60% |
能够学习分类预测模型的算法称为分类算法。
回归预测建模
回归预测建模是将输入变量(X)的映射函数(f)近似为连续输出变量(y)的任务。
连续输出变量是实数值,例如整数或浮点值。这些通常是数量,例如数量和大小。
例如,可以预测房屋可以出售特定的美元价值,可能在100,000美元到200,000美元的范围内。
- 回归问题需要预测数量。
- 回归可以具有实值或离散输入变量。
- 多输入变量的问题通常被称为多元回归问题。
- 输入变量按时间排序的回归问题称为时间序列预测问题。
由于回归预测模型预测数量,因此必须将模型的技能报告为这些预测中的错误。
有许多方法可以估计回归预测模型的技能,但最常见的可能是计算均方根误差,缩写为缩写RMSE。
例如,如果回归预测模型做出2个预测,其中1.5个预期值为1.0,另一个预测值为3.3,预期值为3.0,那么RMSE将为:
1 2 3 4 5 | RMSE = sqrt(average(error^2)) RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2) RMSE = sqrt((0.25 + 0.09) / 2) RMSE = sqrt(0.17) RMSE = 0.412 |
RMSE的一个好处是误差分数的单位与预测值的单位相同。
能够学习回归预测模型的算法称为回归算法。
一些算法在其名称中使用“回归”一词,例如线性回归和逻辑回归,这可能会让事情变得混乱,因为线性回归是一种回归算法,而逻辑回归是一种分类算法。
分类与回归
分类预测建模问题与回归预测建模问题不同。
- 分类是预测离散类标签的任务。
- 回归是预测连续数量的任务。
分类和回归算法之间存在一些重叠; 例如:
- 分类算法可以预测连续值,但是连续值是类标签的概率的形式。
- 回归算法可以预测离散值,但是以整数量的形式预测离散值。
一些算法可用于分类和回归,只需很少的修改,例如决策树和人工神经网络。一些算法不能或不能容易地用于两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。
重要的是,我们评估分类和回归预测的方式各不相同,并且不重叠,例如:
- 可以使用准确度评估分类预测,而回归预测则不能。
- 可以使用均方根误差来评估回归预测,而分类预测则不能。
在分类和回归问题之间转换
在某些情况下,可以将回归问题转换为分类问题。例如,要预测的数量可以转换为离散桶。
例如,$ 0到$ 100之间连续范围内的金额可以转换为2个桶:
- 0级:0美元到49美元
- 1级:50美元到100美元
这通常称为离散化,结果输出变量是标签具有有序关系(称为序数)的分类。
在某些情况下,分类问题可以转换为回归问题。例如,标签可以转换为连续范围。
一些算法已经通过预测每个类的概率来实现这一点,而每个类又可以缩放到特定范围:
1 | quantity = min + probability * range |
或者,可以对类值进行排序并映射到连续范围:
- 1级$ 0到$ 49
- 2级$ 50至$ 100
如果分类问题中的类标签不具有自然序数关系,则从分类到回归的转换可能导致令人惊讶或差的性能,因为模型可能学习从输入到连续输出范围的错误或不存在的映射。
用数学的方法解释:







边栏推荐
- node 连接数据库进行增删改查
- C语言实现简单扫雷游戏(二维数组)
- STM32 application development practice tutorial: application development of environmental temperature and humidity monitoring
- Calculation method engineering mathematics first lesson Doolittle
- nosql概述
- Staff information management system -- program design
- 持久化分析
- Today's sleep quality record is 80 points
- 基於機器學習的笑臉檢測
- Cloud native: docker practical experience (III) deploy MySQL 8 master-slave replication on docker
猜你喜欢

redis持久化——rdb

【C数据的存储】
![[latex Chinese and English style & Bold] freely choose Chinese and English font styles, and set the bold and black degree of Chinese and English fonts](/img/36/db868e14b32b9f42c7c0dd9187d6a8.png)
[latex Chinese and English style & Bold] freely choose Chinese and English font styles, and set the bold and black degree of Chinese and English fonts

51单片机串口波特率(保留一下以后就不用到处找了)

Redis persistence - RDB

数据传输:同构异IP数据源批量抽取实践

Introduction to redis

TCP/IP协议常见漏洞类型

After writing a paper in 2 hours, why gpt-3 doesn't deserve a name?
![[C exercise] print 'x' graphics](/img/4a/d9b69b787bf585b4786b2074063370.png)
[C exercise] print 'x' graphics
随机推荐
STM32 application development practice tutorial: application development of environmental temperature and humidity monitoring
【HCIA】数通网络基础
Matlab底层源代码实现Halcon scale_image_max算子效果
Realization of greedy snake in C language
阿同的小心愿
Matlab low-level source code realizes Prewitt edge detection and Sobel, Laplace edge detection (the implementation effect is consistent with Halcon)
树莓派远程 桌面显示不全
Data Lake (19): SQL API reads Kafka data and writes it to iceberg table in real time
【C 练习】倒序字符串
今日睡眠质量记录80分
云小店商城源码修复30套模板支持一键对接各大系统
STM32应用开发实践教程:环境光照强度监测的应用开发
STM32应用开发实践教程:环境温湿度监测的应用开发
网络安全(2)
C. K-beautiful Strings
What designs are needed in the architecture to build a general monitoring and alarm platform
2021-09-18
input仅允许输入英文、中文及其他各种符号文字
Codeforces Round #806 (Div. 4)
Staff information management system -- program design