当前位置:网站首页>机器学习09:无监督学习
机器学习09:无监督学习
2022-07-17 03:25:00 【非妃是公主】
无监督学习基础知识
提及无监督学习,我们首先会想到聚类。聚类跟分类的区别在于训练样本的类标记是未知的。
所谓聚类就是将对物理或抽象对象的集合分组成为由类似的对象组成的多个簇的过程。
聚类生成的组称为簇,簇是数据对象的集合。簇内部的任意两个对象之间具有较高的相似度,而属于不同簇的两个对象之间具有较高的相异度。
相似度和相异度可以根据描述对象的属性值来计算,对象间的距离是最常采用的相异度度量指标。相似度与相异度通常成反比函数关系。
聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也可作为分类等其他学习任务的前驱过程。
比如,在一些商业应用中需对新用户的类型进行判别,但定义用户类型对商家来说却可能不太容易,此时往往可先对用户数据进行聚类,然后再根据聚类结果将每个簇定义为一个类,最后再基于这些类训练分类模型,用于判别新用户的类型。
基于不同的学习策略,人们设计出多种不同类型的聚类算法,很难对这些聚类算法提出一个简洁的分类。大体上,主要的聚类算法可以分为如下五类:
1)基于划分的方法:
2)基于层次的方法:
3)基于密度的方法:
4)基于网格的方法:
5)基于模型的方法:
下面就基于划分的方法做一个简单的介绍。简单说,基于划分的方法就是采用目标函数最小化的策略,通过迭代把数据对象划分成K个组,每个组为一个簇。
基于划分的方法需要满足如下两个条件:
1)每个分组至少包含一个对象;
2)每个对象属于且仅属于某一个分组。
基于划分的方法主要包括K均值(k-means) 聚类算法及其变种:K众数(k-modes) 、K原型(k-rototypes) 、K中心点(k-medoids) 、以及K分布(k-distributions) 。
K均值聚类算法




K均值聚类算法变种
K众数算法

K原型算法

K中心点算法

K分布算法

划分簇的过程中相当于增加了随机性,原来是生成K个随机数(随机选择K个点作为初始中心点,随机数为K),现在生成N个随机数(每个点都要随机选一个簇,随机数为N)

K均值聚类算法的理解



边栏推荐
- 7.16 simulation summary
- Tutorial: Adaptive Replication and Partitioning in Data Systems
- 【数据库】期末必知必会-----第十二章 数据库恢复
- IDEA配置SFTP,SSH非常方便的部署以及定位错误日志
- 2022 Yangtze River Delta mathematical modeling: Gearbox Fault Diagnosis
- 第2章——创建与维护MySQL数据库
- [Paper Abstract] screenshots of methods for recording abstracts of interest and papers in special fields.
- Accumulation of natural language processing knowledge points
- Wechat online education video on demand learning applet graduation design (3) background function
- 小程序畢設作品之微信在線教育視頻點播學習小程序畢業設計(3)後臺功能
猜你喜欢

超视频时代,数据洪峰何解?

【黄啊码】MySQL入门—5、数据库小技巧:单个列group by就会,多个列呢?

小程序毕设作品之微信电子书阅读小程序毕业设计(5)任务书

可省近90%服务器,反欺诈效率却大增,PayPal打破「AI内存墙」的方案为何如此划算?

无心剑汉英双语诗005.《抒怀》

英特尔专家分享:如何在XPU架构上高效编程?丨至强研究所
![[Paper Abstract] screenshots of methods for recording abstracts of interest and papers in special fields.](/img/61/aeda90fd5c5a055ea8032027aa7a98.png)
[Paper Abstract] screenshots of methods for recording abstracts of interest and papers in special fields.

小程序毕设作品之微信电子书阅读小程序毕业设计(4)开题报告

Sword finger offer 60 Points of N dice

如何使用谷歌地球客户端及kml下载
随机推荐
GNN系列 GCN简述 推导理解 及 DGL 源码解析
Chapter 1 performance platform godeye source code analysis - overall architecture
小程序毕设作品之微信电子书阅读小程序毕业设计(7)中期检查报告
JS array processing [slice implements the deletion, insertion and replacement of arrays]
Redis Data Migration Method III
Frrouting use
关于数据库的问题,唯一和非重复的概念
Workload-Aware Performance Tuning for Autonomous DBMSs
Why do more and more people choose to live a "low life"?
寻找数组的中心下标
XDC 2022 Intel 技术专场:英特尔软硬件技术构筑云计算架构基石
Idea configures SFTP and SSH, which is very convenient to deploy and locate error logs
Wechat online education video on demand learning applet graduation project (4) opening report
baddy:初始化内存域
Redis data migration: Method 2 AOF
Digital twinning - Chapter 2, digital twinning Technology
厲害,竟然把VSCode玩成了IDEA的效果,有點哇塞
Chapter 4 performance platform godeye source code analysis - monitoring module
[database] must know at the end of the term ----- Chapter 6 experiment
IDEA及控制台 设置管理员权限