当前位置：网站首页>Aperçu de l'apprentissage auto - supervisé

Aperçu de l'apprentissage auto - supervisé

2022-07-19 05:47:00 【Byzy】

Entrée sans étiquette,Apprendre unExpression de f(x) , Pour l'appliquer Plus efficace Résoudre les tâches en aval （Par exemple, classification：Avec f(x) Après représentation,Vous pouvez utiliser un classificateur linéaire）.

Étapes

Première étape：Apprendre un bon f(x) （Je ne sais pas quelle est la tâche en aval pour le moment.,C'est la différence entre l'apprentissage auto - supervisé et l'apprentissage semi - supervisé.）.

Deuxième étape：Utiliser f(x) EtPetite quantitélabelEt résoudre le problème de classification à l'aide d'un modèle linéaire.

Idées：Établissement d'un problème d'apprentissage supervisé par l'homme à l'aide d'une structure de données non étiquetées,Et ensuite résoudre le problème avec un apprentissage profond（Dans ce processus,Peut - être qu'il crée une expression interne utile pour la tâche suivante）.

Classification： L'apprentissage auto - supervisé est divisé en apprentissage génératif et en apprentissage comparatif. .

Apprentissage génératif

Générer des étiquettes manuelles pour prévoir , Apprendre à s'exprimer dans ce processus .

【Exemple】Reconnaissance numérique manuscrite

Première étape： Générer des étiquettes manuelles , Apprendre à exprimer

Tourner l'image à un angle （Par exemple: $0^{\circ},90^{\circ},180^{\circ},270^{\circ}$ ）, Étiquette manuelle avec angle de rotation .AvecConvNet Angle de rotation prévu .Et mettreheadEnlevez,Je l'ai.embedding（ f(x) ）.

Deuxième étape： Ajouter un en - tête de classification pour la reconnaissance manuscrite des chiffres （Classificateur linéaire）, Former cet en - tête de classification à l'aide de données réellement étiquetées .

Les résultats expérimentaux montrent que le classificateur linéaire est très efficace. .

Apprentissage comparatif

Trouver une expression qui rend les entrées similaires très similaires , Les entrées non similaires sont caractérisées par une faible similitude .

【Exemple1】 Application du traitement du langage naturel —— Trouver la bonne expression dans la phrase

Choisissez une phrase Et sa prochaine phrase x^+ （Échantillon positif; Penser que les phrases adjacentes ont des informations sémantiques similaires ）, Plus une phrase aléatoire x^- （Échantillon négatif; Les pensées et les phrases Il y a différentes informations sémantiques ）,Objectifs：

$\min_f E\left [ \log\left ( 1+e^{f(x)^Tf(x^-)-f(x)^Tf(x^+)} \right ) \right ]$

Est en fait de minimiser le produit intérieur de l'expression de phrases non contiguës （Similitude）, Maximiser le produit intérieur de l'expression des phrases adjacentes （ Ici, la fonction de perte est appelée perte de contraste ）.

【Exemple2】 Appliquer l'apprentissage par contraste aux images ——SimCLR

Lien vers le texte original：https://arxiv.org/pdf/2002.05709.pdf

（1） Utilisation accrue des données （Culture aléatoire&Zoom,random color distortion,random Gaussian blur） Créer deux vues connexes d'un graphique ： x_i,x_j （Générer un échantillon positif）;

（2）Utilisation de l'encodeur（Par exemple:ResNet）Je l'ai. h(x_i),h(x_j) ,Appeléembedding（Correspondant à f(x) ）;

（3）Utiliser une double coucheMLP（）Oui.Convertir en（Appeléprojection head）;

（4）Fonction de perte：

$\textup{sim}(z_i,z_j)$ Défini comme suit: z_i Et z_j Similitude cosinus de.Choisir Images pour 1- Oui.batch, Avec son élargissement à Images $\{x_i,x_i^+\}_{i=1}^N$ ,Calculer la matrice de similarité $S_{2N\times 2N}$ ,Parmi eux $s_{ij}=\exp(\textup{sim}(z_i,z_j))$ .

Éléments diagonaux $s_{ii}=e$ （ Chaque image a la plus grande similitude avec elle - même ）, Entre les autres échantillons positifs $s_{2i,2i+1}$ Pour se rapprocherNombre de（ La similitude de chaque image avec son extension est proche du maximum ）, Les autres endroits devraient être petits. .

$l_{ij}=-\log\frac{S_{ij}}{\sum_{k=1,k\neq i}^{2N}S_{ik}}$

Contient la matrice de similarité iNormalisation des lignes

$L=\frac{1}{N}\sum_{k=1}^N\frac{l_{2k-1,2k}+l_{2k,2k-1}}{2}$

Réduction au minimum de la somme des pertes entre les échantillons positifs ; $s_{ij}$ Et $s_{ji}$ TousEt $x_{j}$ Similitude, En théorie, ça devrait être pareil , Mais la normalisation ci - dessus conduit à la différence , Alors prenez la moyenne .

Quelques conclusions ：

（1） La composition élargie des données est importante （ Mélange de plusieurs options d'expansion , Plus que d'utiliser seulement 1 Le Programme d'expansion des semences fonctionne bien ）;

（2）Grandebatchsize Et de longues séances d'entraînement ;

（3） Introduction d'une double couche MLP（） Bon pour le résultat final .

原网站

版权声明
本文为[Byzy]所创，转载请带上原文链接，感谢
https://yzsam.com/2022/200/202207170508421494.html