Sur le rôle de l'optimisation dans la double descente : Une étude des moindres carrés

Résumé :

On a observé empiriquement que les performances des réseaux de neurones profonds s'améliorent régulièrement lorsque l'on augmente la taille du modèle, ce qui contredit la vision classique de l'overfitting et de la généralisation. Récemment, le phénomène de double descente a été proposé pour réconcilier cette observation avec la théorie, suggérant que l'erreur de test a une deuxième descente lorsque le modèle devient suffisamment surparamétré, la taille du modèle agissant elle-même comme un régularisateur implicite. Dans cet article, nous ajoutons au nombre croissant de travaux dans ce domaine, en fournissant une étude minutieuse de la dynamique d'apprentissage en fonction de la taille du modèle pour le scénario des moindres carrés. Nous montrons une limite de risque excédentaire pour la solution de descente du gradient de l'objectif des moindres carrés. La limite dépend de la plus petite valeur propre non nulle de la matrice de covariance des caractéristiques d'entrée, via une forme fonctionnelle qui a le comportement de double descente. Cela donne une nouvelle perspective sur les courbes de double descente rapportées dans la littérature. Notre analyse de l'excès de risque permet de découpler l'effet de l'optimisation et de l'erreur de généralisation. En particulier, nous constatons que dans le cas d'une régression sans bruit, la double descente est expliquée uniquement par des quantités liées à l'optimisation, ce qui a été manqué dans les études se concentrant sur la solution pseudo-inverse de Moore-Penrose. Nous pensons que notre dérivation offre une vision alternative par rapport aux travaux existants, en mettant en lumière une cause possible de ce phénomène, au moins dans le cadre des moindres carrés considérés. Nous examinons empiriquement si nos prédictions sont valables pour les réseaux neuronaux, en particulier si la covariance des activations cachées intermédiaires a un comportement similaire à celui prédit par nos dérivations.

Sur le rôle de l'optimisation dans la double descente : Une étude des moindres carrés

Derniers documents de recherche

DMMGAN : Diverse Multi Motion Prediction of 3D Human Joints using Attention-Based Generative Adverserial Network (prédiction multi-mouvements des articulations humaines en 3D à l'aide d'un réseau génératif adversaire basé sur l'attention).

Modélisation et prévision des cas de COVID-19 en utilisant des sous-populations latentes

Abstraction temporelle dans l'apprentissage par renforcement avec la représentation du successeur

Laissez-nous vous aider

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle

Connectez-vous avec la communauté

Explorer la formation et l'enseignement supérieur

Exploiter le potentiel de l'intelligence artificielle