Poste de recherche
Résumé :
On a observé empiriquement que les performances des réseaux de neurones profonds s'améliorent régulièrement lorsque l'on augmente la taille du modèle, ce qui contredit la vision classique de l'overfitting et de la généralisation. Récemment, le phénomène de double descente a été proposé pour réconcilier cette observation avec la théorie, suggérant que l'erreur de test a une deuxième descente lorsque le modèle devient suffisamment surparamétré, la taille du modèle agissant elle-même comme un régularisateur implicite. Dans cet article, nous ajoutons au nombre croissant de travaux dans ce domaine, en fournissant une étude minutieuse de la dynamique d'apprentissage en fonction de la taille du modèle pour le scénario des moindres carrés. Nous montrons une limite de risque excédentaire pour la solution de descente du gradient de l'objectif des moindres carrés. La limite dépend de la plus petite valeur propre non nulle de la matrice de covariance des caractéristiques d'entrée, via une forme fonctionnelle qui a le comportement de double descente. Cela donne une nouvelle perspective sur les courbes de double descente rapportées dans la littérature. Notre analyse de l'excès de risque permet de découpler l'effet de l'optimisation et de l'erreur de généralisation. En particulier, nous constatons que dans le cas d'une régression sans bruit, la double descente est expliquée uniquement par des quantités liées à l'optimisation, ce qui a été manqué dans les études se concentrant sur la solution pseudo-inverse de Moore-Penrose. Nous pensons que notre dérivation offre une vision alternative par rapport aux travaux existants, en mettant en lumière une cause possible de ce phénomène, au moins dans le cadre des moindres carrés considérés. Nous examinons empiriquement si nos prédictions sont valables pour les réseaux neuronaux, en particulier si la covariance des activations cachées intermédiaires a un comportement similaire à celui prédit par nos dérivations.
3 mars 2023
Poste de recherche
9 février 2023
Poste de recherche
1er février 2023
Poste de recherche
Lisez ce document de recherche, co-écrit par Russ Greiner, boursier et titulaire de la chaire d'IA de l'ICRA au Canada : Vers un système de santé apprenant basé sur l'intelligence artificielle pour la prédiction de la mortalité au niveau de la population à l'aide d'électrocardiogrammes
Vous cherchez à renforcer les capacités en matière d'IA ? Vous avez besoin d'un conférencier pour votre événement ?
Participez à l'écosystème croissant de l'IA en Alberta ! Les demandes de conférenciers, de parrainage et de lettres de soutien sont les bienvenues.