Résumé
Les modèles épidémiologiques classiques supposent des populations homogènes. Des extensions importantes ont été réalisées pour modéliser des populations hétérogènes, lorsque l'identité des sous-populations est connue, comme le groupe d'âge ou l'emplacement géographique. Nous proposons ici deux nouvelles méthodes pour modéliser le nombre de personnes infectées par le COVID-19 au fil du temps, chacune étant une combinaison linéaire de sous-populations latentes, c'est-à-dire lorsque nous ne savons pas quelle personne appartient à quelle sous-population, et que les seules observations disponibles sont les agrégats de toutes les sous-populations. La méthode #1 est une approche basée sur le dictionnaire, qui commence avec un grand nombre de modèles de sous-population prédéfinis (chacun avec son propre temps de départ, sa propre forme, etc), puis détermine le poids (positif) d'un petit nombre (appris) de sous-populations. La méthode #2 est un mélange de M courbes adaptables, où M, le nombre de sous-populations à utiliser, est donné par l'utilisateur. Les deux méthodes sont compatibles avec n'importe quel modèle paramétrique ; nous démontrons ici leur utilisation avec d'abord (a)~des courbes gaussiennes et ensuite (b)~des trajectoires SIR. Nous montrons empiriquement la performance des méthodes proposées, d'abord dans (i) la modélisation des données observées et ensuite dans (ii) la prévision du nombre de personnes infectées 1 à 4 semaines à l'avance. Sur 187 pays, nous montrons que l'approche par dictionnaire présente le pourcentage d'erreur absolu moyen le plus faible et également la variance la plus faible par rapport aux modèles SIR classiques. De plus, elle constitue une base solide qui surpasse de nombreux modèles développés pour la prévision du COVID-19.