Law of large numbers and central limit theorem for wide two-layer neural networks: the mini-batch and noisy case
Title : Law of large numbers and central limit theorem for wide two-layer neural networks: the mini-batch and noisy case
Abstract : En utilisant une approche champ moyen, on étudie le comportement asymptotique de la mesure empirique des poids d'un réseau de neurones à une couche cachée, entraîné par Gradient Stochastique (GS), dans la limite où le nombre N de neurones sur la couche cachée tend vers l'infini. Le GS est perturbé par un bruit additionnel avec un scaling de 1/N^beta. Lorsque beta>1/2, on obtient une LGN. Lorsque beta>3/4, on montre un TCL. Dans le régime beta=3/4, ce TCL n'est plus vrai et un terme additionnel vient perturber l'équation limite. Des simulations numériques illustrent cette différence. Enfin, le TCL permet de quantifier l'effet du mini-batch sur la variance.
More information : https://www.theses.fr/s245572 and https://arxiv.org/abs/2207.12734