Vanessa Piccolo soutiendra sa thèse de doctorat en mathématiques, réalisée sous la direction d'Alice Guionnet et de Gérad Ben Arous, le 21 février 2025 à 14h.
Résumé de la thèse
Cette thèse explore certains problèmes liés aux grandes matrices aléatoires et aux statistiques en grande dimension, motivés par la nécessité d'améliorer notre compréhension de l'apprentissage profond. L'apprentissage des réseaux neuronaux profonds implique la résolution de problèmes d'optimisation non convexes, à grande échelle et en grande dimension, qui devraient être théoriquement intraitables mais sont étonnamment réalisables en pratique. Afin de comprendre ce paradoxe, nous étudions des modèles solvables qui concilient pertinence pratique et rigueur mathématique. Les matrices aléatoires et les statistiques en grande dimension jouent un rôle central dans ces travaux, en raison du grand volume de données et de la grande dimensionnalité inhérents à ces modèles.
D'abord, nous considérons le modèle des "random features", un réseau neuronal à deux couches avec des poids fixes et aléatoires dans la première couche et des poids apprenables dans la deuxième. Notre étude se concentre sur le spectre asymptotique de la matrice du noyau conjuguée YY* avec Y= f(WX), où W et X sont des matrices aléatoires rectangulaires avec des entrées i.i.d., et f est une fonction d’activation non linéaire appliquée élément par élément. Nous étendons les résultats obtenus précédemment sur les distributions à queues légères pour W et X en considérant deux nouveaux contextes. Premièrement, nous étudions le cas du biais additif Y =f (WX + B), où B est une matrice aléatoire gaussienne indépendante de rang un, ce qui modélise de plus près les architectures de réseaux neuronaux rencontrées en pratique. Pour obtenir les asymptotiques de la densité spectrale empirique, nous utilisons la méthode du résolvant via l'expansion des cumulants. Deuxièmement, nous analysons le cas où W a des entrées à queues lourdes, X reste à queues légères, et f est une fonction lisse, bornée et impaire. Nous montrons que les poids à queues lourdes induisent des corrélations beaucoup plus fortes entre les entrées de Y, ce qui se traduit par un comportement spectral inédit. Cette analyse s’appuie sur la méthode des moments via la théorie des probabilités de trafic.
Ensuite, nous abordons l’ACP tensorielle (analyse en composantes principales), un problème d’inférence en grande dimension qui étudie la difficulté computationnelle d’estimer un vecteur signal inconnu à partir d’observations tensorielles bruitées via le maximum de vraisemblance. L’ACP tensorielle sert de prototype pour comprendre l’optimisation non convexe en grande dimension via des méthodes basées sur le gradient. Cette compréhension peut être abordée sous deux angles : la complexité topologique du paysage d’optimisation et les dynamiques d’optimisation des méthodes du premier ordre. Concernant la complexité du paysage, nous étudions la "complexité annealed" des polynômes gaussiens aléatoires sur la sphère unitaire de dimensions N en présence de polynômes déterministes dépendant de vecteurs unitaires fixes et de paramètres externes. En utilisant la formule de Kac-Rice et les asymptotiques du déterminant pour une perturbation de rang fini des matrices de Wigner, nous dérivons des formules variationnelles pour les asymptotiques exponentielles du nombre moyen de points critiques et de maxima locaux. Concernant les dynamiques d’optimisation en grande dimension, nous analysons la descente de gradient stochastique (SGD) et le flux de gradient (GF) pour l’ACP tensorielle avec plusieurs directions cachées. Nous montrons que SGD atteint le même seuil computationnel que dans le cas r=1, mais GF nécessite plus d’échantillons pour récupérer toutes les directions. Les signaux sont récupérés via un processus d’"élimination séquentielle" où les corrélations croissent successivement selon un ordre déterminé par les conditions initiales et les rapports signal-bruit (SNR). Dans le cas matriciel (p=2), des SNR bien séparés permettent une récupération exacte, tandis que des SNR égaux mènent à la récupération du sous-espace engendré.
This thesis explores some problems in random matrix theory and high-dimensional statistics motivated by the need to improve our understanding of deep learning. Training deep neural networks involves solving high-dimensional, large-scale, and nonconvex optimization problems that should, in theory, be intractable but are surprisingly feasible in practice. To understand this paradox, we study solvable models that balance practical relevance with rigorous mathematical analysis. Random matrices and high-dimensional statistics are central to these efforts due to the large datasets and high dimensionality inherent in such models.
We first consider the random features model, a two-layer neural network with fixed random weights in the first layer and learnable weights in the second layer. Our focus is on the asymptotic spectrum of the conjugate kernel matrix YY* with Y = f(WX), where W and X are rectangular random matrices with i.i.d. entries and f is a nonlinear activation function applied entry-wise. We extend prior results on light-tailed distributions for W and X by considering two new settings. First, we study the case of additive bias Y = f(WX + B), where B is an independent rank-one Gaussian random matrix, closer modeling the neural network architectures encountered in practice. To obtain the asymptotics for the empirical spectral density we follow the resolvent method via the cumulant expansion. Second, we investigate the case where W has heavy-tailed entries, X remains light-tailed, and f is a smooth, bounded, and odd function. We show that heavy-tailed weights induce much stronger correlations among the entries of Y, resulting in a novel spectral behavior. This analysis relies on the moment method through traffic probability theory.
Next, we address the tensor PCA (Principal Component Analysis) problem, a high-dimensional inference task that investigates the computational hardness of estimating an unknown signal vector from noisy tensor observations via maximum likelihood estimation. Tensor PCA serves as a prototypical framework for understanding high-dimensional nonconvex optimization through gradient-based methods. This understanding can be approached from two perspectives: the topological complexity of the optimization landscape and the training dynamics of first-order optimization methods. In the context of landscape complexity, we study the annealed complexity of random Gaussian homogeneous polynomials on the N-dimensional unit sphere in the presence of deterministic polynomials that depend on fixed unit vectors and external parameters. Using the Kac-Rice formula and determinant asymptotics for spiked Wigner matrices, we derive variational formulas for the exponential asymptotics of the average number critical points and local maxima. Concerning the optimization dynamics in high dimensions, we study stochastic gradient descent (SGD) and gradient flow (GF) for the multi-spiked tensor model, where the goal is to recover r orthogonal spikes from noisy tensor observations. We show that SGD achieves the same computational threshold than in the single-spike case. In contrast, GF requires more samples to recover all spikes, resulting in a suboptimal threshold compared to SGD. Our analysis shows that spikes are recovered through a "sequential elimination" process: once a correlation exceeds a critical threshold, competing correlations become sufficiently small, allowing the next correlation to grow and become macroscopic. The order of recovery depends on initial values of correlations and the corresponding signal-to-noise ratios (SNRs), leading to recovery of a permutation of the spikes. In the matrix case (p=2), sufficiently separated SNRs allow exact recovery of the spikes, while equal SNRs lead to recovery of the subspace spanned by the spikes.
Gratuit
Disciplines