Hugues Van Assel soutiendra sa thèse de doctorat en mathématiques, réalisée sous la direction d'Aurélien Garivier, le 12 février 2025 à 15h.
Résumé de la thèse
Cette thèse propose de nouvelles perspectives théoriques et des méthodologies pratiques pour la réduction de dimension, en s'appuyant sur la modélisation probabiliste et le transport optimal. En intégrant les méthodes de réduction de dimension linéaires et non linéaires dans un cadre probabiliste unifié, nous étendons les modèles à variables latentes, traditionnellement limités aux techniques linéaires, pour inclure des méthodes non linéaires populaires basées sur la préservation des voisinages. Cette unification facilite l'incorporation de priors et clarifie les hypothèses de modélisation sous-jacentes, améliorant ainsi l'application pratique des méthodes de réduction de dimension.
Nous proposons ensuite une approche unifiée qui traite à la fois les données et les représentations latentes comme des distributions de probabilité, en interprétant les méthodes de réduction de dimension comme des problèmes de transport optimal. Cette perspective nous permet de contrôler la granularité de la représentation en basse dimension en identifiant des points prototypes qui représentent plusieurs points de données. Par conséquent, nous réalisons simultanément le regroupement (ou partitionnement) et la réduction de dimension, équilibrant efficacement les compromis entre ces deux aspects.
Dans la dernière partie de la thèse, nous introduisons de nouvelles fonctions de similarité pour mieux capturer la géométrie des jeux de données. Nous abordons des problèmes dans les algorithmes de réduction de dimension impliquant la symétrisation des matrices de chaînes de Markov, qui définissent les probabilités de transition entre les points de données. En symétrisant selon la géométrie appropriée, nous résolvons les incohérences des approches existantes, ce qui permet un contrôle précis de l'entropie en chaque point et une meilleure gestion du bruit hétéroscédastique dans les données.
This thesis provides new theoretical insights and practical methodologies for dimensionality reduction through the lenses of probabilistic modeling and optimal transport. By unifying both linear and nonlinear dimensionality reduction (DR) methods within a probabilistic framework, we extend latent variable models—traditionally limited to linear techniques—to include popular neighbor embedding methods. This unification facilitates the incorporation of priors and clarifies underlying modeling assumptions, thereby enhancing the practical application of DR methods.
We then propose a unified approach that treats both data and embeddings as probability distributions, interpreting DR methods as optimal transport problems. This perspective allows us to control the granularity of the low-dimensional representation by identifying prototype points that represent multiple data points. Consequently, we achieve simultaneous clustering and dimensionality reduction, effectively balancing the trade-offs between these two aspects.
In the final part of the thesis, we introduce new similarity functions to better capture the geometry of datasets. We address issues in DR practices involving the symmetrization of Markov chain matrices, which define transition probabilities between data points. By symmetrizing under the appropriate geometry, we resolve inconsistencies in existing approaches, allowing for accurate pointwise control of entropy and thereby better handling heteroscedastic noise in the data.
Gratuit
Disciplines