Cette thèse étudie les compromis entre l’apprentissage statistique et la confidentialité. D’une part, l’apprentissage, qui se définit comme l’estimation de quantités ou de tendances significatives à l’échelle d’une population en n’ayant accès qu’à des observations échantillonnées de cette population, sera plus facile si l’on accorde un accès illimité aux données d’apprentissage. D’un autre côté, les données d’apprentissage peuvent être sensibles et leur utilisation sans restriction pourrait entraîner des problèmes de confidentialité.
Le premier chapitre présente une étude de cas pratique. Il établit empiriquement le compromis entre l’utilité en classification d’images et la protection contre les attaques par inférence d’appartenance en tirant parti de parcimonie du modèle.
Le deuxième chapitre est consacré à la présentation des principaux résultats de la théorie de la confidentialité différentielle.
Le troisième chapitre se concentre sur les bornes inférieures sur l’utilité statistique des algorithmes d’apprentissage lorsqu’ils sont soumis `a des contraintes de confidentialité différentielle.
Le quatrième chapitre explique comment appliquer les techniques du chapitre précédent, en regardant des exemples paramétriques. Il donne également des références bibliographiques pour de nombreux problèmes similaires intéressants.
Le cinquième chapitre étudie l’estimation non paramétrique privée des densités. Il présente plusieurs procédures d’estimation optimales ou quasi-optimales.
Le sixième (et dernier) chapitre traite du problème de l’estimation de la fonction quantile. Il établit les propriétés de concentration des algorithmes fréquemment utilisés, et présente leurs limites.
Gratuit
Disciplines