English
In practice, neural networks show remarkable performance and are resource-intensive.
While theoretical tools have been developed to provide statistical guarantees or to control the needed amount of computational resources, these tools are often limited to simple situations that do not reflect the complexity of practical networks. This thesis aims to bridge this gap by making theoretical tools more concrete.
Regarding statistical guarantees, a key focus is on generalization—the ability of a neural network to perform well on new data. This work improves the generalization guarantees based on the theoretical path-norm tool and makes them more broadly applicable to ReLU networks with standard ingredients like pooling and skip-connections. By bridging the gap between theoretically analyzable networks and those used in practice, this work enables the first evaluation of these guarantees on practical ReLU networks such as ResNets.
Regarding resource reduction (time, energy, memory), the thesis proposes a new pruning method based on the path-norm. This method not only retains the accuracy of traditional magnitude pruning but also exhibits robustness against parameter symmetries.
Additionally, this work addresses the practical interest of sparse matrices with support defined by Kronecker products by providing a novel GPU matrix multiplication algorithm that improves on the state-of-the-art. Finally, we make approximation guarantees for neural networks more concrete by establishing bit-precision conditions for quantized networks to maintain the same approximation speed as networks with unconstrained real weights.
Français
Les réseaux de neurones connaissent un grand succès pratique, mais les outils théoriques pour les analyser sont encore souvent limités à des situations simples qui ne reflètent pas toute la complexité des cas pratiques d'intérêts. Cette thèse vise à combler cet écart en rendant les outils théoriques plus concrets.
Le premier thème étudié est celui de la généralisation: mon réseau va-t-il bien se comporter sur des données jamais vues auparavant? Ce travail améliore les garanties de généralisation basées sur l'outil théorique de la norme des chemins et les rend plus largement applicables aux réseaux ReLU contenant du pooling ou des connexions
résiduelles. En comblant l'écart entre les réseaux théoriquement analysables et ceux utilisés en pratique, ce travail permet la première évaluation de ces garanties sur des réseaux ReLU pratiques tels que les ResNets.
Le second thème étudié est la réduction de ressources (temps, énergie, mémoire). Cette thèse propose une nouvelle méthode d'élagage des paramètres basée sur la norme des chemins. Cette méthode non seulement conserve la précision de l'élagage traditionnel par amplitude, mais est aussi robuste contre les symétries des paramètres. Cette thèse fournit aussi un nouvel algorithme de multiplication de matrices sur GPU qui améliore l'état de l'art pour les matrices creuses de Kronecker, démontrant l'utilité de ce type de matrices.
Enfin, ce travail rend les garanties d'approximation pour les réseaux de neurones plus concrètes en établissant des conditions suffisantes de précision en bits pour que les réseaux quantifiés conservent la même vitesse d'approximation que les réseaux avec des poids réels non contraints.
Gratuit
Disciplines