Skip to content. | Skip to navigation

Personal tools

Sections

UMR 5672

logo de l'ENS de Lyon
logo du CNRS
You are here: Home / Seminars / Machine Learning and Signal Processing / How Smooth Is Attention?

How Smooth Is Attention?

Valérie Castin (PhD student, ENS PSL)
When Jan 21, 2025
from 01:00 to 02:00
Where M7 101
Attendees Valérie Castin
Add event to calendar vCal
iCal

Valérie Castin 

Title:  How Smooth Is Attention? 

Abstract:  Self-attention and masked self-attention are at the heart of Transformers' outstanding success. Still, our mathematical understanding of attention, in particular of its Lipschitz properties — which are key when it comes to analyzing robustness and expressive power — is incomplete. We provide a detailed study of the Lipschitz constant of self-attention in several practical scenarios, discussing the impact of the sequence length and layer normalization on the local Lipschitz constant of both unmasked and masked self-attention. We complement our theoretical findings with experiments on pretrained and randomly initialized BERT and GPT-2.
If there is time, I will also present our recent work on modelling Transformers as partial differential equations, which allows to study the dynamics of tokens passing through an infinitely deep Transformer.


L’auto-attention et l’auto-attention masquée sont au cœur du succès exceptionnel des Transformers. Pourtant, notre compréhension mathématique de l'attention, en particulier de sa Lipschitzianité — qui est cruciale lorsqu'il s'agit d'analyser la robustesse et l'expressivité des Transformers — est incomplète. Nous présentons une étude détaillée de la constante de Lipschitz de l'auto-attention, en examinant l'impact de la longueur de séquence et de LayerNorm sur la constante de Lipschitz locale de l'auto-attention masquée et non masquée. Nous complétons nos résultats théoriques par des expériences sur BERT et GPT-2, pré-entraînés ou à l'initialisation.
S’il reste du temps, je présenterai aussi nos récents travaux consistant à modéliser les Transformers par une équation aux dérivées partielles, ce qui permet d’étudier la dynamique des tokens passant à travers un Transformer infiniment profond.
 
 

Website: https://scholar.google.com/citations?user=Qb_cpC8AAAAJ&hl=fr

In Room M7 101, 1st floor, Monod campus, ENSL.