Internet traffic and networks
Analyse du télétrafic IP sur Internet
On appelle télétrafic informatique les flux de paquets IP (Internet Protocol : ensemble d'octets constituant la cellule élémentaire de transmission de l'information) circulant sur les
grands réseaux d'ordinateurs. La description statistique de ces flux, nécessaire pour contrôler l'état des réseaux, pour les concevoir, les dimensionner, a d'abord été réalisée à partir des modèles statistiques (Markov, Poisson, Gauss) communément utilisés sur le précédent grand réseau de télécommunication, le réseau téléphonique.
Rapidement, l'inadéquation des prévisions réalisées à partir de ces modèles a été avérée et le paradigme d'invariance d'échelle mis en avant pour les remplacer. L'hétérogénéité extrême de la nature des flux d'informations (web, mail, vidéo, audio) circulant sur ces réseaux, des protocoles (TCP, UDP), des séries temporelles (nombre de paquets, de connexions, listes de temps d'attentes, processus ponctuels) qu'on peut en extraire et des outils d'analyse a rendu délicate l'étude expérimentale des lois d'échelles.
Le travail de l'équipe s'est déployé dans plusieurs directions :
- Analyse statistique des lois d'échelle dans le trafic IP (en particulier à l'aide des ondelettes) et modélisation des traces IP.
- Méthodes de détection d'anomalies dans les réseaux (ex: virus ou DDoS) à l'aide d'une méthode de sketch multiéchelles.
- Classification automatique des applications et/ou des hôtes communiquant via Internet.
Recent results
(K. Fukuda, K. Cho, H. Esaki, R. Fontugne from the NII, IJJ and Univ. Tokyo (Japan), CNRS-JSPS program) Signal processing is a great asset to study the communications over the Internet network. Accurate host-level traffic classification is made possible by relying on statistical features describing traffic of a host, e.g. from the Multi-Scale Gamma Model, or from traffic patterns reminiscent of traffic graphlets. Leveraging on previous works, using sketches and multi-resolution analysis, we prove that long memory is a robust property in traffic, as shown on seven years of collected traffic. We re-investigated the relationship between long memory (modeled as self-similarity) and heavy-tailness of flows, theoretically (Taqqu’s theorem), also questioning the respective roles of the flow and session levels, and experimentally on a grid, proving that long memory is a stable feature of Internet traffic. Finally, lacking methods to characterize and benchmark anomaly detectors, we used graph analyses to compare them, and we validated that by annotating the anomalies in the MAWI traffic database.