Outils

Agenda de l'ENS de Lyon

Faire face au syndrome du Jabberwocky

Image absente
Conférence

Mardi 15 nov 2016
18h-20h
Djamé Seddah

Intervenant(s)

Djamé Seddah

Description générale
Conférencier : Djamé Seddah, Université Paris Sorbonne (Paris IV)
Titre complet : Faire face au syndrome du Jabberwocky - Analyses morpho-syntaxiques en environnement hostile
Les analyseurs statistiques atteignent depuis quelques années un haut niveau de performance sur des textes standard. Des techniques d'adaptation au domaine ont de surcroit amélioré leur résultats sur des corpus de genres différents de ceux sur lesquels ces analyseurs sont généralement entrainés. Néanmoins, ces textes sont habituellement conformes aux normes linguistiques usuelles (orthographe, typographie, etc.).
L'émergence de nouveaux médias de communication a entrainé l'apparition de nouveaux types de données textuelles. Bien qu'éminemment intéressant, en terme de data mining ou d'analyse d'opinion, ce « contenu généré par l'utilisateur »  a ceci de particulier qu'il est bruité. Cette particularité empêche les outils d'analyses de traitement automatique des langues, surtout quand ceux-ci sont data driven, de proposer des performances satisfaisantes. Afin de déterminer quels sont les goulots d'étranglement de nos outils, nous avons developpé le French Social Media Bank, le premier corpus arboré d'une langue à morphologie plus riche que l'anglais. Cette ressource contient 3 700 phrases de sources diverses (Twitter, Facebook, forums web, ..), en particulier des textes choisis pour leur caractère extrêmement bruité.
Dans cette intervention, nous décrivons comment a été conçu ce corpus et présentons la méthodologie d'annotation que nous avons utilisée. Nous discutons aussi des résultats d'analyses morpho-syntaxiques et d'analyses syntaxiques bien inférieurs à ceux rencontrés sur du texte correctement édités, démontrant ainsi la difficulté à traiter de tels contenus.
Complément

Salle F08