Outils

Actualité de l'ENS de Lyon

Publication du corpus BFM2022 de la Base de français médiéval

""
Actualité
 

La base de français médiéval la plus utilisée dans le monde est à l'ENS de Lyon depuis toujours. Développée au sein du laboratoire IHRIM, elle a été enrichie d'une cinquantaine de nouveaux textes.


La Base de français médiéval est la base la plus utilisée dans le monde sur le français médiéval. Elle est née dans les années 80 et a été créée à l’ENS Fontenay-Saint Cloud.
Elle est développée au sein du laboratoire IHRIM.

Le corpus a été enrichi : BFM2022 comprend une cinquantaine de nouveaux textes et atteint environ 6 450 000 mots. La base de français médiéval contient donc actuellement 219 textes intégraux écrits entre le IXe et la fin du XVe siècle. Le corpus s’enrichit également de l’édition originale du Psautier d’Arundel par C. Pignatelli.

Un corpus utile à la recherche et l’enseignement accessible au grand public

L’objectif principal de ce corpus diachronique est d’offrir des ressources utiles à la recherche et l’enseignement sur la langue, la littérature et la civilisation médiévale et d’ouvrir de nouvelles perspectives de recherche grâce aux nouvelles technologies numériques et au développement d’outils d’analyse linguistique.
La BFM est accessible au grand public comme aux chercheurs, enseignants-chercheurs et étudiants médiévistes, et tout spécialement aux spécialistes de l’histoire du français. L’accès à la BFM est gratuit. Les conditions d’usage de la Base sont décrites dans les Conditions générales d’utilisation (accès avec ou sans inscription) consultables sur ce portail.


Les corpus sont accessibles sous trois formes :
- accès via les outils du portail BFM-TXM (lecture d’une édition, index, concordances, vocabulaire et lexique, etc.) ;
- téléchargement sur le portail des corpus binaires pour intégration dans la version locale de TXM ;
- téléchargement des fichiers XML TEI dans l’entrepôt NAKALA

L’accès à la BFM est désormais possible à travers un nouveau portail Huma-Num offrant une connexion sécurisée.

Des textes médiévaux diversifiés, des ressources encodées numériquement selon les standards internationaux

Les textes médiévaux qui composent la BFM sont aussi diversifiés que possible d’un point de vue sociolinguistique. Ils sont caractérisés grâce à un ensemble de métadonnées de différents types : données bibliographiques (titre, auteur, éditeur scientifique, etc.), date de composition des textes et date des manuscrits, forme des textes (vers/prose), origine géographique des données (dialectes), genres et domaines textuels, etc.

Les ressources diffusées par la BFM sont encodées numériquement selon les standards internationaux (format XML, balises recommandées par la TEI/P5). Une documentation technique accessible publiquement en ligne sur le site de la BFM donne une liste et une définition précise des balises et de leurs principes d’application (Manuel d’encodage).
Tous les fichiers sources XML-TEI du corpus BFM2022 sont disponibles dans l'entrepôt NAKALA sous licence ouverte Etalab. L'apparat critique présent dans quelques textes est diffusé sous la licence Creative Commons BY-NC-SA.

Tous les textes de la BFM sont enrichis au niveau lexical par différents jeux d’étiquettes morphosyntaxiques (notamment le jeu d’étiquettes CATTEX09 et Universal dependencies). Il s’agit d’une procédure automatique, mais un nombre toujours croissant de textes bénéficie de l’étiquetage morphosyntaxique vérifié et/ou de la lemmatisation vérifiée. Un certain nombre de textes ont fait l'objet d’un enrichissement au niveau syntaxique par un système de description des structures syntaxiques élaboré en partenariat au sein d’un projet franco-allemand ANR/DFG (Syntactic Reference Corpus of Medieval French), puis développé dans le cadre du projet ANR Profiterole. Ces enrichissements linguistiques se doublent, pour l’ensemble des textes, du balisage des passages en discours direct.

La mise en ligne du corpus BFM2022 s’accompagne de la publication du corpus PROFITEROLE-V1-0 produit dans le cadre du projet ANR PROFITEROLE , annoté en syntaxe selon un modèle dépendentiel UD.

Disciplines

Mots clés