Découvrir un panorama des humanités numériques, et plus précisément ce qu'est la philologie computationnelle, à savoir le traitement et l'étude de documents et de textes anciens assisté par ordinateur. Tout au long du cours, sera utilisé comme objet d'étude un même texte, le traité de Bartolomé de las Casas intitulé Brevísima relación de la destrucción de las Indias, publié à Séville en 1552. Après une présentation historique et matérielle du livre et de l'oeuvre choisie, nous nous intéresserons à un ensemble de méthodes qui permettent de passer de l'image au texte annoté: reconnaissance optique de caractères (OCR), régularisation, lemmatisation et annotation grammaticale, textométrie.
Un accent particulier sera mis sur la présentation des enjeux fondamentaux de l'utilisation de méthodes d'apprentissage supervisé pour le traitement du texte ancien (constitution de corpus, biais, etc).
Les étudiant.es seront initié.es à un ensemble de logiciels et outils, entre autres:
- eScriptorium / kraken (reconnaissance de caractères / d'écriture manuscrite)
- pie / freeling / pyrrha (annotation lexico-grammaticale)
- TXM (textométrie)