Structure et analyse de corpus avec TXM

franck.leclercq · 2021-06-10 07:09:07 UTC

Prochaine séance des Tuto@mate

Le 14 juin 2021 de 14h à 16h

Structure et analyse de corpus avec TXM

par Flora Badin

TXM est un logiciel de textométrie. Du lexique au sous-corpus en passant par le concordancier et les coocurrences, TXM est un outil pionnier dans le domaine de la statistique textuelle et la recherche d’information sur corpus textuels. Il permet l’enrichissement des données par un dispositif d’annotation semi-automatique. Son utilisation a évolué avec le développement de nouvelles fonctionnalités par l’équipe de développeurs pour l’exploitation de corpus oraux transcrits (navigation dans la transcription et écoute du signal synchronisé). Un point phare de la bonne utilisation de ce logiciel est la préparation du corpus avant l’importation dans l’outil, pour optimiser leur enrichissement et leur exploitation. Jouer avec le XML en entrée, utiliser les extensions comme Treetagger et mediaPlayer pour enfin y trouver un environnement ergonomique pour l’annotation de phénomènes/patrons font partie des originalités à connaitre. Au coeur des analyses, le concordancier et son système de requêtes permettent d’explorer le corpus en profondeur en un coup de baguette magique.

Gratuit, openSource et multiplateforme, TXM deviendra vite votre allié pour vos recherches sur corpus.

Flora Badin est ingénieure d’études au LLL-CNRS (Orléans). Elle est spécialisée dans le domaine du traitement automatique des langues. Elle gère les données numériques de différents projets de recherche menés par les chercheurs en linguistique. Ses données de prédilection sont les corpus de langue orale. Elle développe des chaines de traitement pour les corpus oraux et structure les données pour les rendre compatibles avec le plus grand nombre d’outils utilisés par les linguistes.
Elle fait partie du comité scientifique du consortium CORLI et est également active dans le GDS EcoInfo qui agit pour réduire les impacts (négatifs) environnementaux et sociétaux du numérique.

Informations de connexion

Pour faciliter les échanges pendant la séance, nous remercions les participants de préciser leurs prénom et NOM au moment de leur connexion

Le séminaire se tiendra sur la plateforme BigBlueButton de l’EHESS . Pour rejoindre cette séance, vous devez suivre l’URL suivante : https://webinaire.ehess.fr/b/car-zja-nxe

Avant de vous connecter sur la session, merci de lire les consignes d’utilisation et de respecter la procédure (identification et test du microphone).

Mis en ligne en 2021 :
Janvier Le RGPD appliqué aux SHS (Sandrine Astor et Isabelle André-Poyaud, Pacte)
Février Gargantext : la cartographie des connaissances pour tous (Alexandre Delanoë et David Chavalarias, Institut des Systèmes Complexes de Paris)
Mars Comment faire lire des gribouillis à mon ordinateur ? (Alix Chagué, Inria)
Avril Les Analyse factorielles multiples (Maelle Amand, Université de Limoges)
Mai R.temis, un paquet R d’analyse de données textuelles (Milan Bouchet-Valat & Bénédicte Garnier, Ined)

Séances à venir :

29 juin 2021 Régressions logistiques, les pièges à éviter (Jérôme Deauvieau, CMH)

Responsables : Damien Cartron, Viviane Le Hay, Frédérique Mélanie-Becquet, Benoît Tudoux

Retrouvez les anciennes séances des Tuto@mate sur :
https://mate-shs.cnrs.fr/actions/tutomate/

Contact : tutomate@services.cnrs.fr