Charger des fichiers txt?


(joulin) #1

Bonjour,

Je me demandais s’il est possible de charger directement des fichiers .txt pour constituer le corpus ou bien si la seule solution est de les copier/coller un par un dans les notes. En gros peut-il y avoir dans le corpus des notes autres que celles que l’on crée avec le pad intégré?
Et si ce n’est pas possible, auriez-vous des recommandations sur la manière d’organiser un corpus assez gros dont les éléments sont tirés de pdf.
Pour le moment je m’étais mis en tête de sortir l’ocr en format txt puis de les découper avec un script en txt plus petits car je me voyais mal faire un tableur à la main au vu du volume de texte.
Est-ce que cela contraindrait à copier/coller les fichiers dans les notes?

Merci beaucoup et bonne journée


#2

Bonjour,
Je pense que cela avait été évoqué lors de la présentation des fonctionnalités mais je suis aussi preneur d’une réponse parce que je suis confronté au même enjeu :slight_smile:

Merci !


(joulin) #3

Bonjour, Je me permets de faire “remonter” le sujet maintenant que nous sommes dans la période de rentrée.


(Anne Laure Thomas Derepas) #4

Bonjour,

Désolée pour la non réponse. On y a travaillé cet été et dans les tous prochains jours (moins d’une semaine) on va ouvrir une petite plateforme pour préparer et faciliter tout ca. Je mettrais un message ici lorsque la plateforme sera ouverte.

Je dois la recetter d’ici à mardi donc c’est vraiment très proche

Anne-Laure


(joulin) #5

Bonjour, merci pour votre réponse ! je vais essayer d’avoir extrait le texte des pdf d’ici là afin de pouvoir faire des tests.


(Anne Laure Thomas Derepas) #6

Bonjour @joulin,

Je vous ai envoyé un mail hier avec un lien vers le petit outil que je suis en train de tester, normalement cela devrait grandement faciliter les choses pour vous (dès que ca marchera bien, là on a des petites corrections en cours). A priori on pourra passer d’un zip de PDF à un TSV importable… Concrètement là le chargement des pdf ne marche pas, j’espère qu’on le relancera lundi dans la journée.

Je pensais qu’on serait prêts fin aout, mais ce n’est plus qu’une question de jours maintenant :wink:

Anne-Laure


#7

Intéressé pour béta-tester également si besoin !


(joulin) #8

Bonjour,

Excusez-moi je viens seulement de voir votre message. Il va d’abord falloir que j’extrais le texte des pdf (je vais essayer de le faire ce week-end)