Bonjour,
Je me demandais s’il est possible de charger directement des fichiers .txt pour constituer le corpus ou bien si la seule solution est de les copier/coller un par un dans les notes. En gros peut-il y avoir dans le corpus des notes autres que celles que l’on crée avec le pad intégré?
Et si ce n’est pas possible, auriez-vous des recommandations sur la manière d’organiser un corpus assez gros dont les éléments sont tirés de pdf.
Pour le moment je m’étais mis en tête de sortir l’ocr en format txt puis de les découper avec un script en txt plus petits car je me voyais mal faire un tableur à la main au vu du volume de texte.
Est-ce que cela contraindrait à copier/coller les fichiers dans les notes?
Merci beaucoup et bonne journée