Importation corpus Europresse


(Volny Fages) #1

Bonjour,
je suis un néophyte sur gargantext et je m’excuse par avance de la naïveté de ma question.
J’aimerais traiter un corpus d’articles de presse d’Europresse avec Gargantext. Europresse ne me propose d’exporter que des formats pdf et RIS. Or j’ai essayer d’importer ces formats directement sur Gargantext (après les avoir compressés) et ça ne marche pas. Faut-il que je convertisse ce corpus en .csv ? Si oui, cela semble bien compliqué à partir d’un pdf…
Merci en tous cas de vos éclairages


(Alexandre Delanoe) #2

Bonjour,
Europresse change de manière unilatérale son format.
Comme la version actuelle en prod (V3) n’est plus maintenue, seule la nouvelle version de Gargantext (V4) supporte le dernier format.
Il faudra attendre la sortie officielle de la nouvelle version donc (compter à partir de septembre prochain).
Cordialement,


Alexandre D. pour l’équipe Gargantext


(Volny Fages) #3

Merci beaucoup. Patience, alors…
Bien cdt


(Santiago Núñez Regueiro) #4

Bonjour Volny (et quel plaisir de se recroiser, même virtuellement !),
Si le traitement est urgent, et ne peux attendre la rentrée, un autre option est de d’utiliser R. Plusieurs packages R permettent de convertir et mettre en forme les articles d’Europresse, notamment au format CSV (et moyennant quelques modifs mineurs, au format CSV de Gargantext)… On peut en discuter directement ( nunez /àt/ dial . prd. fr)
A bientôt !


(Volny Fages) #5

Yes ! Salut Santiago !