Sources que vous utilisez le plus pour faire des corpus dans GarganText


(Anne Laure Thomas Derepas) #1

Bonjour à tous,

J’essaie de recenser les sources de données que vous utilisez le plus pour faire des corpus à étudier dans GarganText, dans une optique de facilitation de vos pré-traitement pour permettre un import.
Je suis preneuse de vos retours, exemples, souhaits…

Au plaisir de vous lire ! Bel été à tous

Anne-Laure


(joulin) #2

Bonjour,

J’utilise(rai) BNF-Gallica, Archive.org ainsi que des documents scannés avec un scanner OCR (iriscan).

edit : j’avais oublié de préciser : il s’agit dans tous les cas de pdf avec OCR

Bonne journée


(Belvèze) #3

Bonjour, je souhaite y charger des corpus provenant d’Europresse (actuellement en CSV, et j’ai d’ailleurs des difficultés à le faire, cf. un message que j’ai posté sur ce canal récemment).
J’utilise aussi Gargantext avec Pubmed.

Bonnes vacances,

Damien Belvèze


#4

Bonjour,

De mon côté les sources prévues pour l’instant sont des textes issus de Cairn, Persée, Erudit et des principaux sites de revues SHS. Le tout compilé via Zotero en CSV avec espoir de faire l’analyse des articles en TXT à terme :wink:

Bel été,
François