Création de corpus


(Marie FU) #1

Bonjour,

Je m’appelle Marie et je viens d’arriver sur le projet GarganText en tant que stagiaire.
Je suis à votre disposition si vous avez besoin de créer des corpus sur GarganText.

Taguez moi ici.


#2

@YeAn
Bonjour Marie,

Je m’initie doucement au logiciel GarganText et peine encore à créer des corpus sous le bon format. Anne-Laure m’avait débloqué la dernière fois mais je n’arrive toujours pas à importer un bon corpus. Est-ce qu’on pourrait faire une visio pour m’expliquer à partir d’un .csv comment arriver au bon format ?
J’aurais un corpus.csv sur lequel j’aimerai travailler mais la conversion en .tsv via googlesheet ne suffirait pas pour avoir un fichier importable sur GT.
Si oui, je suis disponible toute la semaine prochaine.

Si ca peut aider, le message d’erreur à l’importation concerne à chaque fois la dernière des 7 colonnes de mon csv. 1exemple : parse error (Failed reading: conversion error: no field named “Source”) at "trage…

Bonne journée à vous et bon début de stage,

Antoine CHAUMEIL


(Marie FU) #3

Bonjour,

Si vous êtes disponible, on peut faire une visio mercredi 17 avril à 10h. Par contre, je ne sais pas comment se passe les visios, et cela m’arrangerai que vous créez le réunion.
Je suis en train de travailler sur l’option CSV to TSV de GargTools pour éviter le genre de problème que vous avez eu.

Bon week-end,
Marie FU.


#4

Bonjour,

Je serais bien disponible ce mercredi à 10h.

Merci et bon début de semaine !

Antoine Chaumeil


#5

@YeAn
Bonjour,

Au final, j’ai bien rempli toutes les cases vides par des caractères inutiles de type “1” ou “a” et ai utilisé le GaraganTool Clean CSV To TSV, qui a bien fonctionné ! Mon soucis de création de corpus est réglé merci !

Je ne pense plus avoir besoin d’assistance ce mercredi matin prochain mais merci de vous être rendue disponible.

Bon début de semaine,
Antoine Chaumeil


(Marie FU) #6

Bonjour,

C’est bien compris, n’hésitez pas à m’en parler si vous rencontrez d’autre soucis, ou s’il y a des fonctionnalités que vous aimeriez avoir concernant de GargTools.

Bonne journée,
Marie FU.


(gay) #7

Sur ce sujet, peut-être que la documentation peut être plus précise? Il est mentionné qu’un format tsv est demandé, mais quand j’ai téléchargé le fichier exemple, c’est un csv qu’on récupère.

https://write.frame.gargantext.org/s/c02ec18bb82b0333a3fdd93d8fc3b391b502742af51b2f8a8cb4de774fa07508#


#8

Bonjour,

Je me retrouve bloqué lors de l’utilisation du GaraganTool “Clean CSV To TSV”. Le fichier .tsv que je récupère supprime les valeurs de ma dernière colonne.
Exemple sur le d=premier doc, si la colonne Authors existe bien, les noms ont été supprimé lors de la conversion en .tsv

Savez-vous si c’est plutôt un soucis sur mon .csv ou sur l’outil ?

Bonne journée

A.C.


(Marie FU) #9

Bonjour,

Est-ce qu’il serai possible de montrer les 2 premières ligne de votre CSV, c’est-à-dire la ligne contenant les noms de colonnes et une lignes contenant les informations, ou a défaut me dire qu’elle séparateur est utilisé pour la séparation des colonnes.
Il est possible que s’il y a plus de 7 colonnes, ou que dans certaines colonnes il y a un séparateur de colonnes, des informations peuvent ne pas être prises lors de la création du TSV.

Marie FU.


(Anne Laure Thomas Derepas) #10

Bonjour et merci @paul.gay, c’est vrai que j’ai du travail de mise à jour de la documentation… Merci de m’avoir aiguillée vers ce point.
Est-ce que cette nouvelle version est plus claire ?

Désolée pour le délai de réponse
Anne-Laure


#11

Il semble que “n/a” pour les cases vides de .csv ne soient pas acceptés, si ?
Voir ligne 43 de la partie 1.3.A. Le format CSV / TSV GarganText. Je ne sais pas si je peux modifier moi-même…

Pour illustrer le point de la ligne 44, il semble que le format CSV UTF8 (séparateur virgule) sur Excell semble automatiquement mettre des séparations en “;”


#12

Voici ci-dessous les deux premières lignes de code du .csv. La conversion en .tsv supprime la valeur de la dernière colonne

Publication Month;Publication Day;Authors;Title;Abstract;Source;Publication Year
1;1;Abrami G., Bazile D., Le Page C., Dembélé S., Dionnet M.;Preparing a framework for participatory modelling of farmers seed systems in Mali : Varieties selection and exchange;The current research is undertaken in the high-risk environment of poor farmers in Mali (West Africa) where agricultural biodiversity is crucial and people are always aiming to be more efficient in their use of the natural resource base. It introduces participatory modelling as a way to strengthen human and social capital in ways that support the management of the natural capital, including plant genetic resources. During a first stage of the research project, data was gathered and processed in a suitable spatial framework. This paper gives an insight into the methodology we use during the second stage of the project, which introduces Agent-Based Models (ABM). We present a first prototype that formalize existing assumptions and data within a dynamic framework. The development of this prototype has resulted in the identification of different decision contexts around farmers’ sorghum seed management. It has led us to the next stage of our research that is to gain more knowledge about these decision contexts by the mean of fieldwork and role-playing game sessions. These information will be used to produce a second ABM resulting from a common understanding of farmers’ seed management.;ESSA 2005, The third Annual Conference of the European social simulation association, Koblenz, Germany, September 5-9, 2005;2005


(Marie FU) #13

J’ai testé avec les deux lignes qui m’ont été donnée mais je ne vois aucune données manquantes. J’ai aussi inversé des colonnes pour essayé de voir s’il y avait un problème de gestion de colonne et il n’y a pas de problème.
La suppression de valeurs est-elle présente dans tout le document? Est ce qu’il y a des sauts de ligne?
Ne voyant pas d’où vient le problème et n’arrivant pas à le reproduire, est ce qu’il serais possible de m’envoyer le fichier pour que je l’examine?

Maris FU.


#14

Il me semble que la suppression des valeurs de la dernière colonne se fait pour chaque ligne, chaque document.
Voici en pj mon .csv
Doc de travail V2 GT.csv (467.9 KB)
Merci pour vos réponses


(Marie FU) #15

J’ai regardé un peu le fichier et il semblerait qu’il y est un problème de formatage quand il y a une colonne année. Je vais corriger ça et une mise à jour sera faite.
En attendant, je conseille de mettre la colonne abstract comme dernière colonne. De ce que j’ai vu, il ne semble pas y avoir de problème de suppression de données pour ce cas.
Merci pour vos retours.

Marie FU.


#16

C’est noté, merci beaucoup !


#17

Bonjour,
Doc de travail V2 GT.csv (467.9 KB)

Désolé, c’est encore moi sur le même soucis.

Pour le dossier .csv ci-joint, lors de mes convertions en .tsv via GarganTool , qu’il y ait des nombres ou non, la dernière colonne est supprimée à chaque fois
Avez-vous réussi lors de votre dernier test ? Si oui, pourrais je avoir votre version .tsv svp ?

En utilisant google sheet, la conversion donne un .tsv correct mais lors de son import sur GT, un message d’erreur sur la donnée de la dernière colonne d’une des lignes manque ( parse error (Failed reading: conversion error: no field named “Source”) at “tragedy of the commons” in two-player CPR games. The AM was first proposed by Masuda et al. (2014) (truncated)) alors que la donnée apparait bien sur le .tsv.

Est-ce que vous pourriez essayez de convertir de .csv et vérifier si vous arrivez à l’importer de votre côté sur GT s’il vous plaît ?

Bonne journée à vous,

Antoine CHAUMEIL


(Marie FU) #18

Bonjour,

Je n’ai pas trouvé pourquoi les données de la dernière colonne sont supprimées, j’ai testé avec d’autres utilisateurs et seul vos fichiers ont des données supprimées.
Je pense qu’il s’agit peut être de l’outils utilisé pour créer votre csv car lorsque je copie les données dans un fichier depuis un éditeur de texte avant de le passer au clean csv, j’ai l’intégralité des données.

L’erreur que vous avez vient du fait que GarganText ne supporte pas le charactère " , lors du nettoyage ils sont remplacés par le charactère ” .

Etant nouvelle utilisatrice, je ne peux pas joindre de fichier donc je vous renvoie le fichier par un message d’Anne Laure dès que possible.

Marie FU.


(Marie FU) #19

J’ai testé et je confirme qu’un csv téléchargé de google sheets a le contenu de sa dernière colonne supprimée.


(gay) #20

Bonjour Anne Laure,

Quand je clique sur " Télécharger un exemple de format TSV valide." il me donne toujours le csv “DIGEING Challenges.csv”.

Cependant, ce fichier est correctement lu. Je suis un peu confus, il est écrit, “tsv”, il faut comprendre “csv” et “tsv” ?

J’ai pu construire un convertisseur elasticseach vers Gargantext qui fonctionne cependant.

Paul