Tuto@Mate Extractify


(franck.leclercq) #1

Les Tuto@Mate reçoivent Frédéric Vergnaud le 14 décembre de 14h00 à 16h00 pour présenter Extractify, le plugin Chrome qu’il a développé.

Si en théorie la manière de structurer en HTML et CSS des données sur le web est plutôt bien définie par tout un ensemble de normes et de standards énoncés par différentes instances promouvant la compatibilité des technologies web, en pratique on se rend compte assez vite de la grande hétérogénéité qui prévaut dans ce domaine, rendant la plupart des méthodes et logiciels inopérants s’ils reposent sur l’identification des structures classiques pour en extraire l’information voulue.

L’atelier présente le logiciel libre Extractify, un plugin pour le navigateur Chrome, qui se propose de fournir à son utilisateur une interface simplifiée lui permettant de récolter n’importe quel type de données structurées en ligne. Après avoir décrit le logiciel, nous en étudierons les fonctions automatiques d’identification des structures HTML englobant les données recherchées. Dans un second temps, nous verrons qu’il est possible d’aller plus loin en utilisant les sélecteurs CSS. Enfin, dans le cadre d’un focus sur des données issues de forums de discussions, nous utiliserons le logiciel libre L@ME pour visualiser les données extraites et les exporter en vue de traitements statistiques ultérieurs.

La séance sera animée par Frédéric Vergnaud, Ingénieur d’études CNRS au Centre de Sociologie de l’innovation, concepteur de L@ME et d’Extractify.

Informations de connexion

Le séminaire se tiendra sur la plateforme BigBlueButton de l’EHESS .

Le lien sera envoyé avant le séminaire.

Avant de vous connecter sur la session, merci de lire les consignes d’utilisation et de respecter la procédure (identification et test du microphone) : https://mate-shs.cnrs.fr/actions/tutomate/tuto00-user-guide/