Petit site - Python - Pour aider autour de GarganText

athomas · 2023-09-18 08:42:04 UTC

Bonjour à tous,

Comme indiqué il y a quelques semaines, nous avons profité de la période estivale pour demander à des étudiants de développer des petits scripts dans des langages courants pour faciliter l’interaction, et notamment la création de corpus, pour travailler dans GarganText.
L’idée de ce premier jet est de permettre à la communauté de partager ses scripts et de faciliter leur mise à disposition pour un usage large. Par contre, nous comptons sur ceux qui savent coder pour nous aider à maintenir, enrichir…

pour ceux qui ne savent pas développer : un site un peu drag & drop
pour ceux qui savent développer : un gitlab avec toutes les sources

Nous avons essayé de récupérer les transcripts youtube a partir d’une liste de vidéo, mais dans la façon dont nous nous y sommes pris nous avons été bannis régulièrement en ayant récupéré trop peu de transcripts pour que cela soit utile. Néanmoins le code est sur le Git si certains d’entre vous ont des idées pour améliorer et rendre viable cette idée.

En espérant que ce travail vous sera utile, il reste des difficultés, des fautes d’orthographe donc n’hésitez pas à remonter vos éventuelles difficultés et si certains se sentent de corriger, allez-y !

Merci d’avance et au plaisir de voir vos usages facilités

Anne-Laure

julm · 2023-09-19 22:54:08 UTC

Bonjour,

Je ne sais pas trop ce que vous essayez de faire, mais au lieu de récupérer les transcriptions, une autre approche, certes plus gourmande en ressources localement, mais plus générale et customisable, serait de générer la transcription soi-même, à partir du fichier audio donc.

Pour récupérer le fichier audio depuis YouTube (ou d’autres sites), il y a notamment l’outil yt-dlp : yt-dlp -f bestaudio $url (ou bien -f worstaudio peut suffire en vrai).

Pour la transcription depuis un fichier audio il y a notamment :

des outils basés sur CommonVoice de Mozilla comme Vosk, utilisé par exemple par le site Web Scribe des CEMÉA (code source) qui utilise un vosk-server pour faire la transcription d’une vidéo en ligne puis son envoi par mél.
des outils basés sur OpenAI : whisper, whisper.cpp ou faster-whisper. (exemple : nix run nixpkgs#openai-whisper -- --model medium --language fr --task transcribe --verbose blabla.opus)
probablement aussi des outils basés sur Llama de Facebook, ou llama.cpp, mais je connais encore moins bien tout ça.

Note : la plupart de ces outils peuvent s’utiliser directement en Python plutôt qu’en passant par des instructions en ligne de commande.