Petit site - Python - Pour aider autour de GarganText


(Anne Laure Thomas Derepas) #1

Bonjour à tous,

Comme indiqué il y a quelques semaines, nous avons profité de la période estivale pour demander à des étudiants de développer des petits scripts dans des langages courants pour faciliter l’interaction, et notamment la création de corpus, pour travailler dans GarganText.
L’idée de ce premier jet est de permettre à la communauté de partager ses scripts et de faciliter leur mise à disposition pour un usage large. Par contre, nous comptons sur ceux qui savent coder pour nous aider à maintenir, enrichir…

Nous avons essayé de récupérer les transcripts youtube a partir d’une liste de vidéo, mais dans la façon dont nous nous y sommes pris nous avons été bannis régulièrement en ayant récupéré trop peu de transcripts pour que cela soit utile. Néanmoins le code est sur le Git si certains d’entre vous ont des idées pour améliorer et rendre viable cette idée.

En espérant que ce travail vous sera utile, il reste des difficultés, des fautes d’orthographe donc n’hésitez pas à remonter vos éventuelles difficultés et si certains se sentent de corriger, allez-y !

Merci d’avance et au plaisir de voir vos usages facilités

Anne-Laure


#2

Bonjour,

Je ne sais pas trop ce que vous essayez de faire, mais au lieu de récupérer les transcriptions, une autre approche, certes plus gourmande en ressources localement, mais plus générale et customisable, serait de générer la transcription soi-même, à partir du fichier audio donc.

Pour récupérer le fichier audio depuis YouTube (ou d’autres sites), il y a notamment l’outil yt-dlp : yt-dlp -f bestaudio $url (ou bien -f worstaudio peut suffire en vrai).

Pour la transcription depuis un fichier audio il y a notamment :

Note : la plupart de ces outils peuvent s’utiliser directement en Python plutôt qu’en passant par des instructions en ligne de commande.