Evolutions des transcriptions
Evolutions du site
Version 0.3 - septembre 2023
Depuis mai 2023, suite à une mise en avant de Scribe sur le Blog du modérateur, le nombre de transcription a atteinte une moyenne de 200 par jour. Cette augmentation de trafic n'impacte pas notre serveur qui gère parfaitement cet afflux en ne traitant les transcriptions que lorsque le serveur est suffisamment disponible et en étalant les tâches de transcriptions.
En septembre 2023, Scribe a été mentionné comme faisant partie des nouveaux logiciels intégrant les références du Socle interministériel des Logiciels libres, Catalogue de référence de logiciels libres recommandés pour l'ensemble de l'administration française. Cette annonce a apporté un pic significatif dans les transcriptions début septembre.
Cet afflux important, nous a invité à indiquer en page d'accueil que Scribe était avant tout un commun numérique et pouvait être réinstallé dans d'autres structures. Cette possibilité est offerte grâce à la publication de notre code sous licence libre. Les Ceméa peuvent vous aider à installer votre propre scribe et ne pas dépendre de nos limites techniques. Ceci nécessite cependant une maîtrise avancée d'administration système de serveur. Nous pouvons aussi nous charger de cette tâche en administrant votre serveur dédié dans notre système.
Version 0.2 - mai 2022
Début mai 2022, une forte affluence sur Scribe (60 transcriptions par jour) nous incite à revoir cette version 0.1 et à l'optimiser ( @glorf).
- Une refonte complète du coeur de Scribe permet de ne plus gaspiller de mémoire et d'éviter la saturation du serveur, grâce à Vosk-server. Il faut néanmoins compter un consommation minimale de 3,2 Go de Ram pour le Français et 4,8 Go pour l'Anglais.
- L'utilisation de Vosk-server permet de bénéficier de versions plus récentes des modèles de voix, donc avec des transcriptions de meilleure qualité.
- Les scripts de Tykayn ne sont plus utilisés, le système Scribe est plus stable.
- La refonte de Scribe permet de ne plus stocker de textes localement mais d'intégrer directement les transcriptions (avec les sous-titres) comme pièce jointe dans le contenu du mail envoyé à la fin de la transcription. Rien n'est conservé.
- Un filtre est mis en place pour ne pas lancer de transcriptions pour des hébergeurs de vidéos qui bloqueraient le téléchargement distant (Dailymotion...). Une version récente des certains programmes (ffmpeg) permet de garantir un maximum de sites compatibles (voir la liste des sites supportés)
- Le contenu des fichiers audio ou vidéo est toujours systématiquement détruit à la fin de chaque transcription.
- L'ajout d'une page expliquant notre politique de récolte et conservation des données et la vigilance que nous portons à la protection des données personnelles.
- Un formulaire de consentement de récolte de l'adresse e-mail est ajouté.
- Des statistiques internes sont ajoutées pour compter le temps de la vidéo/son et le temps de traitement pour en obtenir un ratio.
- Il est désormais possible d'auto-ponctuer le texte grâce à deep multilingual punctuation prediction, un modèle de ML dédié à cela, grâce à la contribution de @spoinsart.
- Les mentions légales sur le propriétaire et l'hébergeur du site sont ajoutées.
Version 0.1 - mai 2021
- La première version fonctionnelle de Scribe est installée.
- Elle conserve localement le texte transcrit sous forme de fichiers, mais ni l'audio, ni les vidéos ne sont conservés.
- Ajout d'une page "Pourquoi" qui explique l'historique et le processus de création de ce projet.
- Le programme Scribe se base sur les scripts de Tykayn mais ça ressemble à du bricolage à base de scotch, mais ça marche !
Contributions
N'hésitez pas à nous contacter si vous souhaitez contribuer à cette solution, rapporter des bugs ou faire des propositions d'améliorations.