Voix métallique, inexpressive, débit trop lent… la synthèse vocale restait optionnelle lorsqu’il s’agissait de créer des contenus audio pour l’e-learning. Aujourd’hui, avec l’Intelligence Artificielle (IA), il est bien plus difficile de faire la différence entre une voix de synthèse réaliste et celle d’un humain. Vocaliser les modules d’e-learning prend désormais une tout autre dimension. Explications de Roy Lindemann, CMO et CCO EMEA chez ReadSpeaker.
Dans le domaine de la formation professionnelle, l’audio tient une place déterminante. La voix intégrée aux modules d’e-learning rend les cours plus attrayants et renforce ainsi l’implication des collaborateurs. Elle est aussi garante d’une meilleure accessibilité des formations. C’est également un atout pour gamifier les modules d’e-learning. Si certaines entreprises ont déjà franchi le cap de la synthèse vocale pour générer automatiquement des fichiers audio, les récentes améliorations apportées par l’IA à cette technologie la rende incontournable.
Humaniser la synthèse vocale
Longtemps robotisées et peu engageantes, les voix de synthèse s’humanisent. Grâce aux réseaux neuronaux profonds (DNN), elles sont capables d’exprimer des émotions, telles que l’enthousiasme, la joie, la tristesse, le regret… Les voix de synthèse gagnent ainsi en naturel : masculine, féminine, disponibles avec différentes intonations et dans de nombreuses langues étrangères.
Conforama a d’ailleurs choisi la voix de Roxane pour son réalisme. Ce multispécialiste de l’équipement, de l’aménagement et de la décoration de la maison a trouvé la voix de synthèse dont la qualité ne donne pas l’impression d’écouter un robot. La voix de Roxane enrichit les contenus de formation et les rend plus accessibles. La synthèse vocale permet également à Conforama de réduire les coûts de création de contenus audio et s’avère moins chronophage que de passer par un acteur. Les mises à jour des modules d’e-learning peuvent facilement être réalisées, car avec la synthèse vocale, il n’est pas nécessaire de réenregistrer. Mettre juste à jour le texte et le fichier audio sera automatiquement modifié. Elle permet aussi de procéder à des tests de scripts pour vérifier le vocabulaire utilisé.
Améliorer l’inclusion numérique des collaborateurs
Dans le monde professionnel, les collaborateurs peuvent rencontrer des difficultés de lecture et de compréhension. Celles-ci peuvent être liées à un handicap visuel ou des troubles du langage, comme la dyslexie. Dans ces cas, une lecture visuelle à l’écran s’avère plus compliquée et fastidieuse. Les degrés de maîtrise d’une langue peuvent aussi variés lorsque celle-ci diffère de la langue maternelle. En outre, la généralisation du télétravail, où les interactions se déroulent de façon virtuelle, a transformé les habitudes de travail et modifié les repères visuels. Ecouter au lieu de voir est un moyen pour les entreprises de communiquer toute information dont leurs collaborateurs pourraient avoir besoin. Imaginez ce que l’on ressent quand on regarde une vidéo avec le son coupé… on ne peut pas l’apprécier autant, ni même concentrer notre attention dessus.
Prendre des mesures pour intégrer davantage les voix de synthèse réalistes dans les entreprises, notamment pour la formation, contribue à renforcer l’inclusion numérique. Par ailleurs, l’apprentissage bimodal (présentation des informations dans des formats audio et visuels en même temps) a démontré une amélioration des résultats des apprenants, indépendamment de toute capacité. Une présentation bimodal du contenu porte ses fruits pour accroître : les capacités de reconnaissance des mots et du vocabulaire, la compréhension et la fluidité de la lecture, ainsi que la concentration et la mémorisation. D’autres avantages ont aussi été relevés comme une plus forte implication des collaborateurs qui se traduit par une augmentation de la productivité.
Personnaliser une voix de synthèse
Grâce à l’IA conversationnelle, les voix de synthèse vocale sont plus naturelles et réalistes. Concevoir une voix personnalisée capable de refléter le ton et la « personnalité » d’une marque est à la portée de toutes les entreprises. Généralement privilégiée pour créer une expérience cohérente pour les clients, la voix personnalisée a également sa place en interne auprès des collaborateurs. Immédiatement reconnaissable, engageante et mémorable, elle permet de créer des interactions personnalisées qui viendront enrichir les modules d’e-learning. Intégrer une voix personnalisée dans différents points de contact externes et internes (voicebots, sites web, modules d’e-learning…) exploiterait pleinement le potentiel d’une voix personnalisée. Celle-ci deviendrait un repère autant pour un client qu’un salarié qui pourrait ainsi reconnaître, mémoriser et associer des émotions à son organisation.
Il y a donc fort à parier qu’à l’avenir les voix de synthèse réalistes remplaceront les voix off humaines dans les modules d’e-learning. Leurs capacités multilingues, leur facilité de déploiement et leur coût penchent dans la balance ; de même que leur utilité pour améliorer l’accessibilité numérique des ressources pédagogiques et les résultats d’apprentissage.
|