Examen de Microsoft Azure: traitement vocal de pointe

Microsoft Azure Speech to Text est l'une des plates-formes de reconnaissance vocale les plus avancées. Dans le cadre de la gamme de produits Cognitive Speech Services de Microsoft, il utilise des algorithmes d'apprentissage en profondeur pour surmonter la mauvaise qualité sonore et peut s'adapter à divers styles de parole pour des transcriptions audio précises. Dans cet examen de Microsoft Azure Speech to Text, nous allons examiner de près ce service.

Il convient de noter que Microsoft Azure Speech to Text n'est pas un logiciel de dictée convivial et convivial. Il s'agit plutôt d'une plate-forme orientée développeur conçue pour aider les entreprises à créer, tester et gérer leurs propres produits. Si vous souhaitez simplement transcrire un lot de fichiers audio, des applications de synthèse vocale alternatives peuvent être une meilleure option. Jetez un œil à notre guide des meilleurs logiciels de synthèse vocale pour trouver les meilleures alternatives.

Microsoft Azure Speech to Text: forfaits et tarifs

À l'aide de Microsoft Azure Speech to Text, vous pouvez transcrire gratuitement jusqu'à cinq heures d'audio et créer un modèle vocal personnalisé par mois. Cependant, avec le plan gratuit, une seule demande audio simultanée est disponible à la fois, ce qui signifie que cette option n'est pas viable pour la plupart des entreprises.

La facturation du service vocal Azure est divisée en incréments d'une seconde.

Si vous souhaitez transcrire plusieurs clips vocaux à la fois, vous devez passer au système de tarification Azure standard. Cela coûte 1 USD par heure d'audio et prend en charge jusqu'à 20 demandes simultanées. Des frais supplémentaires sont impliqués si vous devez utiliser un modèle audio personnalisé ou transcrire des fichiers audio multicanaux. Ces services supplémentaires coûtent respectivement 1,40 $ et 2,10 $ par heure audio.

Bien que Microsoft répertorie ses prix dans un format «par heure audio», comme le veut la norme de l'industrie, la facturation est en fait divisée en incréments d'une seconde afin que vous ne payiez pas plus de temps de traitement que nécessaire.

Microsoft Azure Speech to Text: fonctionnalités

La fonctionnalité clé d'Azure Speech to Text est l'accès qu'il accorde au puissant système de traitement du langage naturel de Microsoft. Au cours des dernières années, l'IA vocale de Microsoft a franchi plusieurs étapes importantes. Cela signifie qu'il peut désormais effectuer des tâches auparavant impossibles pour un service de reconnaissance vocale, telles que la transcription précise de la diaphonie lors de conversations en petits groupes.

Le service Microsoft Azure Speech to Text peut s'intégrer à Office 365 pour une précision optimale.

Azure fonctionne avec des dizaines de langues et de dialectes et peut être formé - à l’aide de modèles de reconnaissance vocale personnalisés - pour mieux s’adapter au style de parole, au bruit de fond de l’environnement et au vocabulaire de l’utilisateur. Si votre organisation est déjà engagée dans l'écosystème de produits Microsoft, vous pouvez exploiter les données Office 365 de l'utilisateur pour améliorer la précision de la reconnaissance vocale pour les termes spécifiques à l'organisation. Et, surtout, cela peut être fait sans compromettre la sécurité de vos données, car Speech to Text peut être exécuté sur site.

Microsoft Azure Speech to Text: configuration

Microsoft Azure a été conçu pour les développeurs plutôt que pour les consommateurs. Cela signifie que sa mise en place est une procédure complexe et quelque peu difficile qu'il vaut mieux laisser à une personne possédant un grand savoir-faire technique.

La configuration d'Azure n'est pas vraiment simple, sauf si vous avez une expérience du codage.

Le moyen le plus rapide de configurer Azure consiste à utiliser le SDK Azure Speech dans un langage de programmation tel que Java ou C ++. Pour cela, vous devez créer un compte Azure gratuit et créer un projet vide dans votre environnement de développement. Vous devrez ensuite utiliser Microsoft Visual Studio et rédiger un programme court pour initialiser l’objet SpeechRecognizer de Microsoft.

Microsoft Azure Speech to Text: interface

Comme les autres plates-formes de transcription en bloc, Microsoft Azure Speech to Text est conçu pour être exécuté en tant qu'interface de programmation d'application (API), ajouté aux programmes Office 365 ou intégré à de nouvelles plates-formes et services. Pour cette raison, il n'y a pas d'interface unique Azure Speech to Text. Ce que l'utilisateur final verra dépend de la manière dont Azure Speech to Text a été intégré.

Le portail en ligne Azure est intuitif et facile à utiliser.

Pendant ce temps, le développeur qui gère Azure le fera via le portail Azure en ligne de Microsoft, qui semble moderne et facile à naviguer. La localisation de la page de ressources des services vocaux ne prend que quelques minutes et, une fois qu'une instance a été ajoutée à votre compte, les alertes de surveillance et l'utilisation peuvent être visualisées dans une seule fenêtre.

Microsoft Azure Speech to Text: performances

Dans le cadre de notre examen de Microsoft Azure Speech to Text, nous avons souhaité voir comment cette plate-forme a géré le défi du traitement des enregistrements vocaux bruts.Une fois que notre compte Azure était prêt, nous avons téléchargé une série de clips avec différents niveaux de bruit de fond. . Dans l'ensemble, Azure a bien traité nos échantillons, car nous n'avons constaté qu'une poignée d'erreurs au cours de notre évaluation.

L'activation du modèle vocal personnalisé d'Azure a amélioré la précision de notre transcription.

Azure a eu un peu de mal lors du traitement d'expressions inhabituelles ou spécialisées telles que les noms d'équipes sportives et les termes scientifiques au début, mais cela a été rapidement résolu en activant l'option de sortie de modèle personnalisé. Une fois que nous avons activé cette option, Azure a pu s'adapter au vocabulaire et au style de parole uniques que nous utilisions.

Microsoft Azure Speech to Text: prise en charge

Pour apprendre à interagir avec le SDK Azure Speech Services via différents langages de programmation et à intégrer les fonctions Azure Speech to Text dans votre propre plate-forme, vous aurez certainement besoin d'aide. Heureusement, Microsoft a créé un catalogue complet de supports de formation pour la plate-forme Azure, dans lequel vous trouverez des exemples de code et des conseils pratiques.

La section formation du site Azure contient de nombreuses ressources utiles.

En outre, tous les clients Azure bénéficient d'une prise en charge gratuite de la facturation et de la gestion des abonnements, accessible via un système de tickets. Une assistance plus approfondie peut être ajoutée à votre compte moyennant des frais récurrents, à partir de 29 $ par mois.

Microsoft Azure Speech to Text: verdict final

La plate-forme Azure Speech to Text utilise une technologie de pointe pour fournir un service de transcription presque parfait. Il convient parfaitement aux entreprises déjà investies dans l'écosystème Microsoft Office 365, car des modèles de voix et de vocabulaire personnalisés peuvent être générés en toute sécurité à partir de vos archives de documents existantes. Certaines petites entreprises peuvent avoir des difficultés avec Azure, car sa configuration nécessite l'attention d'un développeur cloud Microsoft qualifié.

La compétition

Amazon Transcribe, Google Cloud Speech-to-Text et Watson Speech to Text sont des concurrents directs de Microsoft Azure. Ces trois plates-formes sont également toutes capables d'exécuter avec précision des transcriptions par lots de gros volumes. Google Cloud est le seul concurrent proche capable de travailler avec plus de langues qu'Azure, mais il est plus cher, avec un taux de démarrage de seulement 0,006 USD par 15 secondes, contre 0,017 USD par minute (0,00425 USD par 15 secondes) d'Azure.

Pour trouver d'autres alternatives à Microsoft Azure Speech to Text, consultez notre guide du meilleur logiciel de synthèse vocale.

Articles intéressants...