Examen de Watson Speech to Text: Le meilleur service de transcription à haut volume?

Watson est le système informatique de traitement du langage naturel d’IBM. Il alimente le célèbre supercalculateur de réponses aux questions ainsi qu'une série de produits d'entreprise basés sur l'IA, notamment Watson Speech to Text. Dans notre examen de Watson Speech to Text, nous examinerons l'une des meilleures applications de synthèse vocale, idéale pour tous ceux qui souhaitent convertir l'audio en texte à grande échelle.

La plate-forme de traitement de la parole Watson est disponible sur IBM Cloud. C’est un outil polyvalent qui peut être utilisé dans de nombreux contextes, y compris la dictée et la transcription d’une conférence téléphonique. De plus, contrairement à la plupart des autres applications de synthèse vocale, elle est disponible sous forme d’API, ce qui permet aux développeurs de l’intégrer dans des systèmes de commande vocale, entre autres.

Watson Speech to Text: forfaits et tarifs

Vous pouvez utiliser Watson Speech to Text pour traiter gratuitement jusqu'à 500 minutes d'audio par mois. Si vous souhaitez convertir plus que cela, vous devrez payer pour chaque minute audio et le tarif change en fonction de la durée de l'audio traité. Les coûts varient de 0,01 USD à 0,02 USD par minute, et des frais supplémentaires de 0,03 USD par minute s'appliquent si vous avez besoin du modèle de langage personnalisé d'IBM. Des plans Watson premium uniquement sur devis sont également disponibles et permettent d'accéder à des fonctionnalités améliorées de confidentialité des données et à des garanties de disponibilité.

Le prix du service de synthèse vocale de Watson est basé sur le volume de contenu que vous devez transcrire.

Vous pouvez également accéder au système Watson Speech to Text via un abonnement IBM Cloud à usage général. Le traitement du langage naturel n'est qu'une application parmi une large gamme de services d'IA que vous pouvez obtenir via IBM Cloud, c'est donc une bonne option pour toute organisation qui a besoin d'accéder à des transferts de données à haut débit, des chatbots ou des outils de synthèse vocale.

Watson Speech to Text: fonctionnalités

Grâce à l'intégration flexible d'API et à d'autres outils IBM pré-construits, le service de reconnaissance vocale Watson va bien au-delà de la transcription de base. Si vous souhaitez l'utiliser dans un contexte de service client, par exemple, Watson Assistant peut être configuré pour traiter directement les questions en langage naturel ou répondre aux requêtes par téléphone.

Dans Watson, IBM a mis en place une plate-forme de traitement du langage naturel riche en fonctionnalités.

Watson fonctionne avec l'audio en direct dans 11 langues et peut importer des sons dans une variété de formats préenregistrés. Lors de la diffusion en continu, la prise en charge des diagnostics en temps réel signifie que Watson peut inviter les utilisateurs à se rapprocher de leur microphone ou à modifier leur environnement. Le fait que Watson puisse distinguer les différents orateurs dans une conversation partagée est également impressionnant grâce à la diarisation des haut-parleurs, une fonctionnalité encore en cours de test bêta.

Watson Speech to Text: configuration

Pour utiliser Watson, la première chose à faire est de créer un compte IBM Bluemix. L'inscription est gratuite et sans effort, ne nécessitant qu'une adresse e-mail et un mot de passe. Une fois connecté, vous devez ajouter une disposition sur votre compte pour le service Speech to Text. À ce stade, vous recevrez quelques informations d'identification que vous devrez enregistrer dans vos propres dossiers.

L’enregistrement d’un compte IBM Bluemix est nécessaire pour accéder à l’ensemble des fonctionnalités de Watson.

Une fois que vous avez fait cela, les choses deviennent beaucoup plus complexes. Pour accéder à Watson, vous devez ajouter ces informations d'identification à un lot de code cURL (Uniform Resource Locator) client, puis l'exécuter sur votre ordinateur. Pour savoir exactement quelle commande appeler, consultez ce guide pratique. Sinon, si vous voulez simplement voir à quel point le système Watson fonctionne sans avoir à passer par tous ces obstacles, vous pouvez l’essayer sur le site de démonstration d’IBM.

Watson Speech to Text: Interface

Contrairement aux applications de voix-texte destinées aux consommateurs, les services de Watson sont conçus pour être accessibles via des API et du code intégré dans d'autres systèmes. Pour cette raison, il n’existe pas de véritable «interface» Watson. Au lieu de cela, Watson est accessible via trois protocoles Internet différents. Il s'agit de WebSockets, de l'API REST et de Watson Developer Cloud.

Watson Speech to Text peut être géré via le système Watson Developer Cloud.

Pour contrôler Watson, vous devrez utiliser un outil de ligne de commande qui se connecte au cloud d'IBM via l'une de ces trois routes. L'interface que voit l'utilisateur final qui interagit avec Watson devra être créée séparément par un membre de votre équipe de développement.

Watson Speech to Text: performances

Dans l'ensemble, nous avons été impressionnés par la façon dont cette plate-forme de traitement du langage naturel gérait la vraie parole. Nous avons utilisé Watson pour transcrire des clips que nous avons enregistrés dans une gamme d’environnements difficiles, ainsi que des extraits sonores de discours célèbres prononcés dans plusieurs des 11 langues prises en charge par Watson.

Nous avons constaté que Watson fonctionnait bien avec un discours préenregistré.

Bien que les erreurs soient devenues plus fréquentes pour les clips avec beaucoup de bruit de fond, en général, Watson a produit des résultats incroyablement précis. D'après nos tests, nous estimons que des erreurs spontanées ne se sont produites qu'une fois tous les 150 mots en moyenne. Cependant, il est devenu clair pourquoi la fonction de diarisation des haut-parleurs de Watson reste dans les tests BETA car, à plusieurs reprises au cours de notre évaluation, une voix a été étiquetée à tort comme des haut-parleurs séparés.

Watson Speech to Text: prise en charge

Le centre de ressources IBM propose une documentation abondante pour mieux comprendre comment appliquer Watson à votre cas d'utilisation particulier. Il vaut également la peine d'utiliser les intégrations d'API et les SDK créés par la communauté de développeurs Watson et publiés sur GitHub.

La page Watson API GitHub est une bonne source de support pour le service Watson Speech to Text.

Si vous n'y trouvez pas la solution à votre problème, vous pouvez contacter IBM directement en ouvrant un ticket d'assistance ou en les contactant par téléphone. Tant que vous avez opté pour l'un des packages Watson premium, votre utilisation Watson sera protégée par un contrat de disponibilité de niveau de service.

Watson Speech to Text: verdict final

Si votre entreprise dispose du savoir-faire et des ressources nécessaires pour intégrer correctement la plate-forme IBM Watson Speech to Text dans votre système, vous bénéficierez de fonctions avancées telles que les diagnostics d'environnement sonore en temps réel et les résultats de transcription intermédiaires. Cependant, les petites entreprises et organisations auront du mal à relever le défi technique de la configuration correcte de Watson.

La compétition

Le service IBM Watson Speech-to-Text est un concurrent direct des services de transcription en masse Google Cloud Speech-to-Text et Amazon Transcribe. Les deux sont nettement moins chers que Watson, avec la transcription Google Cloud, par exemple, à partir de 0,006 USD par minute. Les trois services partagent des fonctions similaires, telles que le vocabulaire personnalisé, mais une fonctionnalité qui manque cruellement à IBM Watson mais disponible avec les deux concurrents est la reconnaissance automatique de la ponctuation.

Vous recherchez une autre solution de spoeech-to-text? Consultez notre guide des meilleurs logiciels de synthèse vocale.