Comment la technologie vocale pourrait vous faire gagner beaucoup de temps

Femme écoutant un son

Gagner du temps et se débarrasser des tâches fastidieuses : le progrès technologique repose souvent sur la résolution de ces deux besoins inhérents au travail. Et si l’on en croit le rachat de Nuance par Microsoft, cette semaine, c’est bien parce que la seconde croit fortement dans la capacité de la première à le faire : utiliser les technologies vocales pour faciliter le travail des personnels soignants. Et quand vous aurez lu l’article, vous comprendrez rapidement qu’il n’y a pas que dans ce domaine que ce genre de solutions pourraient rendre de grands services.

La mise au placard du fameux dictaphone

Je me suis toujours senti un peu mal à l’aise quand le médecin spécialiste en face de moi terminait notre rendez-vous en dictant un rapport à un dictaphone dont le design semblait disputer à la perfection technologique. Sachant que ce qu’il adressait à son petit appareil, en parlant de mon corps, serait ensuite soigneusement « tapé à la machine » par son assistante en blouse blanche, dans la salle à côté.

Ainsi allait la vie dans les cabinets médicaux des spécialistes où le temps passé à dicter des rapports constituait une partie non négligeable de l’activité. Mais avec l’arrivée des technologies de reconnaissance vocales, les choses ont commencé à changer. Plus besoin de l’assistante, la machine retranscrivait de plus en plus efficacement la prose de l’éminent carabin*.

Le progrès technologique étant sans fin et la voracité innovatrice des ingénieurs insatiable, le sujet de la reconnaissance vocale connait depuis quelques années de fulgurantes avancées grâce à l’IA. Ces algorithmes améliorent notablement la saisie vocale en diminuant fortement les erreurs et les temps de relecture. Mais pour Nuance cela n’était pas encore assez et il devint assez évident qu’il devenait possible de faire mieux. Comme, par exemple, « comprendre » le contenu d’un rapport et en extraire des données structurée pour alimenter le fichier d’un patient.

Il y a 2 ans, cette startup, commença à expérimenter et commercialiser un tout nouveau système de reconnaissance vocale et d’assistance pour certains spécialiste médicaux. Implanté dans une « enceinte intelligente » comprenant 14 micros et un détecteur de mouvements, ce système permet d’aller beaucoup plus loin que la simple retranscription d’un rapport.

Il analyse, en effet, en temps réel, la conversation entre un patient et son médecin, mais aussi, comme vous l’aviez peut-être compris, la gestuelle du patient. En quelques instants, cette IA, puisque c’est bien de ça dont il s’agit, peut en fin de rendez-vous générer le rapport que le médecin aurait lui même dicté, tout en en classant certaines données pour alimenter un fichier de données à des fins de suivi, mais également de statistiques de santé.

Pour en revenir à ce que j’écrivais au début de ce billet, le progrès réalisé est énorme. On imagine tout le temps additionné de tous les cabinets médicaux de France utilisant ce genre de technologie, cela ferait une sacré économie !

Machine-learning et fiabilité

Mais tout n’est pas si merveilleux au monde de l’IA vocale. Lorsque Nuance proposa sa solution en 2019 demeuraient encore beaucoup de questions sur son usage, la moindre n’étant pas celle de son acceptation par les patients. Être filmé et enregistré nécessite non seulement une approbation, mais aussi une discrétion qui permette de se faire oublier. Je l’ai toujours dit, les meilleures technologies sont les plus transparentes : plus c’est visible, moins ça passe :-).

Et puis, la reconnaissance vocale nécessitait et nécessite toujours un long temps d’apprentissage :

  • d’une part pour arriver à parfaitement retranscrire des conversations entre plusieurs personnes,
  • d’autre part, pour parvenir à interpréter le sens des mots et des phrases dans des contextes médicaux spécialisés, chaque spécialité ayant son langage propre, qu’une machine ne peut pas simplement transposer d’un domaine à un autre.

Ce temps, incompressible, et difficilement évaluable, est sans doute aujourd’hui le frein principal à leur développement. Leur apprentissage est un long et sempiternel aller-retour erreur/correction jusqu’à obtenir la compréhension presque parfaite de ce qui est dit.

Difficulté supplémentaire : l’établissement de la confiance entre l’humain et la machine. Qu’un algorithme d’IA se trompe lorsqu’il s’agit d’une recommandation produit sur un site ecommerce ne prêtera pas à conséquence (sauf à ce que vous soyez déçu pour votre achat). Lorsqu’il s’agit de santé, le risque est tout autre ! C’est d’ailleurs pour cette même raison que le développement de l’automobile autonome prend tant de retard. Remettre sa vie entre les mains d’un robot autonome demande un effort de confiance dont peu de monde, je pense, est capable.

Dans le cas de la santé, cette confiance requiert également du temps, puisque concrètement il s’agira de vérifier « manuellement » la cohérence entre la réalité et la transcription numérique par un algorithme de cette réalité.

Conclusion

A l’heure où j’écris ces lignes se tiennent des millions de réunions en présentiel, pour les plus chanceux, ou en visio, pour la plupart d’entre nous. Des milliards de conversations sont échangées sans qu’il n’en reste aucune trace. Une fois la caméra coupée, elles s’effacent dans le néant et on ne peut compter que sur les bonnes âmes pour en garder une, souvent maigre, retranscription.

L’information et la communication sont pourtant des ingrédients essentiels du bon fonctionnement des sociétés humaines dans tous les domaines. En entreprise, comme dans les cabinets médicaux. Les retransmettre précisément, mais, plus encore, pouvoir en retirer des données structurées qui permettent d’améliorer la qualité ou le rendement d’une organisation est donc une promesse que la reconnaissance vocale via l’IA pourrait donc bien remplir d’ici quelques années.

Cette évolution est déjà l’oeuvre (d’où l’opération de rachat de Microsoft) et ses domaines d’exploitation sont presque infiniment nombreux. De nombreux services pourraient être proposés en l’utilisant et il ne reste plus qu’à les inventer.

Alors à vos ateliers de design thinking !

Via Stat : ‘Wired into the walls’: Voice-recognition system promises to automate data entry during office visits

Photo par João Marinho

*carabin : médecin, en argot

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *