L'édito de Philippe Bailly

Vous souhaitez recevoir l’Insight NPA ?

La BBC réfléchit à voix haute aux défis posés par les nouvelles interfaces vocales

Le département R&D de la BBC annonce sur son blog la mise en ligne avant la fin de l’année sur la plateforme BBC Taster, dédiée à ses projets expérimentaux, d’un « drama audio interactif » pour les assistants personnels Amazon Echo et Google Home. S’il ne faut sans-doute pas s’attendre à un premier format immédiatement capable de révolutionner les usages, le projet s’inscrit dans une nécessaire exploration des nouvelles opportunités offertes par ces nouveaux terminaux aux industries de contenus audiovisuels.

Le projet qui s’intitule The Inspection Chamber, repose sur une expérience interactive nécessitant pour l’instant les interfaces vocales Alexa via Amazon Echo ou OK Google via le Google Home. Mais la BBC assure que l’une des forces de son projet est précisément d’être nativement multiplateformes et de pouvoir ainsi être ultérieurement disponible sur d’autres assistants à commencer par le HomePod d’Apple et les enceintes Harman Kardon Invoke propulsées par Cortana, l’assistant virtuel de Microsoft. Il ne s’agit donc pas d’un partenariat entre le groupe public et l’un des constructeurs mais bien d’un projet autonome et technologiquement agnostique. La BBC en revanche a eu recours à l’expertise de l’agence britannique RosinaSound, à la fois société de production et laboratoire spécialisé dans l’innovation sonore, et avec laquelle elle travaille déjà sur le son binaural ou des formats originaux pour ses stations de radio. Concrètement, le « drama audio interactif » progresse en fonction des réponses que l’auditeur apporte aux questions qui lui sont posées. Mais, contrairement à d’autres formats interactifs plus basiques, l’auditeur est un des personnages de cette fiction d’anticipation et interagit directement avec le narrateur. On peut donc s’attendre à une expérience immersive avec une histoire ouverte et non linéaire directement influencée par les choix des auditeurs.

• Une expérimentation qui s’inscrit dans un programme de travail plus large sur les interfaces vocales

Comme tout projet expérimental, et la BBC n’en est pas avare, il ne faut sans-doute pas s’attendre à une expérience audio immédiatement disruptive. D’ailleurs, force est de constater que les premières vidéo du projet ne sont pas particulièrement impressionnantes même s’il est évidemment compliqué de restituer la dimension interactive et immersive du projet. Le plus intéressant reste la démarche amont de la BBC qui travaille depuis 2016 au sein de son département R&D sur les nouvelles interfaces vocales dans le cadre du programme « Talking with Machines » et dont le drama The Inspection Chamber ne représente qu’une première expérimentation concrète. Les premiers résultats du programme seront présentés cette semaine à Amsterdam dans le cadre de l’IBC 2017, jeudi 14 septembre, lors d’une session dédiée, animée par son coordinateur Henry Cooke.

L’enjeu pour le groupe public britannique est de comprendre les opportunités offertes par les nouveaux assistants personnels afin d’explorer leur potentiel pour concevoir de nouvelles interfaces basées sur la voix et la conversation. Grâce à la compréhension étendue non seulement des mots mais aussi des contextes, ces nouveaux terminaux ouvrent la possibilité de converser réellement avec les machines. Et il est évident que le média radio, par nature émetteur d’émissions sonores, est particulièrement bien placé pour profiter de ces nouvelles interfaces, à condition de s’y préparer dès aujourd’hui.

Le projet comporte deux volets principaux: un volet technologique, qui vise à construire le framework, l’environnement de développement prenant en compte les différentes plateformes, en commençant par Amazon Echo et Google Home, et ce afin de comprendre leurs spécificités et contraintes respectives ; et un volet axé sur la conception, pour mettre au point les nouveaux codes de l’expérience utilisateur sur ces interfaces vocales (VUI pour Voice-user Interface). Ce second volet est lui agnostique technologiquement puisque la VUI est une approche générale, indépendante de toute plateforme ou d’un dispositif particulier. Au contraire, l’enjeu est d’inventer une nouvelle grammaire capable de s’adapter à toutes les nouvelles plateformes axées sur la voix qui ne manqueront pas de se multiplier à l’avenir.

Globalement, le projet nécessite donc la constitution d’équipes multidisciplinaires avec des compétences en développement informatique, des compétences éditoriales et des spécialistes de la conception centrée utilisateur, UX et UI.

• Les premières pistes de travail de la BBC R&D sur les assistants personnels

Les différentes publications du département R&D du groupe public sur le programme « Talking with Machines » laissent entrevoir des premières pistes de travail, allant de la mise en place d’une méthode globale à des premières pistes de développement en termes d’applications.

Le premier objectif, un objectif de court terme est donc la mise en place d’une méthode de travail. Celle-ci peut se résumer en un mot, le prototypage. Les équipes du projet ont construit de toute pièce une sorte de cartographie de différents scénarios possibles, référençant un ensemble de situations types dans lesquelles les utilisateurs peuvent utiliser un dispositif de commande vocale. Des situations très variées allant de celle d’un automobiliste coincé dans des embouteillages à celle par exemple d’une mélomane en quête d’informations sur un opéra, en passant par le goûter d’anniversaire d’un jeune garçon d’une dizaine d’années. Ces scénarios reposent sur une dizaine d’éléments clés qui sont croisés dans tous les sens (le socle de la VUI) pour précisément devenir des scénarios : qui est concerné ? Quel est le contexte ? Quel est l’état émotionnel ? Quel terminal est utilisé ? Quels peuvent être les différents types de questionnement ? Quelle est l’intonation vocale adaptée à la réponse ?

Une fois la banque de scénarios suffisamment riche, les équipes du projet les déclinent en storyboard afin de réfléchir in situ à des applications, des services ou des skills pour reprendre la terminologie d’Amazon, qui pourraient être développés pour s’insérer dans le scénario.

Ce sont les scénarios qui font naître les idées d’applications. Quand celles-ci sont pensées, elles sont systématiquement testées, virtuellement, grâce à des sortes de jeux de rôle et un support technologique assez léger (outil ad-hoc développé par la BBC R&D à base de langage de programmation Python et du moteur vocal proposé par OS X). Ces tests sont systématiques et permettent d’abandonner très vite certaines pistes, d’en retenir certaines autres, et dans ce cas de comprendre rapidement quels impératifs doivent être respectés, quelles erreurs évitées, quelles combinaisons VUI sont les plus efficaces pour que le mode conversationnel soit accepté et réponde aux problématiques soulevées par un scénario donné. Quand la bonne formule est trouvée, alors un prototype logiciel peut être développé via le framework des équipes techniques.

Au-delà de cette méthode globale et des premiers enseignements très pratiques sur les contraintes de la VUI, le programme « Talking with Machines » a permis à la BBC d’identifier plusieurs grands types de services ou de contenus potentiellement adaptés aux interfaces vocales et aux assistants personnels. Ceux-ci vont des plus évidents aux plus complexes, dont fait partie le premier drama audio interactif présenté cette semaine. Pour simplifier, trois usages sont concernés auxquels correspondent les trois types de service. La prise de contrôle par la voix ou la commande vocale du média radio. La radio devient grâce à la VUI un média interactif et personnel avec une voix de retour permettant à chaque auditeur de demander une programmation spécifique. Les usages à la demande, déjà explorés par les groupes radiophoniques grâce à la diffusion sur IP peuvent se généraliser grâce à une nouvelle interface vocale particulièrement adaptée. Et dans un second temps, la brique d’intelligence artificielle des nouveaux assistants peut permettre, à force d’apprentissage des habitudes de chaque auditeur, de proposer des contenus adaptés au moment et au lieu. Ensuite, des usages plus « encyclopédiques » avec des applications basées sur les données, les archives du média radio. L’idée de la BBC ici est de mettre à profit la VUI pour réfléchir à une interactivité basée sur la somme de ses contenus, de ses savoirs, disponibles dans l’ensemble de ses archives. L’interface vocale doit à terme permettre à ses auditeurs d’interroger cette gigantesque base de connaissances. La BBC se positionnerait ainsi sinon au-dessus, du moins aux côtés de Google comme principal point de contact pour répondre à une question et apporter de l’information. Un objectif évidemment très ambitieux et qui nécessite au préalable un travail de restructuration des différentes sources de données, de réflexion sur de nouvelles techniques pour les collationner et pour les représenter sous forme vocale afin de pouvoir répondre à l’utilisateur. Enfin, un troisième type d’usage, plus ludique, avec des applications capables d’incarner de nouvelles expériences narratives, comme tente de le faire The Inspection Chamber. Vaste chantier que commence donc tout juste à explorer la BBC qui apporte une fois de plus la preuve de sa sensibilité aux nouvelles technologies pouvant potentiellement impacter son développement futur.

Vous êtes abonnés à l’Insight NPA ? Merci de renseigner vos identifiants pour accéder à l’ensemble de cet article.

Pas encore inscrit à l'Insight NPA ?