Assistants vocaux avec Alexa – 21 février 2019

Philippe Daly, General Manager Alexa Skills, Amazon Jamal Lassri, Directeur de linnovation et des nouvelles formes découte, Europe 1 Pierre Chausse, Directeur adjoint des rédactions, Le Parisien Audrey Ferrante, Directrice de la stratégie de Marque, Marmiton Gwendoline Michaelis, Directive Exécutive du pôle Preemium, Prisma Media 

 

Une table ronde animée par Joel Ronez, Fondateur de Binge 

 

Le marché des assistants vocaux est un marché encore jeune avec des perspectives de croissance importantes. Dans les prochaines années, les interactions avec les objets connectés se feront de plus en plus par la voix : En 2020, sur les 200 milliards de requêtes formulées, 50% devraient lêtre par la voix

Près de 9 mois après le lancement dAlexa en France, Philippe Daly, General Manager dAlexa Skill et 4 éditeurs de Skill, ont accepté de partager leurs retours dexpériences avec les membres du GESTE. Ces Skills ne reposent pour le moment sur aucun modèle économique tangible, mais constitue un nouveau canal dengagement. La logique conversationnelle permet également aux marques davoir une proximité particulière avec leurs utilisateurs

 

Quelles sont les clés de succès dune Skill

 

Soigner le design conversationnel : Une bonne Skill repose sur un arbre conversationnel bien construit. Il doit être le plus naturel possible. Les éditeurs ayant cherché à intégrer dès le départ des fonctionnalités trop complexes sont rapidement revenus vers un schéma plus simple, permettant, dans un premier temps, dappréhender au mieux la technologie. Répondre à une diversité dutérances : Les utérances sont des séries de phrases ayant la même intention mais formulées différemment. Pour fluidifier lexpérience de l’utilisateur, il faut parvenir à appréhender lensemble des manières quil va avoir dinteragir avec la Skill. Avoir une approche user centric Coller à lADN de sa marque : Léditeur dune Skill doit penser aux cas dusages qui exploitent la voix et peuvent rendre grâce à la marque, sans séloigner de lADN de sa marque. Il faut notamment trouver un ton adapté et la bonne voix

« Content Audio is king » : La production audio est fondamentale. Il sagit dune vraie expertise que les éditeurs de Skill doivent placer au coeur de leur stratégie

Lexigence éditoriale 

 

Quels sont les enjeux des prochaines années

 

Trouver un modèle économique et de nouvelles opportunités de monétisation Adresser des utilisateurs en multidevice Mesurer et qualifier laudience Identifier un contexte découte 

Présentation dAlexa 9 mois après le lancement en France 

Le lancement dAlexa en France a eu lieu en Juin 2018, le temps notamment que lintelligence artificielle dAmazon apprenne le français. De nombreuses marques ont joué le jeu en amont du lancement, particulièrement les radios qui ont lexpertise de la création et de la production audio

Les marques ont fait le choix de se positionner pour différentes raisons : innover, apporter un gameplay différent, être présent sur un nouveau canal de prise de commande, générer des nouvelles habitudes de consommation et daccès à linformation

En lespace de 6 mois, il y a eu un engouement extrêmement fort de la part de la communauté des développeurs pour Alexa. (258 Skills au moment du lancement, 1000 Skills fin 2018)

 

I Questce quune Skill

 

Les Skills (ou Applications dAlexa) sont le territoire les développeurs et les marques peuvent sexprimer et offrir aux clients dun device Echo ou de nimporte quel device ayant intégré Alexa, lexpérience de marque quils peuvent trouver sur dautres canaux

 

I Quelle technologie permet dembarquer Alexa ?

 

Lenceinte capable de faire tourner Alexa, se compose

Dun speaker D’un microphone Dune connexion internet 

Amazon a lancé sa propre gamme denceintes connectées (Gamme Echo), mais nimporte quel objet ayant cette configuration technique peut embarquer Alexa

Beaucoup de marques ont compris lintérêt dintroduire Alexa dans tous les devices, parmi lesquelles deux mastodontes français : Free et Orange. Free a intégré Alexa au sein de sa Freebox Delta de manière très rapide et Orange a annoncé la sortie prochaine dun speaker qui intègre lintelligence artificielle dAmazon

Amazon mise également sur sa gamme Echo Spot, une enceinte connectée avec écran intégré. Ce device permet à léditeur qui souhaite tenter lexpérience de la multimodalité dengager davantage lutilisateur en lui proposant un service additionnel

 

| Quelles catégories de Skills ont connu la plus forte croissance

 

Catégorie Kids : Au lancement il y avait seulement 6 Skills, il y en a désormais plus de 60 et cest aujourdhui la catégorie les rating sont les plus élevés

Domotique : de 40 Skills au lancement à 180 aujourdhui. Les produits domotiques sont, le plus souvent, des produits globaux. Il est rare davoir un produit domotique qui ne concerne quun pays. La plupart des acteurs ont voulu se positionner sur le marché français. Au lancement, 500 produits étaient certifiés compatibles avec 

Alexa, aujourdhui il y en a plus de 700. La France est lun des pays la certification a eu une croissance extrêmement rapide

 

I Quels sont les canaux de monétisation

 

Amazon ne souhaite pas financer de Skill, ni rémunérer dagence pour créer une Skill par lintermédiaire dun mandataire. La monétisation vient de trois canaux

Le programme « Amazon developper reward » : Le principe est de pouvoir rémunérer les développeurs des petites structures qui ont développé des Skills qui génèrent de lengagement. In Skill purchase, équivalent de lin App purchase Amazon Pay : qui permet de pouvoir effectuer un paiement au sein dune Skill 

 

Focus sur la Skill Marmiton 

 

Marmiton est le premier site de recette de cuisine en France donnant accès à une base de données de plus de 70 000 recettes de cuisine, que Alexa a pu intégrer intégralement. Plus de 2000 ingrédients ont été appris par Alexa. Marmiton est la Skill par défaut pour la cuisine. Elle fait partie des plus notées (+ de 1500 notes) et enregistre une progression de plus de 400 % au niveau des VU entre juillet 2018 et janvier 2019

La partie assistants vocaux faisait sens pour trois raisons

La dimension servicielle : Lobjectif est de donner accès à une base de données de recettes très fournie de la manière la plus simple possible afin daméliorer le quotidien des utilisateurs

Linnovation : Marmiton a toujours eu à coeur de proposer à sa communauté des expériences qui renouvèlent le processus de préparation culinaire

La logique de conversation : La food est un sujet qui génère des milliers de conversations au quotidien. Il était naturel pour Marmiton de se tourner vers le langage universel le plus naturel : la voix

Pour simplifier la démarche, Marmiton sest concentré dans un premier temps sur les scenarii les plus utilisés sur la plateforme

Lutilisateur est en cuisine et sapprête à faire sa recette, partie pasàpas : Quand lutilisateur cuisine, la voix doit aider à ne pas aller sur lécran. A la voix, il est possible de passer dune étape à lautre simplement ainsi que de demander les quantités dingrédients et les retrouver au fur et à mesure de lexpérience. Pour le moment il nest pas encore possible de revenir en arrière

Lutilisateur cherche une recette selon trois critères (nom de recette, ingrédients, idées) avec un moteur qui remonte les réponses les plus pertinentes au regard de la puissance de la note et dun point de vu SEO

Le travail en multimodal se rapproche plus du coeur de métier de Marmiton et offre des possibilités de monétisation: Les ingrédients apparaissent et la liste se déroule doucement. Les marques peuvent sponsoriser certains ingrédients et leur logo peut apparaitre à côté du produit. Le multimodal permet également dafficher les avis, qui constituent une part importante de l‘ADN de Marmiton

Les utilisateurs peuvent également avoir accès à des flashbriefing sponsorisés par Daucy donnant accès aux idées de recettes du jour ainsi quà des astuces culinaires

 

Focus sur la Skill Hondelatte Raconte 

 

Lémission Hondelatte Raconte est une émission au cours de laquelle Christophe Hondelatte revient sur des faits divers qui ont marqué lactualité. Dans une première partie lanimateur remet en perspective et raconte les histoires qui ont fasciné les Français avant de les disséquer en compagnie de ses invités dans une seconde partie. Europe 1 croit énormément aux nouveaux usages et notamment aux assistants vocaux qui permettent de créer de nouvelles formes dinteractions avec les auditeurs. La radio a notamment lancé le Label Europe 1 Studio destiné à développer les nouvelles formes de radio : Podcast, Assistants vocaux ..

Hondelatte raconte est aujourdhui lémission la plus podcastée des programmes 

dEurope 1. Lenjeu était donc de ne pas décevoir les auditeurs habitués, tout en proposant un produit innovant et adapté aux nouvelles formes découte. La première décision a été de raccourcir le format de lémission originale (1 h) et de ne proposer que la première partie, à savoir le récit du fait divers

Larbre conversationnel a ensuite demandé un travail important aux équipes opérationnelles. Les premiers essais nétaient pas concluants car trop complexes, ce qui aurait pu perdre les auditeurs. Les équipes ont donc décidé denlever certaines fonctionnalités et de revenir à un schéma plus simple avec trois possibilités de ponses : OUI/NON / AUTRE 

Une fois le schéma construit, léquipe éditoriale a pleinement été impliquée dans le projet. Lanimateur Christophe Hondelatte a dailleurs enregistré toutes les voix de la Skill Hondelatte Raconte donnant ainsi une véritable identité à la Skill

Un travail particulier a également été réalisé au niveau des utérances pour fluidifier au mieux lexpérience utilisateur

 

Focus sur la Skill Téléloisir 

 

Le groupe Prisma a lancé son activité audio début 2018 et a mis en place une cellule Audiodigitale avec des équipes dédiées depuis Septembre 2018. Prisma a directement démarré son activité audiodigitale avec des fonctionnalités pour les assistants vocaux. Aujourdhui, il y a une vingtaine de programmes de podcasts réguliers avec plus de 700 épisodes, qui couvrent la plupart des marques Prisma. La présence sur les assistants vocaux est encore anecdotique mais enregistre des résultats satisfaisants, il y a notamment eu un pic au moment des fêtes de fin dannée

La Skill Téléloisir est la Skill embarquée sur Alexa. Laccès au programme TV est une requête très demandée par les utilisateurs dassistants vocaux

Lenjeu est de faire « écouter »» un programme TV, qui normalement se visualise et se lit rapidement. On note un changement de paradigme : on passe dun contrat de lecture (pour les produits traditionnels de Téléloisir, à un contrat de service pour la Skill

Laccès au programme TV uniquement en audiodigital, demande à toutes les équipes opérationnelles, y compris aux développeurs, de se mettre à la place de lutilisateur

Larbre conversationnel a été assez complexe à mettre en place et fait toujours lobjet dun travail de développement afin de proposer lapproche la plus granulaire et la plus fluide possible aux auditeurs

Les personnes qui consultent la Skill Téléloisir le font en moyenne 4 fois par jour. 50% des demandes concernent le programme du soir

Le multimodal sur Amazon Echo permet davoir une approche plus confortable dans la mesure on retrouve le visuel, qui est la voie la plus naturelle pour consulter un programme TV

Focus sur la Skill Le Parisien Le Parisien a fait appel à Binge Audio dans le but de produire un Flasbriefieng quotidien denviron 4 à 5 sujets : Il sagit dun format court avec des informations un peu plus longues qu‘un flash (narrative news). Ce flash est multidiffusé, notamment sur Deezer et Apple Podcast mais est majoritairement écouté sur Alexa

Pour ce flashbriefieng, le Parisien na pas souhaité aller sur le terrain du « breaking news ». Lobjectif était davoir une information qui puisse être écoutée à J+1 sans être datée

Le Parisien a souhaité que la Skill soit un produit très identitaire, qui réponde aux recommandations dAmazon (format court) et qui ne soit pas du text to speech

Le travail éditorial est différent de celui réalisé pour des flashs radios traditionnels ou des podcasts : ll a fallu personnaliser lexpérience et être plus proche de lauditeur : Ainsi, avant chaque flash, un journaliste se présente, donne son prénom, et s’adresse directement à lauditeur.