La description d’Andrew Mason accroche 15 millions de dollars, acquiert Lyrebird pour permettre aux utilisateurs de taper du texte pour créer de l’audio dans leurs propres voix

@ingridlunden / 3h19 PDT • 18 septembre 2019

Crédits d’image: ChaiyonS021 /

L’essor de la popularité du podcasting a donné une nouvelle voix au monde du contenu parlé qui avait été largement laissé pour mort avec le déclin de la radio diffusée. Surfant maintenant sur la vague de cette croissance, une start—up appelée Descript qui développe des outils pour rendre l’art de créer des podcasts — ou tout autre contenu qui implique de travailler avec l’audio – un peu plus facile avec des outils de transcription et d’édition audio, a un trio d’annonces: financement, acquisition et lancement d’un nouvel outil qui apporte une partie de la magie du traitement du langage naturel et de l’IA au médium en permettant aux gens de créer l’audio de leurs propres voix à partir du texte qu’ils tapent.

Descript, la dernière start-up du fondateur de Groupon, Andrew Mason, créée en tant que spin-off de son entreprise d’audioguides Detour (rachetée par Bose l’année dernière), annonce aujourd’hui un financement de 15 millions de dollars, une série A pour développer l’entreprise (y compris l’embauche de plus de personnes) qui vient d’Andreessen Horowitz (elle a également financé le cycle de démarrage de la startup en 2017) et Redpoint.

Parallèlement à cela, la société a acquis une petite start-up canadienne, Lyrebird – qui avait, comme Descript, également construit des outils d’édition audio. Ensemble, les deux déploient une nouvelle fonctionnalité pour Descript appelée Overdub: les gens pourront désormais créer des « modèles » de leurs voix qu’ils pourront à leur tour utiliser pour créer de l’audio à partir de mots qu’ils tapent, faisant partie d’une suite de production plus grande qui permettra également aux utilisateurs d’éditer plusieurs voix sur plusieurs pistes. L’audio peut être autonome ou la piste audio d’une vidéo.

(La transcription vidéo fonctionne un peu différemment: Lorsque vous ajoutez des mots ou que vous les retirez, la vidéo fait des sauts pour tenir compte des changements de timing.)

Overdub est le dernier ajout à un produit qui permet aux utilisateurs de créer des transcriptions instantanées de texte audio qui peuvent ensuite être coupées et potentiellement augmentées avec de la musique provenant d’autres fichiers audio à l’aide d’outils de glisser-déposer qui éliminent la nécessité pour les podcasteurs d’apprendre l’ingénierie du son et les logiciels d’édition. L’accent non technique du produit a donné à Descript une suite parmi les podcasteurs et autres qui utilisent un logiciel de transcription dans le cadre de leurs suites de production audio. Le prix du produit est au format freemium: sans frais pour un maximum de quatre heures de contenu vocal, et 10 $ par mois après cela.

isométriqueoverdubcapture d'écran de l'applicationenregistrement

À l’ère de la définition du marché, des fausses nouvelles gagnantes aux élections aidées et encouragé par la technologie, vous seriez pardonné de vous demander si Overdub n’était peut-être pas une autoroute menant à Deep Fake City, où vous pourriez utiliser la technologie pour créer n’importe quelle manière de « déclarations » de voix célèbres.

Mason me dit que l’entreprise a construit un moyen d’empêcher que cela puisse se produire.

La démo sur la page d’accueil de l’entreprise est créée avec une voix propriétaire spéciale uniquement à des fins d’illustration, mais pour activer réellement la fonction d’édition et d’augmentation d’un morceau de leur propre audio, les utilisateurs doivent d’abord enregistrer un certain nombre de déclarations répétées, basées sur du texte créé à la volée et en temps réel. Ces clips audio sont ensuite utilisés pour façonner votre profil vocal numérique.

Cela signifie que vous ne pouvez pas, par exemple, introduire l’audio de Donald Trump dans le système pour créer une version du président disant qu’il est terriblement désolé d’avoir suggéré que construire des murs entre les États-Unis et le Mexique était une bonne idée, et que cela ne rendrait pas, en fait, l’Amérique grande à nouveau. (Dommage.)

Mais si vous souscrivez à l’idée que les avancées technologiques en PNL et en IA sont globalement une boîte de Pandore, le chat est déjà sorti du sac, et même si Descript ne le permet pas, quelqu’un d’autre piratera probablement ce genre de technologie à des fins plus néfastes. La réponse, dit Mason, est de continuer à en parler et de s’assurer que les gens comprennent les potentiels et les pièges.

« Les gens ont déjà créé la capacité de faire des faux profonds », a déclaré Mason. « Nous devons nous attendre à ce que tout le monde ne suive pas les mêmes contraintes que nous avons suivies. Mais une partie de notre rôle est de faire prendre conscience des possibilités. Votre voix est votre identité, et vous devez posséder cette voix. C’est une question de vie privée, au fond. »

Ces développements soulignent la nouvelle opportunité qui s’est ouverte d’exploiter certains des développements de l’intelligence artificielle pour répondre à un marché en pleine croissance. D’une part, c’est un grand marché: Basé uniquement sur les revenus publicitaires, le podcasting devrait rapporter quelque 679 millions de dollars cette année et 1 milliard de dollars d’ici 2021, selon l’IAB — une des raisons pour lesquelles des entreprises comme Spotify et Apple parient gros sur elle en complément de leurs activités de streaming musical.

D’autre part, le domaine des outils de production pour les podcasteurs est un marché très encombré, avec un certain nombre de startups et d’autres qui sortent beaucoup d’outils qui fonctionnent tous très bien pour identifier ce que les gens disent et le transcrire avec précision.

Sur le devant de la transcription et dans la zone où Descript fonctionne, les rivaux incluent Trint, Wreally et Otter, parmi beaucoup d’autres. Decript lui-même ne crée même pas son logiciel de PNL de base; il utilise celui de Google, car la PNL de base est maintenant un domaine qui est essentiellement devenu « banalisé », a déclaré Mason dans une interview.

Cela rend la création de nouvelles fonctionnalités, l’exploitation de l’IA et d’autres avancées d’autant plus essentielles que nous cherchons à voir si un outil apparaît comme un leader clair dans ce domaine particulier du SaaS.

« Dans la collaboration multi-utilisateurs en direct, il n’existe toujours aucun autre outil qui ait fait ce que nous avons fait avec de gros fichiers audio non compressés. Ce n’est pas un mince exploit, et il a fallu du temps pour bien faire les choses « , a déclaré Mason. « J’ai vu cette transition se manifester des documents aux feuilles de calcul en passant par la conception de produits. Personne n’aurait pensé à quelque chose comme la conception de produits pour être un espace énorme, mais simplement en prenant ces outils pour la collaboration et en les portant avec succès sur le cloud, des entreprises comme Figma ont vu le jour. Et c’est comme ça que nous nous sommes impliqués ici. »

{{title}}

{{date}} {{author}}

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.