Andrew Mason's Descript snags 1 15M, adquiere Lyrebird para permitir a los usuarios escribir texto para crear audio en sus propias voces – TechCrunch

@ingridlunden/3:19 am PDT • 18 de septiembre de 2019

Créditos de imagen: ChaiyonS021 /

El auge de la popularidad de los podcasts ha dado una nueva voz al mundo del contenido de palabra hablada que se había dejado en gran medida por muerto con el declive de la radio. Ahora, montando la ola de ese crecimiento, una startup llamada Descript que está creando herramientas para hacer que el arte de crear podcasts, o cualquier otro contenido que implique trabajar con audio, sea un poco más fácil con herramientas de transcripción y edición de audio, tiene un trío de anuncios de noticias: financiación, una adquisición y el lanzamiento de una nueva herramienta que aporta algo de la magia del procesamiento del lenguaje natural y la IA al medio al permitir que las personas creen audio de sus propias voces basado en el texto que escriben.

Descript, la última startup del fundador de Groupon, Andrew Mason, creada como spin-off de su negocio de audioguías Detour (adquirido por Bose el año pasado), anuncia hoy una financiación de 15 millones de dólares, una Serie A para expandir el negocio (incluida la contratación de más personas) que proviene de Andreessen Horowitz (también financió la ronda inicial de la startup en 2017) y Redpoint.

Junto con eso, la compañía ha adquirido una pequeña empresa canadiense, Lyrebird, que, al igual que Descript, también construyó herramientas de edición de audio. Juntos, los dos están implementando una nueva función para Descript llamada Overdub: las personas ahora podrán crear «plantillas» de sus voces que a su vez podrán usar para crear audio basado en palabras que escriban, parte de una suite de producción más grande que también permitirá a los usuarios editar múltiples voces en múltiples pistas. El audio puede ser independiente o la pista de audio de un vídeo.

(La transcripción del video funciona de manera un poco diferente: Cuando agrega palabras o las elimina, el video hace saltos para tener en cuenta los cambios en el tiempo.)

Overdub es la última adición a un producto que permite a los usuarios crear transcripciones instantáneas de texto de audio que luego se pueden cortar y aumentar potencialmente con música de otro audio utilizando herramientas de arrastrar y soltar que eliminan la necesidad de que los podcasters aprendan software de edición y ingeniería de sonido. El énfasis no técnico del producto ha dado a Descript un seguimiento entre los podcasters y otros que utilizan software de transcripción como parte de sus suites de producción de audio. El precio del producto es en formato freemium: sin cargo por hasta cuatro horas de contenido de voz, y after 10 por mes después de eso.

isométrico overdub captura de pantalla de la aplicación grabación

En la era de las noticias falsas que definen el mercado y ganan elecciones ayudadas y instigado por la tecnología, se le perdonaría por preguntarse si Overdub no podría ser una carretera a una Ciudad Falsa Profunda, donde podría usar la tecnología para crear cualquier tipo de «declaraciones» de voces famosas.

Mason me dice que la compañía ha construido una manera de evitar que eso pueda suceder.

La demo en la página de inicio de la compañía se crea con una voz propietaria especial solo con fines ilustrativos, pero para activar la función de edición y aumento de una pieza de su propio audio, los usuarios primero deben grabar una serie de declaraciones que se repiten, basadas en texto creado sobre la marcha y en tiempo real. Estos clips de audio se utilizan para dar forma a su perfil de voz digital.

Esto significa que no se puede, por ejemplo, introducir el audio de Donald Trump en el sistema para crear una versión del presidente diciendo que siente terriblemente por sugerir que construir muros entre Estados Unidos y México fue una buena idea, y que esto, de hecho, no haría que Estados Unidos volviera a ser grande. (Lástima.)

Pero si te suscribes a la idea de que los avances tecnológicos en PNL y IA en general son una especie de caja de Pandora, el gato ya está fuera de la bolsa, e incluso si Descript no lo permite, es probable que alguien más hackee este tipo de tecnología para fines más nefastos. La respuesta, dice Mason, es seguir hablando de esto y asegurarse de que la gente entienda los potenciales y los escollos.

«La gente ya ha creado la capacidad de hacer falsificaciones profundas», dijo Mason. «Debemos esperar que no todo el mundo siga las mismas restricciones que nosotros hemos seguido. Pero parte de nuestro papel es crear conciencia de las posibilidades. Tu voz es tu identidad, y necesitas poseer esa voz. Es una cuestión de privacidad, básicamente.»

Los desarrollos subrayan la nueva oportunidad que se ha abierto al aprovechar algunos de los desarrollos en inteligencia artificial para abordar lo que es un mercado en crecimiento. Por un lado, es un gran mercado: Basado solo en los ingresos por publicidad, se espera que el podcasting genere unos 6 679 millones este año y 1 1 mil millones para 2021, según el IAB, una de las razones por las que empresas como Spotify y Apple están apostando a lo grande como complemento de sus negocios de transmisión de música.

Por otro lado, el área de herramientas de producción para podcasters es un mercado muy concurrido, con una serie de startups y otros que publican muchas herramientas que funcionan bastante bien para identificar lo que la gente está diciendo y transcribirlo con precisión.

En la parte frontal de transcripción y en el área donde está funcionando Descript, los rivales incluyen Trint, Wreally y Otter, entre muchos otros. Decript en sí ni siquiera crea su software de PNL básico; utiliza el de Google, ya que la PNL básica es ahora un área que esencialmente se ha convertido en «mercancía», dijo Mason en una entrevista.

Eso hace que la creación de nuevas características, el aprovechamiento de la IA y otros avances, sea aún más esencial, a medida que miramos para ver si una herramienta emerge como un líder claro en esta área particular de SaaS.

«En la colaboración multiusuario en vivo, todavía no hay otra herramienta que haya hecho lo que hemos hecho con grandes archivos de audio sin comprimir. Eso no es una hazaña pequeña, y ha llevado tiempo hacerlo bien», dijo Mason. «He visto cómo se manifestaba esta transición de documentos a hojas de cálculo y diseño de productos. Nadie hubiera pensado que algo como el diseño de productos fuera un espacio enorme, pero con solo tomar estas herramientas para la colaboración y transferirlas con éxito a la nube, han surgido empresas como Figma. Y así es como nos involucramos aquí.»

Andrew Mason’s Descript snags 1 15M, adquiere Lyrebird para permitir a los usuarios escribir texto para crear audio en sus propias voces

{{title}}

Deja una respuesta Cancelar la respuesta