Andrew Mason Descript strappi 15 milioni di dollari, acquista Lira per consentire agli utenti di digitare il testo per creare audio nella loro voci

@ingridlunden/3:19 am PDT • settembre 18, 2019

Image Credits: ChaiyonS021 /

Il boom di popolarità per il podcasting ha dato una nuova voce al mondo del parlato, che era stato in gran parte a sinistra per i morti, con il calo di trasmissione radio. Ora cavalcando l’onda della crescita, una startup chiamata Descript che la costruzione di strumenti per rendere l’arte della creazione di podcast o qualsiasi altro contenuto che comporta lavorare con l’audio un po ‘più facile con la trascrizione audio e strumenti di montaggio, ha un trio di notizie: il finanziamento, l’acquisizione e il lancio di un nuovo strumento che porta un po’ della magia di elaborazione del linguaggio naturale, e di AI al medium da permettere alle persone di creare audio di voci proprie sulla base di un testo che tipo.

Descript, l’ultima startup del fondatore di Groupon Andrew Mason, creata come spin-off della sua attività di audioguida Detour (che è stata acquisita da Bose lo scorso anno), annuncia oggi funding 15 milioni di finanziamenti, una serie A per espandere il business (inclusa l’assunzione di più persone) che proviene da Andreessen Horowitz (ha anche finanziato il seed round della startup in 2017)

Insieme a questo, la società ha acquisito una piccola startup canadese, Lyrebird — che aveva, come Descript, anche costruito strumenti di editing audio. Insieme, i due stanno lanciando una nuova funzionalità per Descript chiamata Overdub: le persone saranno ora in grado di creare “modelli” delle loro voci che possono a loro volta utilizzare per creare audio in base alle parole che digitano, parte di una suite di produzione più grande che permetterà anche agli utenti di modificare più voci su più tracce. L’audio può essere autonomo o la traccia audio per un video.

(La trascrizione video funziona in modo leggermente diverso: quando si aggiungono parole o le si estrae, il video fa salti per tenere conto dei cambiamenti nei tempi.)

Overdub è l’ultima aggiunta a un prodotto che consente agli utenti di creare trascrizioni istantanee di testo audio che possono quindi essere tagliate e potenzialmente aumentate con musica da altri audio utilizzando strumenti drag-and-drop che tolgono la necessità per i podcaster di imparare l’ingegneria del suono e software di editing. L’enfasi non tecnica del prodotto ha dato Descript un seguito tra i podcaster e altri che utilizzano software di trascrizione come parte delle loro suite di produzione audio. Il prodotto ha un prezzo in un formato freemium: nessun costo per un massimo di quattro ore di contenuti vocali, e after 10 al mese dopo.

isometricaoverdubapp screenshotregistrazione

In età di mercato-definizione, elezioni vincente di false notizie aiutato e favorito dalla tecnologia, devi essere perdonato per chiedersi se Overdub potrebbe non essere una strada di Profonda Falso della Città, dove è possibile utilizzare la tecnologia per creare alcuna sorta di “istruzioni” da voci famose.

Mason mi dice che l’azienda ha costruito un modo per evitare che ciò accada.

La demo sulla home page dell’azienda viene creata con una speciale voce proprietaria solo a scopo illustrativo, ma per attivare effettivamente la funzione di editing e aumento per un pezzo del proprio audio, gli utenti devono prima registrare una serie di dichiarazioni che vengono ripetute indietro, in base al testo creato al volo e in tempo reale. Queste clip audio vengono quindi utilizzate per modellare il tuo profilo vocale digitale.

Ciò significa che non è possibile, ad esempio, alimentare l’audio di Donald Trump nel sistema per creare una versione del presidente dicendo che è terribilmente dispiaciuto per aver suggerito che costruire muri tra gli Stati Uniti e il Messico era una buona idea, e che questo non sarebbe, infatti, rendere l’America di nuovo grande. (Peccato.)

Ma se ti iscrivi all’idea che i progressi tecnologici nella PNL e nell’IA nel complesso siano qualcosa di un vaso di Pandora, il gatto è già fuori dalla borsa, e anche se Descript non lo consente, qualcun altro probabilmente hackererà questo tipo di tecnologia per scopi più nefasti. La risposta, Mason dice, è quello di continuare a parlare di questo e fare in modo che le persone a capire le potenzialità e le insidie.

“Le persone hanno già creato la capacità di creare falsi profondi”, ha detto Mason. “Dovremmo aspettarci che non tutti seguiranno gli stessi vincoli che abbiamo seguito. Ma parte del nostro ruolo è quello di creare consapevolezza delle possibilità. La tua voce è la tua identità, e hai bisogno di possedere quella voce. È una questione di privacy, fondamentalmente.”

Gli sviluppi sottolineano la nuova opportunità che si è aperta nel sfruttare alcuni degli sviluppi dell’intelligenza artificiale per affrontare quello che è un mercato in crescita. Da un lato, è un grande mercato: basato solo sui ricavi pubblicitari da solo, il podcasting dovrebbe portare a circa this 679 milioni quest’anno, e billion 1 miliardo entro il 2021, secondo lo IAB — uno dei motivi per cui aziende come Spotify e Apple stanno scommettendo su di esso come complemento alle loro attività di streaming musicale.

D’altra parte, l’area degli strumenti di produzione per podcaster è un mercato molto affollato, con un certo numero di startup e altri che mettono fuori molti strumenti che funzionano abbastanza bene nell’identificare ciò che le persone dicono e trascriverlo accuratamente.

Sul fronte della trascrizione e l’area in cui Descrittivo sta lavorando, rivali includono del calibro di Trint, Wreally e Lontra, tra molti altri. Decript stesso non crea nemmeno il suo software NLP di base; utilizza Google, poiché la PNL di base è ora un’area che è diventata essenzialmente “mercificata”, ha detto Mason in un’intervista.

Che rende la creazione di nuove funzionalità, attingendo AI e altri progressi, tanto più essenziale, come guardiamo per vedere se uno strumento emerge come un chiaro leader in questa particolare area di SaaS.

“In live multiuser collaboration, non c’è ancora nessun altro strumento là fuori che ha fatto quello che abbiamo fatto con grandi file audio non compressi. Non è un’impresa da poco, e ci è voluto del tempo per farlo bene”, ha detto Mason. “Ho visto questa transizione manifesto da documenti a fogli di calcolo per la progettazione del prodotto. Nessuno avrebbe pensato a qualcosa come il design del prodotto per essere uno spazio enorme, ma solo prendendo questi strumenti per la collaborazione e portandoli con successo al cloud, aziende come Figma sono emerse. Ed è così che siamo stati coinvolti qui.”

{{title}}

{{date}} {{author}}

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.