Andrew Masons Descript Snags $15M, erwirbt Lyrebird, damit Benutzer Text eingeben können, um Audio in ihren eigenen Stimmen zu erstellen

@ingridlunden/3:19 am PDT • September 18, 2019

Bildnachweis: ChaiyonS021 /

Der Boom in der Popularität von Podcasting hat der Welt der gesprochenen Wortinhalte eine neue Stimme gegeben, die mit dem Niedergang des Rundfunks weitgehend für tot erklärt worden war. Ein Startup namens Descript, das Tools entwickelt, um die Kunst des Erstellens von Podcasts — oder anderen Inhalten, bei denen mit Audio gearbeitet wird — mit Audio-Transkriptions- und Bearbeitungswerkzeugen ein wenig einfacher zu machen, hat ein Trio von Nachrichtenankündigungen: Finanzierung, eine Akquisition und die Einführung eines neuen Tools, das etwas von der Magie der Verarbeitung natürlicher Sprache und KI in das Medium bringt, indem es Menschen ermöglicht, Audio ihrer eigenen Stimmen basierend auf Text zu erstellen, den sie eingeben.Descript, das neueste Startup von Groupon-Gründer Andrew Mason, das als Spin-off seines Audioguide-Geschäfts Detour (das letztes Jahr von Bose übernommen wurde) gegründet wurde, kündigt heute eine Finanzierung in Höhe von 15 Millionen US-Dollar an, eine Serie A für den Ausbau des Geschäfts (einschließlich der Einstellung von mehr Mitarbeitern), die von Andreessen Horowitz (der auch die Seed-Runde des Startups im Jahr 2017 finanzierte) und Redpoint stammt.

Gleichzeitig hat das Unternehmen ein kleines kanadisches Startup, Lyrebird, erworben, das wie Descript auch Audiobearbeitungswerkzeuge gebaut hatte. Zusammen, Die beiden führen eine neue Funktion für Descript namens Overdub ein: Benutzer können jetzt „Vorlagen“ ihrer Stimmen erstellen, mit denen sie wiederum Audio basierend auf von ihnen eingegebenen Wörtern erstellen können, Teil einer größeren Produktionssuite, mit der Benutzer auch mehrere Stimmen auf mehreren Spuren bearbeiten können. Das Audio kann eigenständig oder die Audiospur für ein Video sein.

(Die Videotranskription funktioniert etwas anders: Wenn Sie Wörter hinzufügen oder entfernen, macht das Video Sprünge, um die Änderungen im Timing zu berücksichtigen.Overdub ist die neueste Ergänzung zu einem Produkt, mit dem Benutzer sofortige Transkriptionen von Audiotext erstellen können, die dann geschnitten und möglicherweise mit Musik aus anderen Audiodateien mithilfe von Drag-and-Drop-Tools erweitert werden können, die Podcastern das Erlernen von Tontechnik- und Bearbeitungssoftware ersparen. Die nicht-technische Betonung des Produkts hat Descript eine Anhängerschaft unter Podcastern und anderen gegeben, die Transkriptionssoftware als Teil ihrer Audioproduktionssuiten verwenden. Das Produkt wird in einem Freemium-Format festgesetzt: Keine Gebühr für bis zu vier Stunden Sprachinhalte und danach 10 US-Dollar pro Monat.

isometrischOverdubApp ScreenshotAufnahme

Im Zeitalter von marktbestimmenden, wahlgewinnenden Fake News, die von Technologie unterstützt und gefördert werden, wären Sie verzeihen Sie, dass Sie sich gefragt haben, ob Overdub keine Autobahn zu Deep Fake City ist, wo Sie die Technologie verwenden könnten, um jede Art von „Aussagen“ berühmter Stimmen zu erstellen.

Mason sagt mir, dass das Unternehmen einen Weg gefunden hat, dies zu verhindern.

Die Demo auf der Homepage des Unternehmens wird nur zu Illustrationszwecken mit einer speziellen proprietären Stimme erstellt, aber um die Bearbeitungs- und Erweiterungsfunktion für ein Stück ihres eigenen Audios tatsächlich zu aktivieren, müssen Benutzer zuerst eine Reihe von Anweisungen aufzeichnen, die wiederholt werden, basierend auf Text, der im laufenden Betrieb und in Echtzeit erstellt wurde. Diese Audioclips werden dann verwendet, um Ihr digitales Sprachprofil zu formen.Das bedeutet, dass man zum Beispiel keine Audiodaten von Donald Trump in das System einspeisen kann, um eine Version des Präsidenten zu erstellen, der sagt, dass es ihm schrecklich leid tut, wenn er vorschlägt, dass der Bau von Mauern zwischen den USA und Mexiko eine gute Idee war und dass dies Amerika nicht wieder großartig machen würde. (Schade.)

Aber wenn Sie der Idee zustimmen, dass technische Fortschritte in NLP und KI insgesamt so etwas wie die Büchse der Pandora sind, ist die Katze bereits aus dem Sack, und selbst wenn Descript dies nicht zulässt, wird jemand anderes diese Art von Technologie wahrscheinlich für schändlichere Zwecke hacken. Die Antwort, sagt Mason, besteht darin, weiter darüber zu sprechen und sicherzustellen, dass die Menschen die Potenziale und Fallstricke verstehen.“Die Leute haben bereits die Fähigkeit geschaffen, tiefe Fälschungen zu machen“, sagte Mason. „Wir sollten erwarten, dass nicht jeder den gleichen Einschränkungen folgt, denen wir gefolgt sind. Aber ein Teil unserer Rolle besteht darin, ein Bewusstsein für die Möglichkeiten zu schaffen. Ihre Stimme ist Ihre Identität, und Sie müssen diese Stimme besitzen. Es ist im Grunde eine Frage der Privatsphäre.“

Die Entwicklungen unterstreichen die neue Chance, einige der Entwicklungen in der künstlichen Intelligenz zu nutzen, um einen wachsenden Markt anzusprechen. Einerseits ist es ein großer Markt: Allein aufgrund der Werbeeinnahmen wird Podcasting laut IAB in diesem Jahr voraussichtlich 679 Millionen US—Dollar und bis 2021 1 Milliarde US-Dollar einbringen – ein Grund, warum Unternehmen wie Spotify und Apple als Ergänzung zu ihren Musik-Streaming-Geschäften darauf setzen.Auf der anderen Seite ist der Bereich der Produktionstools für Podcaster ein sehr überfüllter Markt, mit einer Reihe von Startups und anderen, die viele Tools herausbringen, die alle recht gut funktionieren, um zu identifizieren, was die Leute sagen und es genau zu transkribieren.

Auf der Vorderseite der Transkription und dem Bereich, in dem Descript arbeitet, gibt es Rivalen wie Trint, Wreally und Otter, unter vielen anderen. Decript selbst erstellt nicht einmal seine grundlegende NLP-Software; Es verwendet Googles, da Basic NLP jetzt ein Bereich ist, der im Wesentlichen „kommerzialisiert“ wurde, sagte Mason in einem Interview.Das macht die Entwicklung neuer Funktionen, die Nutzung von KI und anderen Fortschritten umso wichtiger, als wir sehen, ob ein Tool in diesem speziellen Bereich von SaaS eindeutig führend ist.

„In der Live-Zusammenarbeit mit mehreren Benutzern gibt es immer noch kein anderes Tool, das das getan hat, was wir mit großen unkomprimierten Audiodateien getan haben. Das ist keine kleine Leistung, und es hat Zeit gebraucht, um es richtig zu machen „, sagte Mason. „Ich habe diesen Übergang von Dokumenten zu Tabellenkalkulationen zum Produktdesign gesehen. Niemand hätte gedacht, dass so etwas wie Produktdesign ein riesiger Raum ist, aber nur indem man diese Tools für die Zusammenarbeit nutzt und sie erfolgreich in die Cloud portiert, sind Unternehmen wie Figma entstanden. Und so haben wir uns hier engagiert.“

{{Titel}}

{{Datum}}{{Autor}}

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.