kredyty na obraz: chaiyons021 /
boom popularności podcastów dał nowy głos w świecie treści mówionych, które zostały w dużej mierze pozostawione na śmierć wraz ze spadkiem emisji radiowych. Teraz na fali tego wzrostu, startup o nazwie Deskrypt, który buduje narzędzia, aby sztuka tworzenia podcastów-lub jakiejkolwiek innej treści, która wymaga pracy z dźwiękiem-była nieco łatwiejsza dzięki narzędziom do transkrypcji i edycji dźwięku, ma trio ogłoszeń: finansowanie, przejęcie i uruchomienie nowego narzędzia, które przynosi trochę magii przetwarzania języka naturalnego i sztucznej inteligencji do medium, pozwalając ludziom tworzyć dźwięk własnych głosów na podstawie tekstu, który wpisują.
Descript, najnowszy startup od założyciela Groupon Andrew Masona, stworzony jako spin-off jego Audio-guide Business Objour (który został przejęty przez Bose w zeszłym roku), ogłasza dziś finansowanie w wysokości 15 milionów dolarów, serię a na rozbudowę firmy (w tym zatrudnienie większej liczby osób), która pochodzi od Andreessen Horowitz (sfinansował również rundę zalążkową startupu w 2017) i Redpoint.
wraz z tym firma nabyła mały kanadyjski startup, Lyrebird — który miał, podobnie jak Descript, również wbudowane narzędzia do edycji dźwięku. Razem wprowadzają nową funkcję dla deskryptora o nazwie Overdub: ludzie będą teraz mogli tworzyć „szablony” swoich głosów, które z kolei mogą wykorzystać do tworzenia dźwięku na podstawie wpisanych słów, część większego pakietu produkcyjnego, który również pozwoli użytkownikom edytować wiele głosów na wielu ścieżkach. Dźwięk może być samodzielny lub ścieżka audio dla wideo.
(transkrypcja wideo działa trochę inaczej: kiedy dodajesz słowa lub je usuwasz, film wykonuje skoki, aby uwzględnić zmiany w czasie.)
Overdub to najnowszy dodatek do produktu, który pozwala użytkownikom tworzyć natychmiastowe transkrypcje tekstu audio, który może być następnie cięty i potencjalnie wzbogacony o muzykę z innego dźwięku za pomocą narzędzi przeciągnij i upuść, które eliminują potrzebę podcastów do nauki inżynierii dźwięku i oprogramowania do edycji. Nietechniczny nacisk na produkt dał Descript następujący wśród podcasterów i innych, którzy używają oprogramowania do transkrypcji jako części swoich pakietów produkcyjnych audio. Produkt jest wyceniony w formacie freemium: bez opłat za do czterech godzin treści głosowych,a następnie 10 USD miesięcznie.
w dobie rynku-definiowanie, wybieranie i zaciekawiony technologią, można się zastanawiać, czy overdub nie może być autostradą do Deep fake City, gdzie można użyć technologii do tworzenia dowolnych „wypowiedzi” znanych głosów.
demo na stronie głównej firmy jest tworzone specjalnym zastrzeżonym głosem tylko w celach ilustracyjnych, ale aby faktycznie aktywować funkcję edycji i rozszerzania dla własnego dźwięku, użytkownicy muszą najpierw nagrać szereg wypowiedzi, które są powtarzane, w oparciu o tekst utworzony w locie iw czasie rzeczywistym. Te klipy audio są następnie używane do kształtowania cyfrowego profilu głosowego.
oznacza to, że nie można, na przykład, wprowadzić dźwięku Donalda Trumpa do systemu, aby stworzyć wersję prezydenta mówiącą, że jest mu strasznie przykro, że zasugerował, że budowanie murów między USA a Meksykiem było dobrym pomysłem i że w rzeczywistości nie uczyniłoby Ameryki znowu wielką. (Szkoda.)
ale jeśli subskrybujesz pomysł, że postęp technologiczny w NLP i ogólnie AI jest czymś w rodzaju Puszki Pandory, kot już wyszedł z worka, a nawet jeśli Deskrypt na to nie pozwala, ktoś inny prawdopodobnie zhakuje tego rodzaju technologię dla bardziej nikczemnych celów. Odpowiedzią, mówi Mason, jest mówienie o tym i upewnianie się, że ludzie rozumieją potencjały i pułapki.
„ludzie już stworzyli możliwość robienia głębokich podróbek” – Powinniśmy się spodziewać, że nie wszyscy będą przestrzegać tych samych ograniczeń, których przestrzegaliśmy. Ale częścią naszej roli jest tworzenie świadomości możliwości. Twój głos jest twoją tożsamością i musisz posiadać ten głos. To kwestia prywatności.”
zmiany podkreślają nową szansę, która otworzyła się w wykorzystywaniu niektórych zmian w sztucznej inteligencji w celu rozwiązania tego, co jest rosnącym rynkiem. Z jednej strony jest to duży rynek: oparty tylko na samych przychodach z reklam, oczekuje się, że podcasting przyniesie w tym roku Około 679 milionów dolarów, a 1 miliard dolarów przez 2021, według IAB — jeden z powodów, dla których firmy takie jak Spotify i Apple stawiają na to jako uzupełnienie swoich firm zajmujących się strumieniowaniem muzyki.
z drugiej strony, obszar narzędzi produkcyjnych dla podcasterów to bardzo zatłoczony rynek, z wieloma startupami i innymi narzędziami, które działają całkiem dobrze w identyfikowaniu tego, co mówią ludzie i precyzyjnym przepisywaniu.
z przodu transkrypcji i obszaru, w którym działa Deskrypt, rywalami są m.in. Trint, Wreally i Otter. Sam Decript nie tworzy nawet podstawowego oprogramowania NLP; korzysta z Google, ponieważ podstawowy NLP jest teraz obszarem, który zasadniczo stał się” utowarowiony ” – powiedział Mason w wywiadzie.
To sprawia, że tworzenie nowych funkcji, korzystanie z AI i innych postępów jest tym bardziej istotne, ponieważ szukamy, czy jedno narzędzie wyłoni się jako wyraźny lider w tej konkretnej dziedzinie SaaS.
„w live multiuser collaboration nadal nie ma innego narzędzia, które zrobiłoby to, co zrobiliśmy z dużymi nieskompresowanymi plikami audio. To nie jest mały wyczyn, a potrzeba czasu, aby to zrobić dobrze”, powiedział Mason. „Widziałem to przejście od dokumentów do arkuszy kalkulacyjnych do projektowania produktu. Nikt by nie pomyślał, że coś takiego jak projektowanie produktu jest ogromną przestrzenią, ale po prostu biorąc te narzędzia do współpracy i z powodzeniem przenosząc je do chmury, pojawiły się firmy takie jak Figma. I tak się tu zaangażowaliśmy.”
{{title}}
{{date}}{{author}}