Uwaga!

Chcesz otrzymywać nowinki, ciekawostki i poradniki dotyczące AI i Deepfake prosto na swój adres email? Koniecznie zapisz się do naszego newslettera!







Zamknij to okno

ElevenLabs: nowa funkcja Speech to Speech, rewolucja w generowaniu głosu

W świecie szybko rozwijających się technologii, ElevenLabs wyznacza nowe standardy w dziedzinie generowania głosu, wprowadzając innowacyjne rozwiązanie: Speech to Speech (STS). Ta przełomowa funkcja umożliwia konwersję nagranego głosu tak, aby brzmiał, jakby został wypowiedziany przez inną osobę. STS to narzędzie, które przekształca nie tylko ton i wymowę, ale również emocje zawarte w mowie, idąc o krok dalej niż tradycyjne tekst-na-mowę (TTS).

Co to jest Speech to Speech (STS) i jak działa?

Eleven Labs Speech to Speech
Eleven Labs Speech to Speech

STS pozwala na pełniejsze wyrażanie emocji za pomocą predefiniowanych głosów. Można na przykład przesłać lub nagrać bardzo emocjonalną przemowę, a STS odtworzy te emocje i intonację w całkowicie innym głosie. Dzięki temu, profesjonalny lektor czy postać z książki dla dzieci może brzmieć bardziej ekspresyjnie dzięki naszemu własnemu głosowi. Zobaczcie sobie demo poniżej:

Kolejną funkcją STS jest dostarczanie „odniesienia” do sposobu mówienia. Chociaż TTS (Text-to-speech) zwykle doskonale radzi sobie z intonacją, STS (Speech to Speech) pozwala dalej idące usprawnienia. Użytkownik może pokazać, jak powinna brzmieć dana fraza, a następnie wybrać dowolny głos, aby powtórzył ją w dokładnie taki sam sposób. W dużym uproszczeniu, możecie sprawić aby na przykład Wasza przemowa z okazji odebrania dyplomu została powiedziana przez Steve-a Jobsa. Nową funkcję możecie przetestować tutaj. 

Innowacje w głosach i projektach

ElevenLabs nie ogranicza się tylko do STS. Producent wprowadził również zmiany w gotowych głosach oraz liczne udoskonalenia w Projektach. Dodali normalizację, słownik wymowy i więcej opcji dostosowywania, co czyni technologię jeszcze bardziej elastyczną i precyzyjną.

Badania i technologia

Konwersja mowy opiera się na wyrażeniu treści mowy źródłowej za pomocą cech mowy docelowej. Analogią tutaj mogą być aplikacje do zamiany twarzy, które pozwalają na mieszanie dwóch twarzy w jedną. Podobnie w konwersji głosu, mowa źródłowa jest renderowana za pomocą fonemów mowy docelowej. Istnieje jednak kompromis: im więcej preferencji nadamy mowie docelowej, tym większe ryzyko utraty charakterystyki mowy źródłowej.

Podsumowanie

Innowacje wprowadzone przez ElevenLabs w dziedzinie syntezowania mowy otwierają nowe możliwości w komunikacji cyfrowej. STS to nie tylko narzędzie do manipulacji głosem, ale także sposób na dokładniejsze oddanie emocji i intonacji w generowaniu głosu. To krok milowy w naszym dążeniu do tworzenia coraz bardziej ludzkiej i naturalnej generowanej mowy.

Ebook AI

Newsletter

Zapisz się, a będziesz otrzymywać ciekawostki z branży AI i Deepfake, oraz dostaniesz specjalny prezent – kompendium wiedzy o ChatGPT.








Warto

NordVPN
Ogrovision - Ogród AI
Życzenia AI

Facebook


Twitter

Ads Blocker Image Powered by Code Help Pro

Wykryto AdBlocka!

Wygląda na to, że używasz blokady reklam. Reklamy pomagają nam utrzymać tę stronę. Wyłącz ją proszę.