W świecie szybko rozwijających się technologii, ElevenLabs wyznacza nowe standardy w dziedzinie generowania głosu, wprowadzając innowacyjne rozwiązanie: Speech to Speech (STS). Ta przełomowa funkcja umożliwia konwersję nagranego głosu tak, aby brzmiał, jakby został wypowiedziany przez inną osobę. STS to narzędzie, które przekształca nie tylko ton i wymowę, ale również emocje zawarte w mowie, idąc o krok dalej niż tradycyjne tekst-na-mowę (TTS).
Co to jest Speech to Speech (STS) i jak działa?

STS pozwala na pełniejsze wyrażanie emocji za pomocą predefiniowanych głosów. Można na przykład przesłać lub nagrać bardzo emocjonalną przemowę, a STS odtworzy te emocje i intonację w całkowicie innym głosie. Dzięki temu, profesjonalny lektor czy postać z książki dla dzieci może brzmieć bardziej ekspresyjnie dzięki naszemu własnemu głosowi. Zobaczcie sobie demo poniżej:
Kolejną funkcją STS jest dostarczanie „odniesienia” do sposobu mówienia. Chociaż TTS (Text-to-speech) zwykle doskonale radzi sobie z intonacją, STS (Speech to Speech) pozwala dalej idące usprawnienia. Użytkownik może pokazać, jak powinna brzmieć dana fraza, a następnie wybrać dowolny głos, aby powtórzył ją w dokładnie taki sam sposób. W dużym uproszczeniu, możecie sprawić aby na przykład Wasza przemowa z okazji odebrania dyplomu została powiedziana przez Steve-a Jobsa. Nową funkcję możecie przetestować tutaj.
Innowacje w głosach i projektach
ElevenLabs nie ogranicza się tylko do STS. Producent wprowadził również zmiany w gotowych głosach oraz liczne udoskonalenia w Projektach. Dodali normalizację, słownik wymowy i więcej opcji dostosowywania, co czyni technologię jeszcze bardziej elastyczną i precyzyjną.
Badania i technologia
Konwersja mowy opiera się na wyrażeniu treści mowy źródłowej za pomocą cech mowy docelowej. Analogią tutaj mogą być aplikacje do zamiany twarzy, które pozwalają na mieszanie dwóch twarzy w jedną. Podobnie w konwersji głosu, mowa źródłowa jest renderowana za pomocą fonemów mowy docelowej. Istnieje jednak kompromis: im więcej preferencji nadamy mowie docelowej, tym większe ryzyko utraty charakterystyki mowy źródłowej.
Podsumowanie
Innowacje wprowadzone przez ElevenLabs w dziedzinie syntezowania mowy otwierają nowe możliwości w komunikacji cyfrowej. STS to nie tylko narzędzie do manipulacji głosem, ale także sposób na dokładniejsze oddanie emocji i intonacji w generowaniu głosu. To krok milowy w naszym dążeniu do tworzenia coraz bardziej ludzkiej i naturalnej generowanej mowy.