Zgłoś błąd
X
Zanim wyślesz zgłoszenie, upewnij się że przyczyną problemów nie jest dodatek blokujący reklamy.
Błędy w spisie treści artykułu zgłaszaj jako "błąd w TREŚCI".
Typ zgłoszenia
Treść zgłoszenia
Twój email (opcjonalnie)
Nie wypełniaj tego pola
Załóż konto
EnglishDeutschукраїнськийFrançaisEspañol中国

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki

Natan Faleńczyk | 11-07-2024 13:00 |

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbkiUsługi nazywane dziś zbiorczo sztuczną inteligencją są w stanie generować realistyczne obrazy, a nawet wideo, radzą sobie coraz lepiej z tworzeniem muzyki, a nawet z wypowiadaniem określonych zdań ludzkim głosem. W tej ostatniej kategorii właśnie osiągnięto kolejny kamień milowy. Tak przynajmniej twierdzi firma Microsoft, która opracowała drugą generację modelu syntezy mowy o nazwie VALL-E. Potrafi on praktycznie idealnie imitować dowolny głos.

Microsoft opracował drugą generację modelu AI o nazwie VALL-E, który ma stanowić dosłownie rewolucję w zakresie syntezy tekstu na mowę (TTS). Nowość potrafi "przemówić" dowolnym ludzkim głosem w tak naturalny sposób, że ciężko odróżnić stworzoną próbkę od pierwotnej.

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki [1]

VALL-E - system Microsoftu bazujący na SI potrafi naśladować głos każdego człowieka na bazie małej próbki

Już pierwsza generacja modelu syntezy mowy VALL-E potrafiła zaimponować. Microsoft tworząc kolejny model z tej serii, który opiera się na pierwowzorze, postanowił jeszcze bardziej ulepszyć aspekty, które tego wymagały. Uzyskano jednak tak dobre rezultaty, że firma nie ma zamiaru udostępniać swojego rozwiązania, które na ten moment stanowi po prostu obiekt badań. VALL-E 2 w benchmarkach osiągnął dosłownie ludzki stopień odwzorowania głosu. Jest to dość imponujące, gdyż modelowi wystarczy krótka, kilkusekundowa próbka głosu, aby później go praktycznie idealnie naśladować. Mowa tu nie tylko o tonie głosu, czy też jego barwie, ale również o emocjach, jakie można w nim usłyszeć lub zmianie tempa. Co ciekawe, model jest w stanie również naśladować charakterystyczne cechy danego głosu, takie jak akcent.

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki [2]

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki [3]

Sztuczna Inteligencja może teraz za Ciebie stworzyć muzykę. Jak dobry jest nowy system MusicLM od Google?

Wysoką jakość generowanych treści osiągnięto dzięki dwóm metodom: Repetition-Aware Sampling (dosł. próbkowanie uwzględniające powtarzalność) oraz Grouped Code Modeling (dosł. modelowanie kodu grupowego). Pierwsza funkcja pomaga modelowi nie wchodzić w nieskończone pętle dźwiękowe (powtórzenia tokenów) w procesie dekodowania. Z kolei druga organizuje tokeny w mniejsze grupy, co skraca sekwencję wejściową, a w rezultacie przyspiesza cały proces. Wszystko przekłada się na naturalne brzmienie głosu, które jest praktycznie takie samo, jak w dostarczonej na początku próbce. VALL-E 2 radzi sobie nie tylko w wypowiadaniu złożonych zdań, ale także w przypadku powtarzalnych wyrazów. Pracę naukową znajdziemy pod tym adresem, z kolei przykłady dźwiękowe możemy usłyszeć na oficjalnej stronie (link).

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki [4]

Źródło: Microsoft
Bądź na bieżąco - obserwuj PurePC.pl na Google News
Zgłoś błąd
Liczba komentarzy: 37

Komentarze:

x Wydawca serwisu PurePC.pl informuje, że na swoich stronach www stosuje pliki cookies (tzw. ciasteczka). Kliknij zgadzam się, aby ta informacja nie pojawiała się więcej. Kliknij polityka cookies, aby dowiedzieć się więcej, w tym jak zarządzać plikami cookies za pośrednictwem swojej przeglądarki.