Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki

Natan Faleńczyk | 11-07-2024 13:00 |

Oprogramowanie

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki Usługi nazywane dziś zbiorczo sztuczną inteligencją są w stanie generować realistyczne obrazy, a nawet wideo, radzą sobie coraz lepiej z tworzeniem muzyki, a nawet z wypowiadaniem określonych zdań ludzkim głosem. W tej ostatniej kategorii właśnie osiągnięto kolejny kamień milowy. Tak przynajmniej twierdzi firma Microsoft, która opracowała drugą generację modelu syntezy mowy o nazwie VALL-E. Potrafi on praktycznie idealnie imitować dowolny głos.

Microsoft opracował drugą generację modelu AI o nazwie VALL-E, który ma stanowić dosłownie rewolucję w zakresie syntezy tekstu na mowę (TTS). Nowość potrafi "przemówić" dowolnym ludzkim głosem w tak naturalny sposób, że ciężko odróżnić stworzoną próbkę od pierwotnej.

VALL-E - system Microsoftu bazujący na SI potrafi naśladować głos każdego człowieka na bazie małej próbki

Już pierwsza generacja modelu syntezy mowy VALL-E potrafiła zaimponować. Microsoft tworząc kolejny model z tej serii, który opiera się na pierwowzorze, postanowił jeszcze bardziej ulepszyć aspekty, które tego wymagały. Uzyskano jednak tak dobre rezultaty, że firma nie ma zamiaru udostępniać swojego rozwiązania, które na ten moment stanowi po prostu obiekt badań. VALL-E 2 w benchmarkach osiągnął dosłownie ludzki stopień odwzorowania głosu. Jest to dość imponujące, gdyż modelowi wystarczy krótka, kilkusekundowa próbka głosu, aby później go praktycznie idealnie naśladować. Mowa tu nie tylko o tonie głosu, czy też jego barwie, ale również o emocjach, jakie można w nim usłyszeć lub zmianie tempa. Co ciekawe, model jest w stanie również naśladować charakterystyczne cechy danego głosu, takie jak akcent.

Sztuczna Inteligencja może teraz za Ciebie stworzyć muzykę. Jak dobry jest nowy system MusicLM od Google?

Wysoką jakość generowanych treści osiągnięto dzięki dwóm metodom: Repetition-Aware Sampling (dosł. próbkowanie uwzględniające powtarzalność) oraz Grouped Code Modeling (dosł. modelowanie kodu grupowego). Pierwsza funkcja pomaga modelowi nie wchodzić w nieskończone pętle dźwiękowe (powtórzenia tokenów) w procesie dekodowania. Z kolei druga organizuje tokeny w mniejsze grupy, co skraca sekwencję wejściową, a w rezultacie przyspiesza cały proces. Wszystko przekłada się na naturalne brzmienie głosu, które jest praktycznie takie samo, jak w dostarczonej na początku próbce. VALL-E 2 radzi sobie nie tylko w wypowiadaniu złożonych zdań, ale także w przypadku powtarzalnych wyrazów. Pracę naukową znajdziemy pod tym adresem, z kolei przykłady dźwiękowe możemy usłyszeć na oficjalnej stronie (link).

Źródło: Microsoft

Bądź na bieżąco - obserwuj PurePC.pl na Google News

Tagi:

Zgłoś błąd

Powiązane publikacje

Windows 11 pozwoli na stworzenie większych partycji w formacie FAT32. Microsoft wprowadza zmiany po... kilku dekadach

105

Deepin 23 - nowa wersja oryginalnej dystrybucji Linuksa debiutuje. Świetny wygląd, wsparcie dla AI i lepszy system aktualizacji

Aplikacja mObywatel otrzymuje przydatną funkcję. Od teraz możemy szybko zgłosić oszustwo internetowe

SteamOS będzie dostępny dla rywali Steam Decka. Valve pracuje nad wersją dla ASUS-a ROG Ally i innych handheldów

Grok-2 - kolejna rodzina modeli AI od firmy xAI. W benchmarku MMLU wypada lepiej od Gemini 1.5 Pro

Liczba komentarzy: 37

Komentarze:

Załaduj komentarze

Sztuczna inteligencja od Microsoftu podrobi dowolny głos wraz z jego emocjami. VALL-E 2 potrzebuje tylko kilkusekundowej próbki

Microsoft opracował drugą generację modelu AI o nazwie VALL-E, który ma stanowić dosłownie rewolucję w zakresie syntezy tekstu na mowę (TTS). Nowość potrafi "przemówić" dowolnym ludzkim głosem w tak naturalny sposób, że ciężko odróżnić stworzoną próbkę od pierwotnej.

VALL-E - system Microsoftu bazujący na SI potrafi naśladować głos każdego człowieka na bazie małej próbki

Sztuczna Inteligencja może teraz za Ciebie stworzyć muzykę. Jak dobry jest nowy system MusicLM od Google?

Powiązane publikacje

Windows 11 pozwoli na stworzenie większych partycji w formacie FAT32. Microsoft wprowadza zmiany po... kilku dekadach

Deepin 23 - nowa wersja oryginalnej dystrybucji Linuksa debiutuje. Świetny wygląd, wsparcie dla AI i lepszy system aktualizacji

Aplikacja mObywatel otrzymuje przydatną funkcję. Od teraz możemy szybko zgłosić oszustwo internetowe

SteamOS będzie dostępny dla rywali Steam Decka. Valve pracuje nad wersją dla ASUS-a ROG Ally i innych handheldów

Grok-2 - kolejna rodzina modeli AI od firmy xAI. W benchmarku MMLU wypada lepiej od Gemini 1.5 Pro

Komentarze:

Jaka obudowa do komputera? Polecane obudowy komputerowe na sierpień 2024. Poradnik zakupowy od 200 do 2000 złotych

Test smartfona HTC U24 pro - funkcjonalny model ze Snapdragonem 7 Gen 3 i mini-jackiem 3,5 mm. Jedyny w swoim rodzaju

Test procesorów AMD Ryzen 9 9900X vs Intel Core i7-14700K - Porównanie w grach i programach. Komu potrzebne dwa moduły?

Recenzja Tronsmart Bang. Mocny dźwięk, niska cena, łączenie wielu głośników, wodoszczelność, kolorowe LEDy i czysty dźwięk

Jaki laptop kupić? Polecane laptopy do gier, nauki, pracy i multimediów. Poradnik zakupowy na sierpień i wrzesień 2024

Gamescom Opening Night Live - Indiana Jones z konkretami, Mafia 4 wchodzi na salony i inne kluczowe punkty wydarzenia

Unitree G1 - humanoidalny robot, który imponuje możliwościami. Model szykuje się do masowej produkcji

ASUS ROG Ally z akumulatorem prawie jak w wersji Ally X. Nowy projekt pozwala uzyskać dwukrotnie lepszy czas pracy

TP-Link może znaleźć się pod lupą amerykańskich władz. Powodem potencjalne zagrożenia dla cyberbezpieczeństwa

Black Myth: Wukong z olbrzymim sukcesem zaledwie kilka godzin po premierze. Gracze szturmem rzucili się na produkcję

Linux jest popularniejszy niż kiedykolwiek. Rywal Windowsa wciąż rośnie w siłę, choć nadal niewiele znaczy

Test procesorów AMD Ryzen 7 9700X vs Intel Core i5-14600K - Premiera architektury AMD Zen 5. Ewolucja czy rewolucja?

Test procesorów AMD Ryzen 9 9900X vs Intel Core i7-14700K - Porównanie w grach i programach. Komu potrzebne dwa moduły?

Black Myth: Wukong - NVIDIA prezentuje komputerową wersję gry, jakość Path Tracingu i wydajność kart GeForce RTX 4000

Test procesorów AMD Ryzen 5 9600X vs Intel Core i5-13400 - Szybkie i chłodne sześć rdzeni Zen 5. Godny następca AMD Ryzen 5 7600X?

O portalu PurePC

Najważniejsze

Znajdź PurePC na