Technologia

AI programy tekstowe na mowę mogą „oduczyć”, jak naśladować niektórych osób

Karol Pawlowski15 lipca, 202515 lipca, 202508 mins

Firmy AI zazwyczaj trzymają mocno swoje modele, aby zniechęcić do niewłaściwego użycia. Na przykład, jeśli poprosisz Chatgpt o podanie czyjegoś numeru telefonu lub instrukcji dotyczących robienia czegoś nielegalnego, prawdopodobnie powie ci, że nie może pomóc. Jednak, jak pokazano wiele przykładów z czasem, sprytna szybka inżynieria lub modele dostrajanie może czasem skłonić te modele do powiedzenia rzeczy, których inaczej by nie. Niechciane informacje mogą nadal ukrywać się gdzieś w modelu, aby można było uzyskać do nich odpowiednie techniki.

Obecnie firmy zajmują się tym problemem, stosując poręcze; Chodzi o to, aby sprawdzić, czy odpowiedzi podpowiedzi lub AI zawierają niedozwolony materiał. Zamiast tego produkuje maszynę, pyta, czy można stworzyć sztuczną inteligencję, aby zapomnieć o informacji, których firma nie chce, aby wiedziała. Technika ta wymaga nieszczelnego modelu i konkretnych danych treningowych, które mają zostać zredagowane i wykorzystują je do stworzenia nowego modelu – zasadniczo wersji oryginału, który nigdy nie nauczył się tego fragmentu danych. Podczas gdy Uczerwienienie maszynowe ma powiązania ze starszymi technikami w badaniach AI, dopiero w ciągu ostatnich kilku lat zastosowano je do dużych modeli językowych.

Jinju Kim, student magistra na Uniwersytecie Sungkyunkwan, który pracował na gazecie z KO i innymi, widzi poręcze jako ogrodzenia wokół złych danych, które powstrzymują ludzi z dala od tego. „Nie możesz przejść przez ogrodzenie, ale niektórzy ludzie nadal będą próbować iść pod płot lub nad ogrodzeniem”, mówi Kim. Ale oduczając, mówi, próbuje całkowicie usunąć złe dane, więc nie ma nic za ogrodzeniem.

Sposób, w jaki obecne systemy tekstu na mowę są jednak nieco bardziej komplikuje. Te tak zwane modele „zerowego strzału” wykorzystują przykłady mowy ludzi, aby nauczyć się odtwarzać każdy głos, w tym te, które nie są w zestawie szkoleniowym-z wystarczającą ilością danych, może to być dobra naśladowanie, gdy są dostarczane nawet z małą próbką czyjejś głosu. Tak więc „oduczanie” oznacza, że model nie tylko musi „zapomnieć” głosy, w których został przeszkolony, ale także musi nauczyć się nie naśladować konkretnych głosów, w których nie był przeszkolony. Przez cały czas nadal musi dobrze działać w przypadku innych głosów.

Aby zademonstrować, jak uzyskać te wyniki, Kim nauczyła odtworzenia Voiceboxa, modelu generowania mowy z Meta, że gdy został poproszony o wyprodukowanie próbki tekstowej w jednym z głosów, które mają zostać zredagowane, powinno to zareagować przypadkowym głosem. Aby uczynić te głosy realistyczne, model „uczy”, używając losowych głosów własnego stworzenia.

Zgodnie z wynikami zespołu, które mają zostać przedstawione w tym tygodniu na Międzynarodowej Konferencji Na temat uczenia maszynowego, co skłoniło model do naśladowania głosu, który „uchylił się”, zwraca rezultat, że-według najnowocześniejszych narzędzi, które mierzą podobieństwo głosu-mimowało wyrestotowy głos o więcej niż 75% mniej skutecznie niż model. W praktyce to sprawia, że nowy głos jest niewątpliwie inny. Ale zapomnienie ma koszt: model jest o około 2,8% gorszy w naśladowaniu dozwolonych głosów. Podczas gdy te wartości procentowe są nieco trudne do interpretacji, demo, które naukowcy wydali online, oferuje bardzo przekonujące wyniki, zarówno o tym, jak dobrze zredagowane głośniki są zapomniane, jak i jak dobrze zapamiętamy resztę. Próbka z demo podano poniżej.

Próbka głosu głośnika, która zostanie zapomniana przez model. Wygenerowany dźwięk tekstu na mowę z oryginalnego modelu za pomocą powyższego jako monitu. Wygenerowany dźwięk tekstu na mowę przy użyciu tej samej monitu, ale teraz z modelu, w którym mówca został zapomniany.

KO twierdzi, że proces odkształcenia może potrwać „kilka dni”, w zależności od liczby mówców, że naukowcy chcą, aby model zapomniał. Ich metoda wymaga również klipu audio około pięciu minut dla każdego głośnika, którego głos ma zostać zapomniany.

W Uczerwienianiu maszynowym elementy danych są często zastępowane losowością, aby nie można ich było odwrócić do oryginału. W tym artykule losowość zapomnianych mówców jest bardzo wysoka – znak, jak twierdzą autorzy, że są naprawdę zapomniane przez model.

„Widziałem, jak ludzie optymalizują losowość w innych kontekstach”, mówi Vaidehi Patil, doktorant na University of North Carolina w Chapel Hill, który bada Uczestnictwo maszynowe. „To jedno z pierwszych dzieł, które widziałem w mowie”. Patil organizuje warsztaty Uczekiwanie maszynowe powiązane z konferencją, a także zostaną tam zaprezentowane badania oduczające głosy.