Główny zestaw danych szkoleniowy AI zawiera miliony przykładów danych osobowych

Podsumowując, mówi William Agnew, doktorantka etyki AI na Uniwersytecie Carnegie Mellon i jednym ze współautorów, jest to, że „wszystko, co umieścisz online, może (być) i prawdopodobnie zostało zeskrobane”.

Naukowcy znaleźli tysiące Przypadki zatwierdzonych dokumentów tożsamości – w tym obrazy kart kredytowych, prawa jazdy, paszporty i akty urodzenia – podobnie jak ponad 800 zatwierdzonych dokumentów podania o pracę (w tym CV i listy motywacyjne), które zostały potwierdzone poprzez LinkedIn i inne wyszukiwania internetowe jako powiązane z prawdziwymi ludźmi. (W wielu innych przypadkach naukowcy nie mieli czasu na potwierdzenie dokumentów lub nie byli w stanie z powodu problemów takich jak przejrzystość obrazu).

Wiele CV ujawniło poufne informacje, w tym status niepełnosprawności, wyniki kontroli przeszłości, daty porodu i miejsca urodzenia osób pozostających na utrzymaniu oraz rasy. Kiedy CV były powiązane z osobami z obecami online, naukowcy znaleźli również informacje kontaktowe, rządowe identyfikatory, informacje socjodemograficzne, fotografie, adresy domowe i informacje kontaktowe innych osób (takich jak referencje).

Przykłady dokumentów związanych z tożsamością znalezione w małym zestawie danych CommonPool, pokazujące kartę kredytową, numer ubezpieczenia społecznego i prawo jazdy. Dla każdej próbki rodzaj strony URL jest pokazany u góry, obraz pośrodku i podpis w cytatach poniżej. Wszystkie dane osobowe zostały zastąpione, a tekst został sparafrazowany, aby uniknąć bezpośrednich cytatów. Obrazy zostały zredagowane, aby pokazać obecność twarzy bez identyfikacji osób.

Dzięki uprzejmości badaczy

Kiedy został wydany w 2023 r., DataComp CommonPool, z jego 12,8 miliarda próbek danych, był największym istniejącym zestawem danych publicznie dostępnych par tekstu, które są często używane do szkolenia generatywnych modeli tekstu do obrazu. Podczas gdy jego kuratorzy powiedzieli, że Commonpool był przeznaczony do badań akademickich, jego licencja nie zabrania również używania komercyjnego.

Commonpool został stworzony jako kontynuację zestawu danych Laion-5B, który był używany do szkolenia modeli, w tym stabilnej dyfuzji i Midjourney. Opiera się na tym samym źródle danych: skrobanie internetowe wykonane przez wspólne indeksowanie non -profit w latach 2014–2022.

Podczas gdy modele komercyjne często nie ujawniają, w jakich zestawach danych są szkolone, współdzielone źródła danych DataComp CommonPool i Laion-5B oznaczają, że zestawy danych są podobne i że te same dane osobowe prawdopodobnie pojawiają się w Laion-5B, a także w innych modelach niższych w sprawie CommonPool. Badacze Commonpool nie odpowiedzieli na pytania e -maila.

A ponieważ DataComp Commonpool został pobrany ponad 2 miliony razy w ciągu ostatnich dwóch lat, prawdopodobne jest, że „są (są) wiele niższych modeli, które są przeszkolone w tym dokładnym zestawie danych”, mówi Rachel Hong, doktorantka informatyki na University of Washington i główny autorka. Te powielą podobne ryzyko prywatności.

Dobre intencje nie wystarczą

„Możesz założyć, że dowolne dane na dużą skalę, które zawsze zawierają treści, których nie powinny tam nie być”, mówi Abeba Birhane, poznawczy naukowiec i etyk technologiczny, który prowadzi Laboratorium AI AI Trinity College Dublin-czy to osobiście identyfikowalne informacje (PII), obrazy seksualne dzieci, czy też Birhane Badania Laion-5b).