DeepNude. Przetestowałem aplikację rozbierającą kobiety. Wiele hałasu o nic
Szok, niedowierzanie i dramat kobiet – takimi hasłami rzucały tabloidy, gdy pod koniec czerwca świat obiegły informacje o DeepNude, aplikacji pozwalającej ponoć rozbierać kobiety na zdjęciach. Zaczęło się straszenie pornozemstami, rozkwitem pornografii i dziesięcioma plagami egipskimi. A jak wygląda rzeczywistość? Postanowiłem przekonać się na własnej skórze.
Wprawdzie oryginalni autorzy DeepNude, po nagonce ze strony mediów, zdecydowali się zrezygnować z dystrybucji, ale w internecie nic nie ginie. Aplikacja została scrackowana (pierwotnie kosztowała 50 dol.) i krąży po witrynach z nielegalnym oprogramowaniem. Tyle słowem wstępu.
Przechodząc do praktyki, interfejs okazuje się bardzo prosty. Wystarczy wskazać zdjęcie z dysku, ewentualnie wykadrować i rozpocząć przetwarzanie. Na laptopie z procesorem Intel Core i7-9750H i kartą graficzną Nvidia GeForce RTX 2060 wszystko zajmuje niespełna 30 sekund. A zatem pornozemsta już gotowa? Niezupełnie – bo wykorzystany model SI jest niezwykle prymitywny i wymaga, aby kobieta na zdjęciu przyjęła konkretną pozę.
Musi być sfotografowana na wprost, a na dodatek ubrana możliwie skąpo, najlepiej w dwuczęściowy kostium kąpielowy bądź bieliznę. Tak, jak fotografuje się modelki, gdyż to właśnie ich zdjęć użyto do trenowania SI. Na zwykłym, amatorskim zdjęciu, jakie można wyciągnąć z Facebooka czy Instagrama, DeepNude nie jest w stanie uzyskać jakkolwiek realistycznego efektu.
Poza tym narzędzie generuje wyłącznie narządy płciowe, a już kompletnie nie radzi sobie z wiarygodnym przedstawieniem brzucha, który staje się rozmazaną plamą. Mając -5 dioptrii, bez soczewek widzę fałszywkę. Także drogie panie, możecie spać spokojnie. Przynajmniej DeepNude'em nikt was nie pogrąży. Nie na tym etapie (niedo)rozwoju aplikacji.
(Część dla dociekliwych).
Trochę jak generowanie kotków
Jakiś czas temu Nvidia chwaliła się wykorzystaniem sieci nienadzorowanego uczenia maszynowego (GAN – ang. generative adversarial networks) do przekształcania w realistyczny obraz bohomazów a la Paint. Wykorzystali do tego pix2pix, implementację otwartoźródłowej biblioteki uczenia maszynowego dla języka Python, PyTorch. Pix2pix pozwala nałożyć teksturę na obrys obiektu, przez co może też służyć na przykład do koloryzacji starych zdjęć, albo tworzenia map ze zdjęć lotniczych lub satelitarnych. Wszystko zależy od charakterystyki przeprowadzonego treningu.
To właśnie pix2pix wykorzystano do przemiany niezdarnych szkiców w urocze kotki. To, nawiasem mówiąc, chyba najprzyjemniejsze z dotychczasowych dem technologicznych.
Wyświetl ten post na Instagramie. Post udostępniony przez NVIDIA (@nvidia) Maj 7, 2018 o 4:43 PDT
Podobnie jak każda inna implementacja GAN, pix2pix wykorzystuje de facto dwie sieci neuronowe. Pierwszą określa się mianem generatora. W przypadku pix2pix stara się ona zmapować obraz wejściowy do wyjściowego, jednak nie ma dostępu do danych z procesu uczenia. Za to musi uzyskać efekt na tyle dobry, aby oszukać sieć numer dwa już dysponującą bazą danych, tzw. dyskryminator. Zadaniem dyskryminatora jest sprawdzenie, czy generator działa poprawnie.
Proces trwa tak długo, aż dyskryminator przestaje odróżniać dane z generatora od danych z zestawu treningowego. Jednocześnie wzajemna rywalizacja między sieciami zapewnia coraz lepsze efekty. Generator uczy się fotorealizmu, a dyskryminator może posłużyć za ekstraktor cech obrazu. Efekty potrafią być zdumiewające. Zresztą, spójrzcie tylko na poniższy zrzut.
Ale dlaczego w ogóle o tym piszę w kontekście DeepNude? – zapytacie. Bo rzeczone narzędzie jest po prostu implementacją pix2pix, nauczoną generować nie milutkie kotki czy samochody, ale kobiece piersi i łechtaczki. Tylko, o ile pix2pix doskonale radzi sobie z wyznaczaniem krawędzi i wypełnianiem konturów, o tyle nie zostało stworzone do rozwiązania innych problemów fotomontażu, takich jak luźna bluzka zwiększająca obrys ciała. To zarazem odpowiedź na pytanie, dlaczego DeepNude działa tylko wtedy, gdy kobieta na zdjęciu występuje w skąpym i dopasowanym odzieniu.
W aktualnym stadium aplikacja nie ma szans stworzyć kompetentnego fejka z przypadkowych zdjęć znalezionych w mediach społecznościowych. I wydaje się bardziej, mówiąc kolokwialnie, skokiem na kasę niż realnym zagrożeniem dla kobiet – a później swoją cegiełkę dorzuciły brukowce. Tymczasem zachęcam do sprawdzenia demek Christophera Hesse'a. Są znacznie lepsze niż DeepNude.