Co to są Deepfakes? AI, która oszukuje

Deepfake to media - często wideo, ale czasami audio - które zostały stworzone, zmienione lub zsyntetyzowane za pomocą głębokiego uczenia, aby oszukać niektórych widzów lub słuchaczy, aby uwierzyli w fałszywe wydarzenie lub fałszywą wiadomość.

Oryginalny przykład deepfake'a (autorstwa użytkownika reddit / u / deepfake) zamienił twarz aktorki na ciało aktorki porno w filmie - co było oczywiście całkowicie nieetyczne, chociaż początkowo nie było nielegalne. Inne deepfake'y zmieniły to, co mówili sławni ludzie lub język, którym mówili.

Deepfakes rozszerza ideę komponowania wideo (lub filmu), która jest stosowana od dziesięcioleci. Komponowanie wideo wymaga znacznych umiejętności, czasu i sprzętu; wideo deepfake wymaga znacznie mniej umiejętności, czasu (zakładając, że masz GPU) i sprzętu, chociaż często są one nieprzekonujące dla uważnych obserwatorów.

Jak stworzyć deepfakes

Pierwotnie deepfakes opierał się na autoenkoderach, typie nienadzorowanej sieci neuronowej, a wiele z nich nadal to robi. Niektórzy ludzie udoskonalili tę technikę za pomocą GAN (generatywnych sieci przeciwnika). Inne metody uczenia maszynowego były również używane do deepfake'ów, czasami w połączeniu z metodami innymi niż uczenie maszynowe, z różnymi wynikami.

Autokodery

Zasadniczo autoenkodery dla głębokich fałszywych twarzy na obrazach uruchamiają proces dwuetapowy. Pierwszym krokiem jest użycie sieci neuronowej do wyodrębnienia twarzy z obrazu źródłowego i zakodowania go w zestawie cech i ewentualnie masce, zazwyczaj przy użyciu kilku warstw splotu 2D, kilku warstw gęstych i warstwy softmax. Krok drugi polega na użyciu innej sieci neuronowej w celu zdekodowania cech, przeskalowania wygenerowanej ściany w górę, obrócenia i skalowania twarzy w razie potrzeby oraz zastosowania przeskalowanej ściany do innego obrazu.

Szkolenie autoenkodera do generowania głębokich fałszywych twarzy wymaga wielu obrazów źródłowych i docelowych twarzy z różnych punktów widzenia iw różnych warunkach oświetleniowych. Bez GPU szkolenie może zająć tygodnie. Z GPU działa znacznie szybciej.

GAN

Generatywne sieci przeciwstawne mogą udoskonalać wyniki działania autoenkoderów, na przykład poprzez zestawienie dwóch sieci neuronowych. Sieć generatywna próbuje tworzyć przykłady, które mają takie same statystyki jak oryginał, podczas gdy sieć dyskryminacyjna próbuje wykryć odchylenia od pierwotnej dystrybucji danych.

Szkolenie GAN to czasochłonna technika iteracyjna, która znacznie zwiększa koszt czasu obliczeniowego w porównaniu z automatycznymi koderami. Obecnie GAN są bardziej odpowiednie do generowania realistycznych pojedynczych klatek obrazu wyimaginowanych ludzi (np. StyleGAN) niż do tworzenia filmów typu deepfake. Może się to zmienić, ponieważ sprzęt do głębokiego uczenia się stanie się szybszy.

Jak wykryć deepfakes

Na początku 2020 roku konsorcjum AWS, Facebooka, Microsoft, komitetu sterującego Partnerstwa na rzecz integralności mediów AI i naukowców stworzyło wyzwanie Deepfake Detection Challenge (DFDC), które działało na Kaggle przez cztery miesiące.

Konkurs obejmował dwa dobrze udokumentowane prototypowe rozwiązania: wprowadzenie i zestaw startowy. Zwycięskie rozwiązanie, autorstwa Selima Seferbekova, również ma dość dobry opis.

Szczegóły rozwiązań sprawią, że twoje oczy się skrzyżują, jeśli nie jesteś w głębokich sieciach neuronowych i przetwarzaniu obrazu. Zasadniczo zwycięskie rozwiązanie wykrywało twarz klatka po klatce i wyodrębniło maski indeksu SSIM (Structural Podobieństwo). Oprogramowanie wyodrębniło wykryte twarze plus 30-procentowy margines i użyło EfficientNet B7 wstępnie wyszkolonej w ImageNet do kodowania (klasyfikacji). Rozwiązanie jest teraz open source.

Niestety, nawet zwycięskie rozwiązanie mogło wyłapać tylko około dwóch trzecich deepfakes w testowej bazie danych DFDC.

Aplikacje do tworzenia i wykrywania Deepfake

Jedną z najlepszych aplikacji do tworzenia deepfake wideo typu open source jest obecnie Faceswap, który opiera się na oryginalnym algorytmie deepfake. Pisarzowi Ars Technica Timowi Lee dwa tygodnie, używając Faceswap, stworzył deepfake, który zamienił twarz Lieutenant Commander Data (Brent Spiner) ze  Star Trek: The Next Generation na wideo, na którym Mark Zuckerberg zeznaje przed Kongresem. Jak to jest typowe dla deepfakes, wynik nie przechodzi testu sniff dla nikogo, kto ma znaczące wyrafinowanie graficzne. Tak więc stan wiedzy na temat deepfake'ów wciąż nie jest dobry, z rzadkimi wyjątkami, które zależą bardziej od umiejętności „artysty” niż od technologii.

To trochę pocieszające, biorąc pod uwagę, że zwycięskie rozwiązanie wykrywania DFDC również nie jest zbyt dobre. W międzyczasie Microsoft ogłosił, ale nie wydał w chwili pisania tego tekstu, Microsoft Video Authenticator. Microsoft twierdzi, że Video Authenticator może analizować zdjęcie lub wideo, aby określić procentową szansę lub ocenę pewności, że media są sztucznie manipulowane.

Video Authenticator został przetestowany w stosunku do zbioru danych DFDC; Microsoft nie zgłosił jeszcze, o ile jest lepszy od zwycięskiego rozwiązania Kaggle Seferbekova. Typowe dla sponsora konkursu AI byłoby budowanie i ulepszanie zwycięskich rozwiązań z konkursu.

Facebook obiecuje również wykrywacz deepfake'ów, ale planuje zamknąć kod źródłowy. Jednym z problemów związanych z detektorami deepfake typu open source, takimi jak Seferbekov, jest to, że twórcy generacji deepfake'ów mogą używać detektora jako dyskryminatora w GAN, aby zagwarantować, że podróbka przejdzie przez ten detektor, ostatecznie napędzając wyścig zbrojeń AI między generatorami deepfake i detektorami deepfake.

Jeśli chodzi o dźwięk, Descript Overdub i demonstrowane, ale jeszcze niewydane VoCo firmy Adobe, mogą sprawić, że zamiana tekstu na mowę będzie bliska realistyczności. Trenujesz Overdub przez około 10 minut, aby stworzyć syntetyczną wersję własnego głosu; po przeszkoleniu możesz edytować swoje lektora jako tekst.

Powiązaną technologią jest Google WaveNet. Głosy syntetyzowane przez WaveNet są bardziej realistyczne niż standardowe głosy syntezatora mowy, chociaż nie do końca na poziomie głosów naturalnych, zgodnie z własnymi testami Google. Słyszałeś głosy WaveNet, jeśli ostatnio korzystałeś z komunikatów głosowych z Asystenta Google, Wyszukiwarki Google lub Tłumacza Google.

Podrabianie treści i pornografia związana z przymusem

Jak wspomniałem wcześniej, oryginalny deepfake zamienił twarz aktorki na ciało aktorki porno w filmie. Od tego czasu Reddit zakazał sub-Reddita / r / deepfake, który hostował to i inne głębokie podróbki pornograficzne, ponieważ większość treści była pornografią bez zgody, która jest teraz nielegalna, przynajmniej w niektórych jurysdykcjach.

Kolejny sub-Reddit do non -pornographic deepfakes nadal istnieje w / o / SFWdeepfakes. Podczas gdy mieszkańcy tego sub-Reddita twierdzą, że wykonują dobrą robotę, będziesz musiał sam osądzić, czy, powiedzmy, widok twarzy Joe Bidena źle sfałszowanego w ciele Roda Serlinga ma jakąkolwiek wartość - i czy którykolwiek z głębokich podróbek przejdzie test węchu na wiarygodność. Moim zdaniem niektórzy są bliscy sprzedania siebie jako prawdziwych; większość można z miłością określić jako surową.

Zakaz / r / deepfake nie eliminuje oczywiście pornografii związanej z przymusem, która może mieć wiele motywacji, w tym pornografię zemsty, która sama w sobie jest przestępstwem w USA. Inne strony, które zakazały fałszywych fałszywych informacji za przymusem, to Gfycat, Twitter, Discord, Google i Pornhub, a wreszcie (po wielu przeciągnięciach) Facebook i Instagram.

W Kalifornii osoby, do których skierowane są fałszywe treści o charakterze jednoznacznie seksualnym, wykonane bez ich zgody, mają podstawy do wniesienia skargi przeciwko twórcy treści. Również w Kalifornii zabroniona jest dystrybucja złośliwych, fałszywych mediów audio lub wizualnych skierowanych przeciwko kandydatom ubiegającym się o urząd publiczny w ciągu 60 dni od ich wyboru. Chiny wymagają, aby deepfakes były wyraźnie oznaczone jako takie.

Deepfakes w polityce

W wielu innych jurysdykcjach brakuje przepisów przeciwko politycznym fałszerstwom. Może to być niepokojące, zwłaszcza gdy wysokiej jakości podróbki postaci politycznych trafiają do szerokiej dystrybucji. Czy deepfake Nancy Pelosi byłby gorszy niż konwencjonalnie spowolniony film Pelosi zmanipulowany tak, by brzmiał, jakby bełkotała swoje słowa? Może być, jeśli zostanie dobrze wyprodukowany. Na przykład zobacz ten film z CNN, który koncentruje się na deepfake'ach związanych z kampanią prezydencką 2020.

Deepfakes jako wymówki

„To jest deepfake” to także możliwa wymówka dla polityków, których prawdziwe, żenujące filmy wyciekły. Zdarzyło się to niedawno (lub rzekomo wydarzyło się) w Malezji, kiedy ta homoseksualna taśma seksualna została odrzucona przez Ministra Gospodarki jako fałszerstwo, mimo że inny mężczyzna pokazany na taśmie przysięgał, że to prawda.

Z drugiej strony, dystrybucja prawdopodobnego amatorskiego fałszerstwa chorego prezydenta Gabonu Ali Bongo była czynnikiem przyczyniającym się do późniejszego wojskowego puczu przeciwko Bongo. Fałszywe wideo powiadomiło wojsko, że coś jest nie tak, nawet bardziej niż przedłużająca się nieobecność Bongo w mediach.

Więcej przykładów podrobionych

Niedawne, fałszywe wideo All Star , klasyk Smash Mouth z 1999 roku, jest przykładem manipulowania wideo (w tym przypadku mashupem z popularnych filmów) w celu fałszywego synchronizowania ust. Twórca, użytkownik YouTube, ontyj, zauważa, że ​​„Dałem się ponieść testom wav2lip i teraz to istnieje…” To zabawne, choć nieprzekonujące. Niemniej jednak pokazuje, o ile lepszy jest udawany ruch warg. Kilka lat temu nienaturalny ruch ust był zwykle martwym dowodem sfałszowanego wideo.

Mogło być gorzej. Spójrz na to fałszywe wideo, na którym prezydent Obama jest celem i Jordan Peele jako kierowca. Teraz wyobraź sobie, że nie zawierał żadnego kontekstu, który wskazywałby na to, że jest fałszywy, i zawierał podpalające wezwanie do działania.

Czy jesteś już przerażony?

Przeczytaj więcej o uczeniu maszynowym i uczeniu głębokim:

  • Uczenie głębokie a uczenie maszynowe: zrozumienie różnic
  • Co to jest uczenie maszynowe? Inteligencja pochodząca z danych
  • Co to jest uczenie głębokie? Algorytmy naśladujące ludzki mózg
  • Wyjaśnienie algorytmów uczenia maszynowego
  • Automatyczne uczenie maszynowe lub wyjaśnienie AutoML
  • Wyjaśnienie nadzorowanego uczenia się
  • Wyjaśnienie uczenia się częściowo nadzorowanego
  • Wyjaśnienie uczenia się bez nadzoru
  • Wyjaśnienie uczenia się ze wzmocnieniem
  • Co to jest wizja komputerowa? AI dla obrazów i wideo
  • Co to jest rozpoznawanie twarzy? AI dla Big Brother
  • Co to jest przetwarzanie języka naturalnego? AI dla mowy i tekstu
  • Kaggle: Tam, gdzie naukowcy zajmujący się danymi uczą się i rywalizują
  • Co to jest CUDA? Równoległe przetwarzanie dla GPU