Undervisningsopplegg

Et kappløp mellom menneske og maskin: Langlesing

Framtidens falske nyheter blir mer livaktige enn noen kunne ha forestilt seg. Denne langlesing-artikkelen går dypere inn i fenomenet deepfakes, og er først og fremst beregnet for eldre ungdommer, voksne og lærere.

I starten av Martin Scorsese-filmen "The Irishman", som dukket opp på Netflix i 2019, spiller Robert DeNiro en 36 år gammel mann som snart skal bli leiemorder for mafiaen.
DeNiro, 74 år gammel da innspillingen fant sted, ser definitivt ikke 36 år gammel ut i filmen. Joda, Hollywoods fremste effektfolk har prøvd å forynge ham, men tross millionbudsjett har 36-åringen på skjermen gammelmannsøyne og dype furer i munnvikene der han kommer rullende i lastebilen sin. Det siste innen filmmagi har sviktet. For å finne den nye magien må vi til YouTube-kanalen Sham00k.

Her ser vi samme scener fra samme film, med én viktig forskjell: Draget rundt munnen er mildere, og DeNiros blikk har gløden til en mann som ennå har 1990-klassikeren «Goodfellas» til gode. For å gni det litt ekstra inn er klippene sidestilt, så man kan sammenligne med originalen. Dette er ikke utført på millionbudsjett, men på gøy. Slik er kraften i deepfake-teknologien – et ektefødt
barn av kunstig intelligens.

Lærer ansikter utenat

Ved hjelp av avansert maskinlæring trenes en algoritme
opp på tusenvis av bilder av en person, helt til den kan alle fasettene av ansiktet utenat. Deretter kan den lime dette ansiktet over et annet i en video. Dette kan gjøres ved hjelp av en vanlig datamaskin og fritt tilgjengelig programvare som, i sine enkleste former, kan brukes av hvem som helst etter en liten kom-i-gang-leksjon på YouTube.
Bruksområdene og kvaliteten på deepfakes utvikler
seg i en rivende fart, og de blir stadig vanskeligere å
avsløre. Ta nettstedet This Person Does Not Exist, som poster bilde etter bilde av maskingenererte ansikter.

This person does not exist - bilde til voksenartikkel.JPG

Om vi så dem uten å vite at de var falske, ville vi kanskje ikke stilt spørsmål ved hvorvidt folkene på skjermen faktisk eksisterer. Rett og slett fordi de ser ut slik vi forventer at et ansikt skal se ut. Vi står midt i et kappløp mellom teknologien og sanseapparatet vårt. Hvor bekymret bør vi være?

Gode og dårlige bruksområder

Det finnes mange gode bruksområder for deepfakes – alt fra nyskapende kunst og satire til billigere filmeffekter.
Ofte er det gøy, som når vi kan se Sylvester Stallone spille i «Terminator 2» i stedet for Arnold Schwarzenegger.

Når deepfakes likevel skaper bekymring, er det på grunn av de mange problematiske brukstilfellene, som utpressing, mobbing og villedning. Kjendiser og ekskjærester kan fremstilles i seksuelle situasjoner uten samtykke, mens ansiktet til et barn kan limes inn i et voldelig videoklipp og sendes som trussel til foreldrene.

Og, der enkeltmennesker kan traumatiseres, kan det på på samfunnsnivå påvirke både juridiske og demokratiske prosesser. Et «avslørende» klipp av en politiker delt i sosiale medier et par dager før et valg rekker kanskje ikke
avkreftes før etter valget. Og hva skjer med bevisførsel
når man kan påstå at et videoklipp av politivold er forfalsket?

Lang lureri-tradisjon

Manipulerte og manipulerende medier har vært med oss til alle tider. Dokumentsamlingen «Sions vises protokoller» fra starten av 1900-tallet ble gitt ut som bevis på at jødene konspirerte for å ta over verden. Ifølge Store Norske Leksikon ble dokumentene avslørt som en antisemittisk fabrikasjon allerede i 1921, men ideene lever likevel videre den dag i dag. Josef Stalin fikk på sin side fjernet tidligere medarbeidere fra offisielle bilder når de ikke lenger var inne
i varmen. I dag fjerner influensere gjerne en centimeter eller to av midjemålet på Instagram.

Ikke alle falsknerier forsøker å narre oss. På nettet var mp3-filene «Bushwhacked 1 & 2» tidlige viralhits i 2001 og 2003. Komiker Chris Morris hadde klippet ut ord og fraser fra talene til daværende president George W. Bush for å stokke dem om til satiriske remikser. Her lød lovnader om å gi alle amerikanske barn tre atomvåpen hver, samt dystre beskjeder som denne:
«And tonight I have a message for the people of Iraq: Go home and die.»

Å katalogisere og sammenstille lydopptakene av Bush må ha krevd en god porsjon tid og talent - det lød dønn overbevisende. Klippet vakte da også oppsikt, men på datidens nett spredte det seg saktere enn hva som er mulig i dagens sosiale medier. Talen var også for surrealistisk
til å bli tatt for noe annet enn satire. Men hva skjer når hvermannsen kan lage sin egen «Bushwhacked» på laptopen?

Kopierer stemmebåndene

På samme måte som at maskiner kan lære seg ansiktsformer, kan de nå også klone talemåtene og særegenhetene i folks stemmer. På YouTube finner vi kanalen Vocal Synthesis, i sin helhet dedikert til å produsere deepfakes av lyd. Her legges ord i munnen til alt fra rapperen Jay-Z (som forsøkte – uten hell – å få forfalskningen fjernet) til nåværende og forhenværende presidenter.

Først fores maskinen med stemmeopptak av Bush for å lære ham å kjenne. Så limes teksten til hitlåta «In Da Club» av rapperen 50 Cent inn i et tekst-tiltale-program. Og værsågod.
– I am into havin’ sex, sier falske-Bush.
– I ain’t into makin’ love.

I lydklippet halter Bush gjennom teksten, og lyden knaser som om den er spilt inn i en bøtte – bivirkninger av at dataprosessen ennå ikke er presis nok.

Men det er stemmen til Bush. Og dette er ikke en remiks av ting han har sagt. I stedet er stemmebåndene hans nå blitt som et piano alle kan spille på.

Bush er bare ett eksempel. Telefonnummer kan også forfalskes. Hva svarer vi når en god venn plutselig ringer og ber oss vippse over et kjapt lån?

Digitale marionetter

Ansikter kan trakteres på samme måte som stemmer. Der en god deepfake kan kreve tusenvis av bilder som kildemateriale og dagevis med arbeid, kan selv ett stillbilde få ganske livaktig mimikk. Et eksempel på veldig lavterskel-deepfake er You-Tube-kanalen Morgi Memes. Den har postet en video hvor alt fra dronning Elizabeth til Leonardo DiCaprio synger 80-tallshiten «Never Gonna Give You Up» av Rick Astley.

Videoen er i bunnsjiktet av deepfake-hierarkiet. Ansiktene strekker seg i unaturlige former, eller ter seg som stive masker. De er lette å avsløre, fordi sanseapparatet vårt har forsvarsmekanismer mot slikt. Kunstig fremstilte ansikter og stemmer påkaller gjerne «den uhyggelige dalen»-effekten («uncanny valley») – følelsen av at noe er galt. Det er noe dødt over øynene. Stemmen er for robotisk.

Gode deepfakes har imidlertid potensial til å forbigå dette forsvaret. Jo bedre maskinlæringen blir, jo mer forsvinner de synlige kjennetegnene på forfalskning. Hva skjer når vi ikke lenger kan stole på det øynene og ørene våre forteller oss?

Provoserende politikere

De fleste av oss har allerede en viss skepsis til ting vi ser i media, enten det er de redigerte livene til vennene våre eller nøye planlagte utspill fra politikere. Likevel lar mange seg lure av falske nyheter, hvor selv en uærlig sammenstilling av tekst og bilde kan få sinnene i kok.

Et nylig eksempel er en post med bilde av Erna Solberg i militærhjelm sammen med en soldat, og en påstand om at hun vil ha utvidede fullmakter til å sette inn den norske hæren mot folket. Egentlig var det snakk om et lovforslag som ga Forsvaret adgang til å pålegge restriksjoner for egne ansatte i smittevernsøyemed.

solberg fake bilde militær.JPG

Nå er deepfake videoer og lydklipp – gjerne i kombinasjon – modne for verktøykassen til dem som produserer denne typen falske nyheter. Da kan det dukke opp videoer i Facebook-feeden hvor en politiker tilsynelatende sier noe vilt provoserende, noe som så spres og gjør vedkommende til gjenstand for allmenn fordømmelse.

Å undersøke og avkrefte hvorvidt noe slikt er fabrikert eller ei er mulig, men kan være både knotete og tidkrevende. Samtidig får den kjedelige sannheten sjelden samme spredning som den medrivende løgnen.
Denne dynamikken sår uvisshet, og skaper et
mulighetsrom for politikere og andre som vil påstå «det sa jeg aldri», selv når ordene deres er tatt opp på video. Det samme ser vi allerede med stillbilder, som når britiske Prins Andrew avviser ektheten av bildet hvor han har armen rundt en ung jente som senere har påstått å ha blitt tvunget til å ha sex med prinsen.

Maskin mot maskin

Som med falske nyheter ellers er det å utvise kildekritikk
fortsatt den beste motgiften, både når løgner spres og når sannhet benektes. Er det for godt til å være sant? Stoler vi på den som har postet dette? Hva er konteksten? Men: Dette krever mye.

Vi skal være årvåkne og kritiske til alt av medieinntrykk
vi scroller oss gjennom en sen kveldstime, og vi skal være skeptiske til venner vi ellers stoler på når de deler noe på Facebook. Den sunne fornuften, påskrudd til alle døgnets tider - høres ikke det litt utmattende ut?

Kanskje er det bedre å bekjempe ild med ild. Maskinlæring kan nemlig også snus til å avdekke hvorvidt en video har blitt klusset med. Microsoft annonserte nylig et verktøy døpt Video Authenticator, beregnet spesielt på valget i 2020. Med en kunstig intelligens trent opp på å vurdere
nesten identiske videoer, hvor én er en deepfake og én er originalen, vil verktøy som dette forhåpentligvis automatisere avsløringen.

Der et menneskeblikk lar seg lure, kan maskinblikket fokusere på å små uregelmessigheter i bildekodingen. Om videoer går gjennom et slikt filter før de slippes løs på sansene våre, kan de kanskje stanses, eller
merkes tydelig som manipulerte. Men den samme lærdommen som muliggjør verktøyet, kan også brukes til å styrke deepfake-teknologien.

Kappløpet fortsetter.