11 min leestijd

AI in week 18

Mei social vrij tips, Large Language Muddle, en een ongezonden focus op hallucineren?
AI in week 18

(No English translation yet, I was away for the weekend and did not have time)

Ik had er vorige week niet superveel tijd voor maar met Izaak Dekker heb ik dus een nieuw paper geschreven, je kan het hier lezen! Korte samenvatting is dat AI niet goed is voor de democratie of voor onderwijs, omdat het frictie wegneemt die juist belangrijk is voor het vormen van je denken.

Wij beargumenteren dit vanuit de theorie en de filosofie, maar er is ook empirisch bewijs voor! Bijvoorbeeld dit paper van onderzoekers van (oa) Carnegie Mellon en MIT. De auteurs hebben AI interacties van 1222 mensen bekeken en zien dat mensen die AI mochten gebruiken vervolgens zonder AI minder goed presteren, en erna vaker opgaven! En dat gebeurde al na 10 minuten. De auteurs schrijven zelf:

People do not merely become worse at tasks, but they also stop trying. If such effects accumulate over months and years of AI use, we may end up creating a generation of learners who have lost the disposition to struggle productively without technological support. (nadruk van het origineel)

Herkenbaar denk ik voor iedereen die wel eens wat voor cheatcode dan ook gebruikt, dat het daarna fiks tegenvalt als je het zelf doet doen!

Frappant trouwens dat een van de auteurs Michiel Bakker is, je weet wel, die Bakker die denkt dat mensen gewoon vleesmachines zijn.

Ow en ik werd geïnterviewd voor nu.nl over het profielwerkstuk! Wat moeten we daarmee?

Mei, offline tips voor jou!

Zo, hoe gaat het met de afkickverschijnselen? Ik vind het niet makkelijk hoor, ik open geregeld een tabje en dan denk ik: Niet scrollen, scroller!

Gelukkig was ik afgelopen week dus op (werk)vakantie dus ik had ook niet zo heel veel mogelijkheden om te scrollen.

Zoals beloofd, een paar offline tips om van te genieten, hopelijk helpt dat. Allereerst een boek! My friends van Fredrik Backman. Ik had al het hilarische The answer is no van hem gelezen, een short story over een programmeur die met rust gelaten wil worden, maar daar totaal niet in slaagt, dus ik had hoge verwachtingen, en My friends overtrof die met gemak. Het zit vol humor maar ook vol met echte emotie. Het is wel een tranentrekken hoor, vol met de hele bandbreedte aan dingen die in een mensenleven gebeuren. Niet aan te raden als je er niet van houdt om om de bladzijde te moeten huilen. Deed met en beetje denken aan De Wedding People maar dan met minder situational humor en meer geschreven grapjes.

Dan een longread uit de New Yorker over de Sackler, de familie achter de drug OxyContin. Het gaat niet alleen daarover, maar ook over hoe rijke mensen door bijvoorbeeld kunst en musea te sponsoren, hun naam zuiveren:

Through such [practices], many fortunes have passed into enduring civic institutions. Over time, the origins of a clan’s largesse are largely forgotten, and we recall only the philanthropic legacy, prompted by the name on the building. According to Forbes, the Sacklers are now one of America’s richest families, with a collective net worth of thirteen billion dollars—more than the Rockefellers or the Mellons.

En dan nog een gratis filmtip! Ik hou totaal niet van horrorfilms, niet uit principe omdat ik tegen gore ben, maar omdat ik heel schrikachtig ben en ook echt niet van schrikken hou. Maar soms heeft de horror een functie en valt het naadloos in het verhaal, dus niet schrikken om het schrikken en dat kan ik er echt van genieten. Get out vind ik er zo eentje, waar de horrorelementen echt bijdragen, maar vorige week keek ik Sinners, en OMG, wat een film! Geweldig acteerwerk van Michael B. Jordan—terecht met een Oscar beloond—muziek- en dansscènes om nooit te vergeten, en horror die zich zo in het verhaal vouwt dat het nergens té voelt.

Met die tips moet je de week toch wel doorkomen! Zet 'm op als je net als ik de maand mei moet rawdoggen zonder socials.

Large Language Muddle, reversed

Ik schreef een hele tijd terug over een stuk van n+1 waarin ze kritiek hadden op het genre "AI en I": schrijvers die AI gingen gebruiken en reflecteerden op wat het met ze deed. Ik vond dat, met n+1 samen, nogal flauw. Immers, door het zelf te gebruiken zie je lang niet alles, net als je door een biefstukje eten niet de conclusie kan trekken wat de bio-industrie is. Voor sommige dingen moet je uitzoomen. Is zo! Maar... er komt langzaam een nieuwe golf "AI en ik" stukken op, die uitleggen waarom het niet fijn is om te gebruiken. En alhoewel daar natuurlijk dezelfde dingen voor gelden, is het ook interessant omdat deze stukken samen juist wél een kritische blik vormen. Niet een "ik gebruikte AI maar een mens zijn heeft ook voordelen" maar "ik gebruikte een AI en het hielp helemaal niet".

Ik noemde een paar weken terug al het voorbeeld van de dokter en de geautomatiseerde samenvattingen, maar ik heb nog een paar mooie!

Docent Engels (als eerste taal) Marcus Luther legt uit hoe hij probeerde het moeilijkste wat hij als student moest doen, met AI ging doen: Shakespeare lezen. Hij had, zegt hij, helemaal geen talenknobbel, dus het viel hem lastig, terwjl zijn klasgenoten allemaal " literature kids" waren. Hij moet dit jaar met zijn grade 10 (dat zijn 4e klassers voor ons) MacBeth lezen, een werk dat hij zelf niet zo heel goed kent en hij gaat eens Chat gebruiken, dat is immers wat kids these days ook doen. En je, zegt hij, het is fijn om mee te sparren, het zorgt ervoor dat je dieper kan gaan met de tekst (een hogere ceiling noemt hij dat):

Being able to bounce questions and interpretations as you go enriches the experience and shifts the experience of reading from passive to active.

Maar... na een tijdje maakte Chat natuurlijk een foutje (wat Luther meteen zag trouwens, een leerling misschien niet!) en "that changed the dynamic as I was constantly on the lookout for errors." Hij haalt hier ook Carl Hendricks aan, die goed uitlegt hoeveel energie het kost om steeds maar te moeten checken. Dat soort werk is juist als je geen kennis hebt, supermoeilijk! Dus in dat geval leidt volgens Luther "usage of LLM chatbots for reading support offers a decidedly lower floor".

Ik vind dit stuk heel goed omdat Luther dus wel uit kan zoomen van zijn eigen gebruik naar leerlingen en heel begripvol is voor hypers (ik geef toe, ik ben dat zelf niet altijd):

my guess is that it is very easy to make the leap from “this tool was meaningful for me” to “we should be bringing it into our schools for students to use.” However, I think that leap is a mistake.

Want de meeste leerlingen kunnen dit niet, en daarom is het niet verstandig om er te veel in mee te gaan:

part of our role as teachers is to set an example and standard for what this work can and should be [...] [R]eading [should be] not a task to be checked off with assistance from AI but rather an experience to be had collectively.

Amen Luther!

Security expert Michael Taggart begint met een disclaimer dat hij de tools echt niet gebruikt voor de lol ("I want them to unexist. I do not want to use them") maar net als Luther heeft hij het gevoel dat het moet omdat hij ze wil begrijpen. Hij gaat AI inzetten om mee te programmeren en dan niet om te vibecoden, maar echt om verstandig te programmeren en alles goed te testen. En lo and behold:

Well, spoiler alert: it works. It's even, near as I can tell, reasonably secure. But good lord, building this way was miserable, even if it was faster than coding it all myself.

Het werkt en bijna alle code was goed, dus wat is het probleem, vraagt Taggart zich af en dat doet hij op hele leuke wijze. Ook dit is mensentaal, op zo'n gekke creatieve manier nadruk leggen, ik had m nog nooit gezien!

Maar er kunnen altijd foutjes inzitten, dus een human in de loop is nodig, maar een proces waar je steeds alleen maar op ok klikt"encourages the human to take themselves out of the loop." en dan wordt het gevaarlijk. Deze man weet echt wat hij doet en kon goede tests inbouwen, maar kunnen andere mensen dat ook. En belangrijker nog: werkt dit ook voor andere dingen dan code? Waarschijnlijk niet, precies omdat je dan geen tests kan runnen.

Maar zijn belangrijkste take away is dat het niet leuk is om zo te programmeren, het is uitputtend. Eigenlijk heel vergelijkbaar met Luther die Hendricks citeert, het kost je zoveel energie om alles te checken, dat het niet vol te houden is. Daar zit de overeenkomst denk ik tussen code en tekst en wat dan ook. Maken is tof, geeft energie en je leert ervan. Controleren daarentegen is geestdodend, en je blijft het doen.

Lezersvraag: Focus je niet te veel op hallucineren?

Terechte vraag van een trouwe lezer: moet je niet wat minder focussen op de hallucinaties van AI? Tsja, het blijft leuk en het blijft verleidelijk om smakelijk te lachen om domme fouten. Steeds als ik er weer eentje zie, zoals die van advocatenkantoor Sullivan & Cromwell, waar ze 2000 eppies per uur rekenen maar toch de hallucinatiefouten niet goed controleren, lach ik. Een beetje de lol in het verzet houden is belangrijk, zeker als het het bedrijf betreft waarmee de broertjes Dulles de wereld verder naar de gallemiezen geholpen hebben.

Maar de vraag is wel terecht, want de geijkte repliek op deze kritiek is natuurlijk dat mensen ook fouten maken. Is het dan zo erg dat een machine ook een foutje maakt? En misschien worden ze nog wel beter, en maken ze minder fouten dan mensen. Het is dus een zeer terechte vraag, en misschien zou ik er ook minder de nadruk op moeten leggen. Want er zijn een aantal argumenten die veel fundamenteler zijn (maar daaron ook abstracter, en minder smoking gun om mee te zwaaien). Ik noem er drie.

We weten straks helemaal niet meer weten wat waar is, en we weten niet meer hoe we moeten uitpluizen of iets waar is (a al de Aracari). En wat te denken van het feit dat straks alle taal op elkaar gaat lijken? Of dat systemen steeds weer keuzes maken in wat ze wel en niet tonen:

The results were instructive. When asked to generate an overview of leadership theory, the model produced eight references. Ninety percent were from male authors. [...]

The system did not lack this knowledge. [...] The knowledge existed in the training data. It was deprioritized by the statistical logic of the model, which treats frequency of citation as a proxy for authority. Western male voices appear most often in the digitized knowledge corpus. The model reproduces that frequency as a hierarchy and presents it as comprehensiveness.

Het meest fundamenteel is denk ik nog dat AI ons het idee geeft, in mijn paper met Dekker en ons eerdere opiniestuk hint ik daar ook al een beetje op, dat iedere vraag een snel en panklaar antwoord heeft. Ik schreef in een stuk in NRC al eerder over een voorbeeld met vele perspectieven, maar tegenwoordig geef ik in lezingen vaak het voorbeeld van de val van Srebrenica. Wiens schuld was dat?

Vraag het ChatGPT en je krijgt een keurig lijstje met opties, maar de waarheid is zo complex. Ja, Mladić en Karadžić zijn schuldig (en vergeet Milosovic niet, dat doet Chat dus wel!!), en Dutchbat, maar de geschiedenis van Joegoslavië doet er ook toe. Je kan ook zeggen dat Tito in het vormen en besturen van het land de zaadjes heeft geplant voor de oorlog, samen met de Britten die binnenvielen en de geallieerden die achter Tito stonden. En je kan je zoals in iedere oorlog afvragen wat de rol van de universal soldiers was. Waren die nu zoals Donovan zong to blame?

Er ís geen antwoord op, en wat je gelooft hangt af van jouw perspectief op de wereld. Als een leerling of student mij iets zou vragen over Srebrenica zou ik altijd het gesprek aangaan, willen weten waarom ze daarmee bezig zijn. Kennen ze iemand die ermee te maken heeft gehad. Hebben ze er iets over gezien op tv?

Ik zou ook nooit een antwoord geven, maar eerder kennis aanreiken, een boek aanraden of een film. De Camino, of Quo Vadis, Aida? Maar misschien weer niet aan een student waarvan ik weet dat die persoonlijke ervaring heeft met oorlog of heel gevoelig is, zeker die laatste is echt heel aangrijpend, alleen eraan denken doet me al huilen. Ik zou er altijd bijzeggen dat het heftig is om je in zoiets te verdiepen. En precies dat zal een LLM nou nooit doen, terugvragen waarom je iets wilt weten, en met een set vragen komen tot een boek of een film om je verder te verdiepen op basis van wie je bent.

En misschien is dat het allerdiepste gevaar van LLMs, dat ze het idee geven dat een vraag een simpel en eenduiding antwoord heeft, en ons dus de zin ontnemen om verder te zoeken, om verschillende perspectieven zelf te wegen. En dat rectoren en journalisten die fouten ook maken betekent niet alleen dat ze wat lui en slordig zijn, maar ook dat zij zelf ook niet te moeite nemen om echt de goede citaten te zoeken, en zo geven ook zij het idee dat denkwerk er niet echt toe doet (dit wordt ook wel "cognitive surrender" genoemd, als je zelf niet meer nadenkt en gewoon overneemt wat AI uitvoert)

Dat neemt natuurlijk niet weg dat we altijd moeten blijven gniffelen om hallucinaties... Zoals de onvergetelijke Ron Brandsteder zei: Vergeet vooral niet te lachen want het is leuk!

Goed nieuws

Heb jij Judy Lijdsman nog niet gezien?! Geeft niks, ze gaat weer optreden!

Er komt een nieuw examenprogramma informatica in de bovenbouw! Dat is goed nieuws, want het oude programma, tsja, dat is nogal vanuit de ivoren toren gemaakt, en erg theoretisch van aard. Fijn stuk van SLO over het proces! Ben je trouwens informatica-docent in het vo? Dan kan je nog meedenken over het nieuwe programma! Volg daarvoor de nieuwsbrief van vakvereniging I&I.

Wat gebeurt er met een onderzoeksgroep als er een vrouw hoofddocent wordt? Er komen meer vrouwen bij! Meer promovendi, postdocs en op de lange termijn ook andere vrouwelijke hoofddocenten. Ik wil niet meteen zeggen dat ik nu in trickle down feminisme ga werken, want ik denk niet dat het gezegd is dat die vrouwen zich ook allemaal op hun plek voelen, maar toch het is goed nieuws. Het werkt wel alleen op plekken waar al wat vrouwen zijn:

These effects are concentrated in departments where women are underrepresented but not entirely absent, suggesting that a minimal female presence is a precondition for trickle-down effects to materialize

En haasten de onderzoekers zich ook nog erbij te zeggen, dit gaat niet ten koste van mannelijke collega's:

[W]e find no evidence of within-department displacement: male promotion
outcomes do not change significantly, and total promotion activity does not decline

Slecht nieuws

Schreef ik een paar weken geleden nog over sigarettenfilters "zelfs als ze werken" nou, ze werken niet, en ze zijn ook nog eens superslecht voor het milieu. Maar ze doen natuurlijk wel wat, namelijk het idee geven dat het wat doet, en dat is ook wat (net zoals verhalen over verantwoorde AI wel wat doen, namelijk het idee geven dat het wel kan).

Meta haalt queer-accounts offline zonder verdere uitleg. Je weet wel, die Meta die democratie ging brengen in de wereld ten tijde van de Arabische lente. En dank aan lezer en vriend Davy voor deze tip over Netflix die kinderprogramma's nasynchroniseert met AI. Uiteraard met heel matige kwaliteit en dus met verlies van zowel de kunst van het nasynchroniseren als het rijke taalaanbod dat kinderen nodig hebben.

Ik heb net Empire of AI uit (leestip als je echt zin hebt om in alle details van (Open)AI te duiken) en daar kwamen mooie voorbeelden in voor van verzet tegen datacentra voor AI. En onderzoek van oa Cambridge laat zien dat dat meer dan terecht is! Niet alleen warmt de hele aarde erdoor op, er zijn ook sterke lokale effecten:

We estimate that the land surface temperature increases by 2°C on average after the start of operations of an AI data centre, inducing local microclimate zones, which we call the data heat island effect. We assess the impact on the communities, quantifying that more than 340 million people could be affected by this temperature increase.

Ik denk eerlijk gezegd dat die lokale effecten nog wel eens blessing in disguise kunnen zijn, omdat mensen veel neer genegen zijn om te protesteren tegen dingen die ze onmiddellijk gaan raken.

Geniet van je boterham!