Google heeft zijn privacybeleid aangepast, zodat het bedrijf vrij spel heeft om het web af te speuren naar alle inhoud die nodig is om AI-tools te bouwen en te verbeteren.
‘Google gebruikt informatie om onze services te verbeteren en om nieuwe producten, functies en technologieën te ontwikkelen die ten goede komen aan onze gebruikers en het publiek’, zo licht het bedrijf zijn aangepaste beleid toe. ‘We gebruiken bijvoorbeeld openbaar beschikbare informatie om Google’s AI-modellen te helpen trainen en producten en functies zoals Google Translate, Bard en Cloud AI-mogelijkheden te bouwen.’
Privacy-beleid als “onheilspellend” betiteld
Er wordt nu concreet gesproken van “AI-modellen”, terwijl eerder werd gesproken van “taalmodellen”. Daarnaast zijn aan het privacy-beleid Bard en Cloud AI toegevoegd, terwijl het eerder alleen Google Translate noemde, waarvoor het gegevens verzamelde.
Het privacybeleid is afgelopen weekend bijgewerkt. Privacy-experts noemen de aanpassing “onheilspellend”, omdat het aangeeft dat alle informatie die je online produceert door Google gebruikt kan worden voor het trainen van zijn AI-modellen. De formulering is zo gedetailleerd geformuleerd dat het merk toegang zou kunnen hebben tot informatie van elk deel van het web.
Belangrijke kwesties rond de massale ontwikkeling van kunstmatige intelligentie zijn vragen over privacy, plagiaat en of AI correcte informatie kan verspreiden. Vroege versies van chatbots zoals ChatGPT zijn gebaseerd op grote taalmodellen (LLM’s) die al openbare bronnen, zoals het gemeenschappelijke “kruipwebarchief”, WebText2, Books1, Books2 en Wikipedia als trainingsgegevens gebruikten.
ChatGPT bleef steken op informatie voorbij 2021 en vervolgens antwoorden invulde met onjuiste of zelfs valse gegevens. Dit zou waarschijnlijk één van de redenen kunnen zijn waarom Google onbeperkte toegang tot webgegevens wil om tools zoals Bard te laten profiteren van mogelijk real-time training voor zijn AI-modellen.
AI-modellen zuigen vrijwel alles op
Experts stellen dat Google dit nieuwe beleid ook zou kunnen gebruiken om oude, maar nog steeds door mensen gegenereerde inhoud te verzamelen, zoals lang vergeten recensies of blogposts, om toch een idee te krijgen van hoe menselijke tekst en spraak wordt ontwikkeld en verspreid. Het valt nog te bezien hoe Google de verzamelde gegevens precies gaat gebruiken.
Verschillende sociale mediaplatforms, waaronder Twitter en Reddit, die belangrijke bronnen van actuele informatie zijn, hebben hun publieke toegang al beperkt in de nasleep van de populariteit van AI-chatbotten.
The Washington Post waarschuwde dat AI-modellen vrijwel alles opzuigen, van Wikipedia-pagina’s tot nieuwsberichten en individuele tweets. Een groeiend aantal mensen maakt daar bezwaar tegen. Zo hebben de schrijvers Mona Awad en Paul Tremblay recent hun eigen rechtszaak aangespannen tegen OpenAI, waarin ze stellen dat ChatGPT het auteursrecht heeft geschonden door hun werk zonder toestemming te gebruiken om het AI-model te trainen.
Deze zaak stelt belangrijke vragen over de juridische grenzen van AI en het rechtmatige gebruik van materiaal. De grenzeloze inname en verwerking van data wordt toenemend beschouwd als een vorm van data-onteigening, die herinneringen oproept aan wat in de 19e eeuw met de commons speelde.
Nadere uitleg te horen in de podcast “Beyond the Screen” met AI-pioneer Frank Nanninga.
Wil je op de hoogte blijven van nieuwe analyses en opiniestukken, podcasts boekentips en nieuws schrijf je dan in voor de tweewekelijkse nieuwsbrief.