Wat zijn algoritmes en AI?

Algoritmes en artificiële intelligentie (AI) worden steeds meer gebruikt. Ken jij onderstaande termen? Je komt ze veel tegen, dat maakt het belangrijk om inzicht te hebben in wat ze betekenen.

Datawetenschap

Tegenwoordig verzamelen de meeste wetenschapsgebieden grote datasets om te analyseren. Het onderzoek gebruikt algoritmes om betekenisvolle relaties en patronen uit data te halen. Deze analyses kunnen helpen om beslissingen te maken in verschillende toepassingen binnen onze samenleving. Met data bedoelen we hier dus: digitale informatie of gegevens. Het valt je misschien op dat data de ene keer als enkelvoud en de andere keer als meervoud wordt gebruikt. Wat vind jij het best passen?

Big data

Vaak wordt gesproken over big data. Dit type data is groot in volume, varieert in inhoud en type en kan snel veranderen. Een voorbeeld uit de gezondheidszorg zijn gegevens over leeftijd, geslacht, lengte, gewicht, gemiddeld wekelijks alcoholgebruik, rookgewoontes, chronische aandoeningen, medische behandelingen, testresultaten en röntgenfoto’s. Deze gegevens kunnen op verschillende manieren opgeslagen zij. Denk aan geluidsfragmenten, video’s, geschreven verslagen, afbeeldingen, grafieken en diagrammen.

Variabelen

Data kunnen informatie bevatten over veel uiteenlopende variabelen. Deze variabelen hebben hun eigen kenmerken die relevant zijn voor het beantwoorden van een vraag. Kenmerken kunnen getallen zijn zoals leeftijd, gewicht, lengte, temperatuur of inkomen. We spreken dan van numerieke data. Of kenmerken kunnen in categorieën vallen zoals oog- of haarkleur, etniciteit, werkterrein of hobby’s. We spreken dan van categorische data. Algoritmes kunnen zowel numerieke als categorische data gebruiken.

Data in de praktijk

Wereldwijd hebben onderzoekers, uitgevers en financierders van onderzoek afgesproken dat onderzoeksdata zo veel mogelijk beschikbaar moeten zijn voor iedereen. Op die manier worden data optimaal gebruikt en kunnen onderzoekers ook elkaars experimenten controleren. De opslag van data gaat via de zogenaamde FAIR-principes: Findable, Accessible, Interoperable and Reusable. In het Nederlands: Vindbaar, Toegankelijk, Compatibel en Herbruikbaar. Daarbij wordt ook rekening gehouden met privacy, gevoeligheid en intellectuele eigendomsrechten. Lees hier meer over op de website van het Nationaal platform open Science (NPOS).

Algoritme

Een algoritme is een serie wiskundige instructies om patronen te vinden of berekeningen te maken. Je kunt een algoritme vergelijken met een recept voor een taart. Hierbij heb je verschillende ingrediënten die je op een bepaalde manier moet mengen voor het juiste resultaat. Algoritmes worden gebruikt bij AI om relaties tussen verschillende data te vinden.

AI

AI staat voor artificiële intelligentie, oftewel kunstmatige intelligentie. AI is een verzameling algoritmes in een systeem dat gegevens en regels gebruikt om beoordelingen of voorspellingen te doen. In de praktijk wordt de term AI vaak gebruikt voor zelflerende computerprogramma’s. Dit zijn programma’s die gebruikmaken van algoritmes. Op basis van resultaten en door middel van training kunnen de programma’s zich aanpassen om zo dicht mogelijk bij het beste resultaat te komen. De term zelflerend betekent dat de algoritmes de instructies die het van de mens heeft meegekregen kan uitvoeren, maar daar zelf niets aan toe kan voegen.

Op dit moment worden er in de praktijk alleen systemen gebruikt van zogenaamde ‘narrow’ AI. Daarbij imiteert AI intelligentie, maar kan nog niet zelf nadenken. De zogenaamde ‘general’ AI, zoals we in films vaak tegenkomen, zijn echt nog science fiction.

Model

Een model is een vorm van AI, waarbij verschillende data en algoritmes gebruikt worden om tot een ingewikkelde uitkomst te komen. Classificatiemodellen voorspellen tot welke categorieën de gegevens behoren. Zoals bij het analyseren van e-mails en het voorspellen of ze het label ‘spam’ of ‘geen spam’ moeten hebben. Regressiemodellen doen numerieke voorspellingen. Bijvoorbeeld het schatten hoeveel mensen zullen overlijden aan griep door te kijken hoe het virus zich de afgelopen maanden heeft verspreid.

Kwaliteit

De uitkomst van rekenmodellen en AI hangt af van de kwaliteit van de data. Voorwaarden voor kwalitatief goede data zijn:

De data zijn representatief en de steekproef is groot genoeg
De data zijn systematisch en standaard verzameld
De data zijn valide en betrouwbaar: meet je wat je denkt dat je meet?

Dat leggen we verder uit.

Representatief

De hoeveelheid beschikbare data is bijna eindeloos. Hoe kies je uit al die data wat je nodig hebt voor een algoritme? Het stellen van de juiste vraag helpt daarbij. Als je bijvoorbeeld wilt weten hoe files ontstaan in de vakantie, dan wil je dat je verkeersdata representatief zijn. Dat je kiest voor data over snelwegen en niet over stoplichten ligt voor de hand. Maar ga je kijken naar alle snelwegen of maak je een bepaalde selectie? Hoe die selectie wordt gemaakt, heeft invloed op hoe representatief het is voor jouw algoritme.

Bias

Bias betekent officieel vooroordeel. In de praktijk krijg je bias op het moment dat er aannames gedaan worden. Voor het maken van een algoritme zijn altijd aannames nodig. En welke aannames je maakt is een keuze. Het is vrijwel onmogelijk dat keuzes altijd objectief zijn. Wel kunnen keuzes toetsbaar en inzichtelijk gemaakt worden. Hiermee wordt bias zichtbaar en kan het algoritme aangepast worden.

Generaliseerbaar

AI is generaliseerbaar wanneer de conclusies van die reeks algoritmes waar en toepasbaar zijn voor de groep mensen die voldoen aan de voorwaarden van de algoritmes. Bij AI die niet generaliseerbaar is, kan de conclusie slechts voor sommige groepen helpen, maar niet voor iedereen. Dit hoeft geen probleem te zijn, zolang duidelijk is voor welke groepen de conclusie wel en niet geldig is.

Standaardiseren

Het verzamelen van de data moet op een standaard manier gebeuren, zodat de data goed met elkaar vergeleken kunnen worden. Bijvoorbeeld: temperatuurmetingen van satellieten onderling met elkaar vergelijken in plaats van data van satellieten vergelijken met metingen van een thermometer.

Betrouwbaar

Met betrouwbaarheid bedoelen we hoe consistent AI het resultaat produceert dat we zoeken, zonder resultaten te produceren die we niet zoeken. In de praktijk moet de AI dus gecontroleerd en getoetst worden, en aangepast worden wanneer dat nodig is. Technisch kan betrouwbaarheid ook betekenen dat AI in staat is om elke keer hetzelfde resultaat te produceren.

Proxy

Soms is het niet mogelijk of niet realistisch om bepaalde metingen te doen, maar kunnen onderzoekers in plaats daarvan kiezen voor een proxy. Letterlijk betekent dit een ‘benadering’ of ‘vertegenwoordiging’. Een proxy kan gebruikt worden als hij wetenschappelijk bewezen en aantoonbaar overeenkomt met directe metingen. Zodat je dus kunt vertrouwen dat proxy-metingen kloppen met wat je wil meten. Een voorbeeld is de groeiring in een boomstam. Deze zeggen veel over de situatie waarin de boom groeide. Dikke groeiringen corresponderen met jaren van veel groei en dunne ringen zijn juist jaren met weinig groei. Bomen groeien sneller bij warme en natte omstandigheden. Op deze manier kunnen groeiringen gebruikt worden om te benaderen wat de temperatuur in het verleden was, tot vele decennia terug. Een ander voorbeeld van een proxy is BMI (body mass index). Dit is een verhouding tussen lichaamslengte en lichaamsgewicht en meet dus niet direct hoeveel vet iemand heeft. De ratio correspondeert erg goed met lichaamsvet. Hoe hoger de BMI, hoe meer vet. Daarom wordt BMI veel gebruikt als proxy voor overgewicht.