Internet voor mensen

Het internet is gemaakt om informatie beschikbaar te maken en te delen. Informatie van mensen voor mensen. Je schrijft een stukje tekst en maakt het op door tekstonderdelen te benoemen: “dit is een titel”, “deze zinnen zijn samen een paragraaf”, “dit is een genummerd lijstje”, “dit is een hyperlink naar een andere pagina”, en zo verder. 

Dat opmaken gaat met HTML, Hypertext Markup Language. Dan is het verder aan de browser hoe een titel, een paragraaf, een lijstje of een hyperlink precies wordt weergegeven.

Als je zelf iets te zeggen wil hebben over hoe de browser je tekst weergeeft, dan gebruik je CSS, Cascading Style Sheets. Daarmee kan je precies vertellen welk lettertype je wil en bijvoorbeeld hoe groot de letters moeten zijn.

Misschien willen we een formulier bij ons stukje tekst, bijvoorbeeld zodat mensen hun e-mailadres kunnen invullen om zich te kunnen aanmelden voor een nieuwsbrief.

Dat e-mailadres moeten we ergens opslaan. Databases zijn veel ouder dan het internet. Het is dan ook niet zo gek dat mensen in de jaren negentig databases zijn gaan gebruiken voor ‘dynamische websites’. Een dynamische website kan gegevens in de database gebruiken om inhoud op maat weer te geven. De tekst voor een ingelogde gebruiker kan nu bijvoorbeeld 'Hallo Bert' zijn in plaats van ‘Hallo gebruiker’.

Het meest gebruikte soort database was de ‘relationele database’. De naamgeving is onbedoeld ironisch: elk type element heeft een eigen tabel. Dat maakt dat relaties tussen elementen (“de hond van de kapper van de oom van Bert”) voor mensen juist bijzonder moeilijk zijn te lezen en op te vragen uit een relationele database. Het is een bekende zwakte dat relationele databases niet goed zijn in relaties.

Tussen ongeveer 2004 en 2010 was dat de belangrijkste manier waarop websites werden gemaakt. Er kwam zelfs een eigen naam voor: de ‘LAMP stack’, een combinatie van het besturingssysteem Linux, Apache webserver, een MySQL relationele database en PHP als programmeertaal om HTML mee te genereren onder andere op basis van de gegevens in de database.

De webserver hebben we tot nu toe nog niet besproken. Het basisprotocol van het internet (TCP/IP), het protocol voor webpagina's (HTTP) en het adresboek dat adressen vertaalt (DNS) zijn de eigenlijke helden van het internet, maar zij zijn hier niet het onderwerp.

Waar we aan gewend zijn geraakt: we kunnen webpagina's maken, delen en naar verwijzen. Elke eigenaar van een website zorgt voor eigen dataopslag in een database en webpagina's zijn gemaakt voor mensen om te lezen en te gebruiken.

Sinds ongeveer 2022 of 2023 hebben we bruikbare AI, Large Language Models (LLM's) die we graag van zo veel mogelijk context en informatie willen voorzien zodat ze ons zo goed mogelijk kunnen helpen. Het is niet onmogelijk om daarvoor informatie te gebruiken die gemaakt is voor menselijke consumptie, maar zou het niet veel beter, sneller en preciezer zijn als we machineleesbare data zouden hebben in plaats van terabytes aan dubbelzinnige onnauwkeurige natuurlijke taal?