Ga direct naar inhoud

Documentarchieven en Artificial Intelligence: een momentopname

Reinoud Kaasschieter
2020-07-20

Terwijl de discussies rondom AI leiden tot een stortvloed van artikelen, is het rondom documentmanagement en -archivering nog steeds stil. Soms lijkt het wel of de ontwikkelingen op dit vakgebied achterblijven. En dat terwijl we afsteven op een echte data-driven maatschappij, waar data heel veel aspecten van ons leven gaat bepalen. Documenten en andere ongestructureerde bestanden zijn ook gewoon data die wachten om ontsloten te worden.

[Data] analytics zou in staat moeten zijn om alle gegevens in welk formaat dan ook te gebruiken. (Ovum view)

Automatische classificatie

Het meer traditionele gebied waar kunstmatige intelligentie binnen Enterprise Content Management wordt toegepast, is input management. Door de software documenten te leren herkennen, kunnen deze automatisch worden geclassificeerd. Vijf jaar geleden heb ik hierover met collega John Christiaanse al een artikel geschreven. Zo langzamerhand wordt het mogelijk om de context van binnenkomen documenten automatisch te laten bepalen. We kunnen dus niet alleen classificeren op formele kenmerken, zoals afzendergegevens en onderwerp, maar ook de tekst zelf “lezen” en interpreteren.

Bijvoorbeeld: bij een organisatie worden documenten geclassificeerd naar het onderwerp waar het document – een rapport, een wetenschappelijk artikel – over gaat. Laten we zeggen: een geneesmiddelen. Archiefmedewerkers moeten de documenten lezen om te bepalen over welk middel wordt gesproken, maar ook de context bepalen. Gaat het over de toelating, bijwerkingen, combinaties met andere geneesmiddelen, ziektebeelden, enz.? Dit is de context van het onderwerp van het document. Heel vaak moet er worden geclassificeerd op context en niet alleen op het object, het geneesmiddel zelf.

Want deze informatie is vaak niet uit het formele onderwerp van het document te halen. Dit is arbeidsintensief werk, waar ook nog eens kennis over de onderwerpen voor nodig is. Zou het niet mooi zijn wanneer dit werk wordt ondersteund door Artificiële Intelligentie, die zelfstandig de tekstinhoud kan classificeren?

Deze Automatic Content Classification wordt aangeboden door de grote leveranciers van input­management­systemen. Nu werken de meeste systemen nog met keywords, metadata of content filters. Maar IBM Watson heeft al laten zien dat tekstanalyse ook hele zinnen en tekstblokken kan analyseren. Deze technologie is helaas nog niet algemeen aanwezig in input managementsoftware. Ik wacht op de eerste robuuste producten die documenten op hun concepten en context kunnen classificeren: Cognitive document processing.

Om dit mogelijk te maken zal de software moeten leren aan de hand van voorbeeld­documenten, heel veel voorbeeld­documenten. Vaak genoeg zijn in projecten te weinig geclassificeerde voorbeelden aanwezig om de software te leren herkennen. Soms is er maar één voorbeeld voor een klasse beschikbaar. Daarmee is geen enkele leercurve te starten. We moeten eerder denken aan een paar honderdduizend documenten om te kunnen beginnen. Omdat AI alleen goed en accuraat kan leren met zeer grote hoeveelheden data, is het automatisch herkennen van documenten theoretisch mogelijk, maar in de praktijk moeilijk te realiseren. Wat moeten we doen om dit wel goed mogelijk te maken?

Text Mining en Text Analytics

Zoals gezegd, wordt de samenleving steeds meer data driven. Dit betekent dat vanuit allerlei bronnen gegevens worden gehaald, gecombineerd en geïnterpreteerd. Ook Artificial Intelligence heeft deze databronnen nodig om te functioneren. Want, zoals gezegd, de meeste lerende algoritmes hebben veel data nodig. Op deze wijze kan namelijk op een correcte wijze kennis en inzichten uit de documenten worden geabstraheerd. Waar IBM Watson aan de ene kant een hele goede zoekmachine is, is het aan de andere kant nu mogelijk trends en voorspellingen te doen op basis van geschreven teksten.

Zonder ECM hebben AI-applicaties geen toegang tot de gegevens die ze nodig hebben. (Scope e-Knowledge Center)

Waarom dan ook niet bestaande document­verzamelingen en –archieven als databron gebruiken? Ik weet dat dit nog niet erg gebruikelijk is, maar de hoeveelheid informatie die in documenten bevatten, maakt deze soort verzamelingen wel aantrekkelijk. De vraag is echter: zijn deze document­verzamelingen wel ontsluitbaar voor algoritmes?

Hebben de meeste ECM-systemen wel voldoende capaciteit voor een AI-omgeving? Ik vrees van niet. Het gebruik van document­verzamelingen voor lerende systemen heeft een ander soort toegang nodig. Want anders dan bij databases, kan een groot archief vele terabytes aan informatie bevatten, die een text analytics pipeline allemaal in korte tijd moet verwerken. We zullen de archieven geschikt moeten maken om onderdeel te worden van de zogenaamde datareservoirs: het schaalbaar opslaan en analyseren van gestructureerde en ongestructureerde data. Op die manier kunnen we snel over de documentinhoud beschikken voor analyse en intelligente toepassingen.

Overwegingen voor een goed beheerd datareservoir (IBM)

Contextueel zoeken

Maar ook als u contextueel zoeken wilt inrichten, heeft u een text analytics pipeline nodig. Intelligent zoeken gaat namelijk niet alleen over de metadata van een document, maar ook over de inhoud. “Full text search” in het kwadraat, omdat niet alleen op woorden maar ook op concepten in context gezocht kan worden.

Misschien wel belangrijker is dat een archief niet zo maar alle informatie beschikbaar stelt voor allerlei analyse­doeleinden. Gegevens kunnen gevoelig zijn, ze zijn onderworpen aan beveiligings‑, privacy‑ en auteursrechtelijke beperkingen. De AI-specialist zal moeten weten dat deze beperkingen de geldigheid van zijn of haar analyses kan verminderen. De document- en archiefbeheerder zal bewust moeten zijn van wat AI kan en of dit allemaal wenselijk is vanuit een ethisch standpunt.

Documenten en andere ongestructureerde data bevatten een schat aan informatie. De vraag waarom we daar eigenlijk zo weinig mee doen in deze data-driven maatschappij, blijft voor mij open. De technologie om deze databronnen te ontsluiten is er al, alleen moet hij wel worden toegepast. Gezien de successen die data analytics de laatste jaren heeft opgeleverd is het logisch ook documenten te gaan gebruiken. Want daar ligt nu de waarde van archieven. Wanneer gaat u uw documenten op die manier bekijken?

Wilt u meer weten over dit onderwerp, bekijk dan de ICA (International Council on Archives) IAW2020 webinar «Artificial Intelligence and Archives» door dr. Anthea Seles.