“Have nothing in your houses that you do not know to be useful or believe to be beautiful.” (William Morris)

P1000979De explosieve groei van data is een steeds belangrijker onderwerp in de IT. Niet alleen voor internetbedrijven en cloudproviders, maar ook voor uw organisatie. Databases blijven groeien omdat er meer informatie wordt verzameld en opgeslagen. Deze groei van gegevens lijkt een fenomeen dat niet onder controle te krijgen is. We hebben er mee te leven en we moeten hopen dat de ontwikkelingen op hardware- en softwaregebied de steeds groeiende hoeveelheden data zullen bijhouden.

Wanneer u datagroei alleen als een opslagprobleem beschouwt en het toevoegen van schijfruimte als de oplossing, zou u kunnen overwegen om multi-tiering en data-archivering te gebruiken als de methode om het toevoegen van opslag goedkoper uit te voeren. Door gegevens naar opslagsystemen met minder operationele kosten te verplaatsen, bespaart u gewoon geld.

En voor sommige mensen, zelfs leveranciers, is dit het eigenlijke verhaal. Archiveer gegevens op goedkope media en bewaar ze voor altijd. Waarom? Omdat opslag goedkoop is en het verwijderen of vernietigen van gegevens ingewikkeld. Want ik weet niet wanneer ik mijn oude gegevens weer nodig heb. Als ik wil vernietigen, heb ik inzicht in de retentieschema’s, gegevensmodellen, het daadwerkelijke gebruik van de gegevens, mogelijke juridische bepalingen, de waarde van de gegevens en een hele hoop andere dingen, nodig. Ik moet weten hoe ik databaserecords kan verwijderen zonder dat de database-integriteit in gevaar komt. Is het de moeite waard om beleid omtrent retentie te gaan ontwikkelen en uit te voeren? Laat ik een onvolledige opsomming, met redenen waarom het verwijderen van gearchiveerde gegevens nuttig en soms zelfs verplicht is, geven.

Oplopende kosten van archiefopslag

Hoe groter het data-archief wordt, des te meer geld moet er besteed worden aan het beschikbaar houden van het archief. Archieven hebben een lagere SLA dan productionele data-opslag. Maar ook archieven bevatten waardevolle gegevens die beschikbaar moeten blijven. Data-archieven nemen rackspace in, verbruiken stroom en hebben koeling nodig. Tape is goedkoop maar niet gratis. Ook in de cloud kost data-opslag geld.

Er zijn overheadkosten verbonden aan de hoeveelheid gegevens die we opslaan. Dit zijn kosten voor opslagmedia, infrastructuur en menselijke middelen die nodig zijn om de gegevens te beheren. Houd in gedachten dat de gegevens kunnen worden gerepliceerd in back-up systemen, testsystemen enzovoort. Ik ken organisaties die data tien keer repliceren; de opslagkosten vermenigvuldigen zich dan ook met tien. Multi-tiering kan daarbij kostenverlagend werken. Maar vergeleken met het vernietigen van data, blijft het meestal een hoop geld.

Afnemende prestaties en betrouwbaarheid

De hoeveelheid data opgeslagen in het data-archief heeft invloed op de prestaties van het archief zelf. Meer gegevens betekent meer benodigde tijd voor zoeken en vinden, rapportages maken en onderhoudswerkzaamheden. De business is vaak niet meer geïnteresseerd in oude, historische cijfers. Ze hebben geen waarde meer voor het bedrijf. Gegevens zonder waarde voor de business nemen alleen maar ruimte in beslag. En ze kunnen leiden tot fouten in rapportages. Soms kunnen we alleen maar veronderstellen wat oude gegevens betekent hebben. Gebruikt u bijvoorbeeld nog steeds dezelfde klantnummerreeks van tien jaar geleden? Hebt u artikelnummers hergebruikt? Bereken we de KPI’s voor altijd op dezelfde manier? Gegevens verliezen niet alleen waarde omdat we ze niet meer willen gebruiken, ze verliezen ook waarde omdat we ze niet meer kunnen gebruiken.

Het behouden van een dergelijke gegevens is meestal niet nodig. Gegevens kosten niet alleen geld, maar ze kunnen ook uw inzicht in uw gegevens en uw business verdraaien.

Nog steeds onderhevig aan veiligheidsrisico’s

Zoals elk gegeven, zijn gearchiveerde gegevens ook gevoelig voor veiligheidsrisico’s, zoals hacking, onwettige openbaarmaking, diefstal, enzovoort. Gearchiveerde gegevens kunnen oud zijn, maar ze kunnen nog steeds vertrouwelijke of gerubriceerde informatie bevatten: niet alleen uw eigen bedrijfsgeheimen, maar ook vertrouwelijke informatie over of van uw externe relaties. U hebt de verplichting om niet alleen uw eigen gegevens geheim te houden, maar ook de gegevens van anderen die u in uw systemen bewaard. De beste manier om veiligheidsrisico’s te voorkomen is om de gegevens, die u niet meer nodig heeft, te verwijderen. Wat er niet is, kan niet worden gestolen.

Naleving van de wet

Privacywetgeving, zoals de Europese “General Data Protection Regulation (GDPR)”, kan beperkingen opleggen aan de gegevens die u in uw archief mag vasthouden. Het maskeren van gegevens, zoals bankrekeningnummers en kredietkaartnformatie, kan helpen om te voldoen aan de regels. Maar de wet is strenger: alle informatie die kan leiden tot een persoon, zoals namen en adressen, moet worden gemaskeerd. Hoe bruikbaar is uw gegevens na volledig maskeren? Is het de moeite waard het maskeren waard? “Privacy by Design” en “Privacy by Default” moet ook in uw archief worden opgenomen. Misschien is het opschonen van persoonlijk identificeerbare informatie gewoon de makkelijkste manier om te voldoen aan de wet- en regelgeving.

In de Verenigde Staten is de situatie nog ingewikkelder. “Defensible Disposal” is nodig om de gegevens zonder waarde te verwijderen. Gegevens die nog wel gebruikt kunnen worden als belastend materiaal in een rechtbank. Met het oog op deze juridische risico’s, is het verwijderen van gegevens verplicht, ook voor gearchiveerde gegevens.

Toch echt bewaren?

Als u hebt besloten dat u data wat voor altijd wilt houden, is er een laatste beslissing die moet worden genomen. Hoe kan ik mijn gegevens op duurzame en toegankelijke manier bewaren? Kan ik de gegevens lezen en interpreteren over tien, twintig jaar? Gewoon opslaan van een database in “raw” formaat is geen goed idee. Over een paar decennia kunnen deze formaten niet meer leesbaar zijn, dus zijn de gegevens in feite onbruikbaar geworden. En als u al in staat om de gegevens te lezen, weet u dan nog wat de data betekent, wat de semantiek is? Om gegevens te leesbaar te houden over langere perioden, zal u voorzorgsmaatregelen moeten nemen. Zoals het omzetten van de data naar een canoniek formaat, het documenteren van de betekenis en de structuur van de gegevens, het vernieuwen van de media waarop de gegevens opgeslagen zijn enzovoort. NASA heeft projecten gestart om de gegevens van hun ruimtemissies te behouden. Bent u bereid om hetzelfde te doen?

Het houden van gegevens in een archief lijkt een gemakkelijke oplossing. Retentiebeleid voor gegevens toepassen kan complex en langdurig zijn. Maar aan de andere kant, het bewaren gegevens, zonder risicobeperking maatregelen, leidt tot oplopende kosten en toenemende risico’s. U zal eindigen met een stapel nutteloze data die u alleen maar geld kosten en geen voordelen opleveren. Data-archivering lijkt zo simpel, maar is het niet. Wat u wilt bewaren, zal u moeten onderhouden. Door weg te gooien, maakt u uw geheugen vrij.

Foto CC BY-SA 2.0 door Ronnie Garcia via Flickr