15 apr. 2009

Onderzoeksdata

Deze hele maand al staat voor mij min of meer in het teken van de onderzoeksdata. Het probleem van het goed archiveren van de gegevens van een onderzoek. Op welke manier zouden wij onze onderzoekers kunnen ondersteunen bij het correct opslaan en archiveren van hun databestanden.
De gegevens, die verkregen worden bij het onderzoek dat binnen het NIOO is gedaan, worden vastegelegd in zogenoemde ‘datasets’. Deze onderzoeksgegevens uit experimenten, bemonstering, veldwerk, laboratorium, observatie en dergelijke worden door de NIOO-onderzoekers bewerkt en geanalyseerd en uiteindelijk omgewerkt tot een publicatie.
Een deel van die datasets is toegankelijk via ons dataportaal .
Een dataset kan bestaan uit een hoeveelheid van bestanden waarin de gegevens zijn opgeslagen. Zo werden tijdens het vooronderzoek 3421 bestanden over die gebruikt konden worden voor archivering in 56 datasets. Op dit moment bevat het NIOO dataportaal zo’n 92 datasets.
De datasets worden beschreven in het data informatieportaal en de bestanden worden gearchiveerd in het Marine Data Archive:

- an online system specifically developed for scientists, research groups and project partners.
- it archives data files in a fully documented way in an external archive.
- each file in the Archive is saved together with its metadata (data on the data), describing the content of the file. This can answer the five principle questions in science : what?, where?, when?, who?, how?.
- at least three copies of each file are saved on different physical locations.

In dit Mariene Data Archief hebben de onderzoekers een eigen werkmap, en ze hebben toegang tot de gemeenschappelijke folder van de werkgroep en uiteindelijk kunnen de openbare bestanden worden opgeslagen in de folder die voor iedereen toegankelijk is.
“Het uitgangspunt voor data-archivering is hergebruik” is de conclusie uit een gesprek met een aantal DANS mensen. Gearchiveerde data moet worden gelinkt aan de publicatie. Metadata, het documenteren van de bestanden en de beschrijving van de datasets is een probleem. Niet alleen hoe je die bestanden en sets moet beschrijven, maar ook wanneer en wie dat moet doen.
Het zou erg helpen als het archiveren van data een standaard actie zou worden bij ieder onderzoek, bij voorkeur, want verzekerd van motivatie, vastgelegd in de eisen van de financier. Het archiveren op zich kost tijd en als die tijd niet verantwoord kan worden dan is er een probleem.
De tijd kan uiteraard bekort worden als de onderzoeker van het begin van het onderzoek op de meest efficiënte manier de gegevens van zijn onderzoek vastgelegd. Dat vereist de nodige vaardigheden bij de onderzoeker en procedures binnen het instituut. Aan beide onderdelen willen we werken: instructie aan onderzoekers en facilitering van het archiveringsproces.
Vorige week werd ik ook nog geïnterviewd in het kader van de ‘Nationale Verkenning Digitale Duurzaamheid’. Het werd me wel duidelijk dat we wel in het voordeel zijn met onze samenwerking met het VLIZ. Het zelf opslaan van de gegevens en het beheren van de archiveringsserver is al een karwei op zich. Ook het programmeren van het archief zelf, organiseren van een persistente identifier en het zorgen dat de datasets ook geharvest kunnen worden is een probleem dat we nu nog tamelijk gemakkelijk kunnen uitbesteden. Tijdens het interview bleek dat de archiveringsproblematiek in de gamma- en geesteswetenschappen toch een andere aanpak vereist. En ik vraag me af hoe je dat nu op een breder platform het beste kunt benaderen. Wellicht is een onderwerpsgerichte benadering, bijvoorbeeld op nationaal of Europees niveau nog het makkelijkst. Want de bijzondere formaten waarin sommige gegevens worden opgeslagen vereisen toch telkens weer een iets andere aanpak.

Geen opmerkingen: