22 sep. 2013

Tutorial TPDL 2013




Het 17e International Congress on Theory and Practice of Digital Libraries begon vanochtend in het Grand Hotel Excelsior in Floriane(Valetta) op Malta met de tutorials.
Ik had me ingeschreven voor de tutorial: “From Preserving Data to Preserving Research: Curation of Process and Context” die georganiseerd werd door deelnemers aan het EU-project Wf4ever (Workflow for ever), waarbij het vooral gaat om de digitale curatie van het onderzoeksproces.
In zijn introductie ging Andreas Rauber in op het Microsoft boek The fourth paradigm, dat - gebaseerd op de concepten van Gray de ontwikkeling van de wetenschap ziet in 4 fasen: empirisch, theoretisch, computationeel en (nu) data-driven.
En wat heeft data-driven science meer nodig dan curatie?!
Een DMP (data mangement plan) is niet genoeg, aldus Rauber en hij haalt een casus aan waarbij door verandering in software eerder uitgevoerd onderzoek niet meer repliceerbaar was.

De uitdaging is om het proces, in zijn context vast te leggen
we need to move beyond the concept of data and capture ‘all’ elements of a research process
Rudof Mayer deed daarna het onderzoek uit de doeken. Hij heeft een model gemaakt van een methode die muziek automatisch kan caegoriseren. Daarbij maakte hij gebruik van externe bronnen voor de data en probeerde de kenmerken te exteaheren en via een machine-leerproces de software te finetunen.

Om dit proces te beschrijven maakte hij gebruik van een bestaand metadata model genaamd ArchiMate.
ArchiMate kan verschillende layers beschrijven in de processen voor informatieontsluiting, gedrag en structuur. Uiteindelijk leidde dat tot ontologieen.

Rudolf Mayer legt het proces van process- capturing uit, ook beschreven in Timbus- Project.
Het basismodel wat daaruit ontstond heeft hij uitgebreid met verdere ontologieen, met gebruikmaking van verschillende tools, zoals the software ontology, mapping metadata met Premis, CUDF voor software dependencies, en handmatig voor sensors.
Ze hebben verschillende tools ontwikkeld om een aantal van die gegevens automatisch te extraheren, maar die moeten wel worden aangevuld met handmatige aanvullingen.
Na Mayer was het de beurt aan Daniel Garijo en Raul Palma om het idee van Research Objects uit te leggen en te demonstreren. Ze lieten zie hoe het door Mayer in ontologieen beschreven proces kan worden omgezet naar Research Objects. Een Research Object is een bundel van alle bronnen die nodig zijn voor een -experimenteel - onderzoeksproces.
The resources aggregated by a Research Object can be: data used or results produced in an experiment study; (computational) methods employed to produce and analyse that data; or people involved in the investigation
* Tijdens de koffie verduidelijkte Daniel dat nog eens door te zeggen dat ook bijvoorbeeld een pdf van een publicatie met al zijn onderdelen een Research Object kan zijn.*
Annotatie is belangrijk voor een Research Object.
Waarom linked data niet genoeg is voor onderzoekers is de titel van een artikel van Bechhofer e.a. in Recent Advances in e-Science, en het antwoord is Research Objects.
Tijdens de demo over het maken van een Research Objects liet Raul Palma zien hoe de met ontologien beschreven en bewaarde workflow van Mayer omgezet kon worden in een Research Object. Dat kan met gebruikmaking van MyExperiment van Taverne. Er is ook een video van.
Nu is e.e.a. nog in projectstatus, maar dat gaat als product verder gepresenteerd worden.
De tutorial eindigde met een presentatie van Stefan Proell over datacitatie.
Behalve over doi en datacite, ging het ook over andere 'name assigning authorithy numbers' bijvoorbeeld ARK,archival resource key.
Hij gaf ook een demonstratie hoe je zelf bijv een doi of een ark kunt toewijzen.
Al met al een boeiende tutorial, met genoeg aanknopingspunten om verder te lezen.
[de link met verwijzing naar de presentaties zal op de tutorial webpagina van tpdl 2013 komen]

Geen opmerkingen: