3 okt 2013

LCPD workshop TPDL 2013


De eerste workshop :"Linking and Conceptualizing Publications and Datasets" gesponsord door OpenAire en Eurocris werd gehouden onder het motto: 'Paving the way towards Modern Scholarly Communication'.


De workshop van 1 dag, beslaat 5 sessies waarin 10 voordrachten worden gehouden. Het programma lijkt tamelijk volgepakt. Alle voordrachten geven een onderzoek weer op het gebied van het linken en conceptualiseren van publicaties en data.
De twee 'invited speakers'zijn Sarah Callaghan en Soren Auer. Auer hebben we daags ervoor al gehoord met zijn Linked Data en nu legde hij de nadruk op het semantisch annoteren. Dat kan ook met publicatie-PDFs. Alleen moet je daar wel een modus voor vinden zodat het annoteren voor de onderzoeker uiteindelijk lonend blijkt te zijn. Helemaal opheffen van de pdf ziet hij niet direct gebeuren er is een tijd van transitie nodig.
Sarah Callaghan vertelt over haar ervaringen met data als onderzoeker, in een geval het handmatig bij elkaar sprokkelen en ordenen van de gegevens en in het tweede geval het onmiddellijk archiveren van de data gelinkt aan het artikel. Om e.e.a. te verduidelijken gebruikt ze de datapyramide (plaatje uit presentatie Smit over ODE - Opportunities for Data Exchange).
Ze is voorstander van data publicaties in een data journal en van een correcte datacitatie. Zie ook het rapport van CODATA (Committee on Data for Science and Technology van de International Council for Science) "Out of Cite, out of mind". In dit rapport worden de eerste 10 principes van datacitatie geformuleerd:
1. Status of Data: Data citations should be accorded the same importance in the scholarly record as the citation of
other objects.
2. Attribution: Citations should facilitate giving scholarly credit and legal attribution to all parties responsible for
those data.
3. Persistence: Citations should be as durable as the cited objects.
4. Access: Citations should facilitate access both to the data themselves and to such associated metadata and
documentation as are necessary for both humans and machines to make informed use of the referenced data.
5. Discovery: Citations should support the discovery of data and their documentation.
6. Provenance: Citations should facilitate the establishment of provenance of data.
7. Granularity: Citations should support the finest-grained description necessary to identify the data.
8. Verifiability: Citations should contain information sufficient to identify the data unambiguously.
9. Metadata Standards: Citations should employ widely accepted metadata standards.
10. Flexibility: Citation methods should be sufficiently flexible to accommodate the variant practices among
communities but should not differ so much that they compromise interoperability of data across communities.
But it is crucial, she concludes, that data and publications resulting from it must be linked!
Aan het eind van haar presentatie roept Sarah Callaghan op om mee te doen met een nieuwe - Cost?-actie om het publiceren van data en publicaties gecombineerd te stimuleren:PARD: Publish Academic Research Data.
Ze refereerde daarbij aan het blog van Graham Steele: 'Publishing research without data is simply advertising, not science'


Na de koffie was er een sessie over 'Datasets en Contextualization' waarbij het ging over NLP (Natural anguage Processing), en over het belang van metadata bij klimaatgegevens (CHARMe-project).
In de sessie over 'Interlinking of Publications and datasets" werd een aardig onderzoek van de KU Leuven gepresenteerd over antieke teksten, verzameld in een Filemaker database(Trimegistos) en om te zetten (kan 'fairly straightforward') naar RDF. De leider van de workshop Paolo Manghi hield zelf een introductie in de tool Data Searchery, een prototype om te zoeken in databestanden naar soortgelijke datasets. Nog een aardig linking onderzoek werd gepresenteerd door Nuno Lopes, die met Linking Logainm een LOD-demonstrator presenteert waarmee je op Ierse plaatsnamen kunt zoeken in bestanden van de Nationale Repository van Ierland.

Na de pauze in de sessie 'Datavisualizations and representation' presenteerde Martin Skulimoski een veelbelovend platform "Link Your Research' waar de verschillende entiteiten van een research paper gelinkt kunnen worden aan andere onder het motto"Publish articles, publish your data and link your concepts!".
Andras Micsik demonstrateert een andere linked open data-toepassing genaamd: LODmilla, die relaties tussen datasets linkt en als laatste volgt een verhaal over de OpenAire mining services.


In de laatste sessie gaat het over 'metadata and packaging' en komen aan bod 'Cerif voor datasets' en metadata voor grote datasets naar 'investigation research objects'. Wat me uiteindelijk weer terugvoert, en ook de discussie terugvoerde naar Research Objects (behandeld in de tutorial van zondag).

Geen opmerkingen: