21 jun. 2011

Store-Share-and-Cite

Donderdag 9 juni werd in de Oranje-zaal in de bibliotheek van de TU Delft een minisymposium gehouden onder de titel ‘Store-Share-and-Cite: Increase your citations by (re)use of research data’.
Het blijkt al de derde bijeenkomst te zijn van 3 TU over Research Data Management. Het verslag van een eerdere bijeenkomst heb ik teruggevonden (22 april 2010 ‘Exciting Research Data’).

Als symbolisch deelnamekado krijgen we een velletje met bloemenzaadjes: dat zowel 3TU Datacentrum als de zaadjes mogen bloeien! Er is helaas geen open wifi, er is wel een hashtag #3tudatacitation maar die is te lang dus ik gebruik #3tudcit. In de pauze wel een stopcontact gevonden, maar de laptop werd helaas niet geladen.

Maria Heine, directeur bibliotheek TU Delft, opent met welkomswoord en middagvoorzitter Erik Soonieus, TUD alumnus introduceert de sprekers.
De eerste spreker is Michael Diepenbroek , hij vertelt over ICSU World Data System, dat gestart is in 1957 t.g.v. het Geophysical Year. De ICSU (International Council for Science) een samenwerkingsverband van Wetenschapsacademies is oprichter van het World Data Center System “The World Data Center system works to guarantee access to solar, geophysical and related environmental data”.
- NB het ICSU Word Data System confereert in september a.s. in Japan.
Diepenbroek, is verantwoordelijk voor Pangea. Pangea volgt de principes en richtlijnen van het World Data Center System.

"The information system PANGAEA is operated as an Open Access library aimed at archiving, publishing and distributing georeferenced data from earth system research. The system guarantees long-term availability of its content through a commitment of the operating institutions".

Voor Pangea heeft hij een model data management opgesteld n.a.v. IODP (Integrated Ocean Drilling Program).


Diepenbroek: “Het grootste probleem is niet technisch van aard, maar semantisch” Bij Pangea werken ze met meerdere projecten, die hebben een eigen portal en geven ook input voor bijv. GBIF en OBIS en ze werken als data warehouse, met diverse standaards voor content en interfaces. Zelfs binnen één community meerdere standaards. Ze doen al 15 jaar aan datapublicatie en hij gaat zelfs zover dat hij zegt dat de enige data die het waard is bewaard te blijven gepubliceerde (= gepeerreviewde) data is.

De 2e spreker Patrick Vandewalle (heeft blog pixeltje.be) is een oud-TUDelft student. Hij spreekt vanuit zijn ervaring bij het schrijven van zijn PhD in Lausanne, het gebruikersperspectief over ‘signal processing’. Hij kreeg vaak de vraag of men zijn test kon herhalen en daarom besloot hij alle gegevens van die tests vrij te geven.
Hij heeft daar zelfs ook een artikel over geschreven ‘Reproducible research in signal processing’ IEEE Signal Processing Magazine 2009 pp 37-47. Hij geeft hoog op van de voordelen voor hemzelf en voor de wetenschap en heeft daar zelfs een website aan gewijd

Het basisprincipe van wetenschap is herhaalbaarheid van de experimenten. Daarop is alles gebaseerd en dat maakt het meer efficient en robust. Geeft je de gelegenheid om zelf verder te werken,zodat anderen jouw werk als uitgangpsunt kunnen nemen en anderen om jouw werk als bouwsteen te nemen en het verhoogt de impact. Zijn werk bestaat uit theorie, rekenwerk en experimenten. Daarvoor zijn verschillende gegevens nodig om dit herhaalbaar te maken. Hij heeft zijn eerste artikel reproducible gemaakt door het inclusief de matlab code online te zetten.
Maar het is nog veel efficienter als je van te voren al weet dat je iets reproducible wilt zetten.
Hergebruik voor hemzelf was efficient, mooi demo materiaal, heel veel downloads, mooie reacties en samenwerking (beter om op je schouders te staan dan op je tenen)
Hoe maak je het reproducible:
- Als supplementary material bij publicatie
- Apart in een repository in Eprints
Papers available online are cited 3x more often [Lawrence Nature 2001 `Free online availability substantially increases a paper’s impact´ Piwowar in PlosOne 2007 ‘Sharing Detailed Research Data Is Associated with Increased Citation Rate

Philippe Terheggen van Elsevier belicht ten slotte de rol van de uitgever. De komende 50 jaar, Aldus Terheggen gaan over datamining (4th paradigm zie Harvard business review 2010 )
“Access vs importance : datasets are seen as important but accessible is usually low”
Er zijn 4 soorten verrijkte publicaties:
1) supplementary data, (maar er zijn geen middelen om supplements 200 jaar te onderhouden)
2) article linking, (link van een database naar het artikel. De auteur post de link automatische connectie met Elsevier (Nextbio)
3) entity linking,(v an een ander niveau is als je een link hebt in het artikel naar een code met een link naar de data. De auteur heeft die link getagged)
4) embedded apps(PDB Proteine database geeft visualisatie in het artikel en bijv ook Pangea)
Altijd op een non-inclusive basis, de bedoeling is dat het denktijd vermindert die nodig is om naar informatie te komen. “General vision to increase discoverability of science by universal access and integration to data and tools”
Vraag: hoe kun je een artikel meer interactief maken ? bijv. redactioneel comentaar per artikel, misschien ook een discussiepagina, maar hoe kun je dat onderhouden voor al onze tijdschriften?
Copyright is een grijs gebied, er rust geen copyright op supplemnetary data. Copyright gaat vrnl over het format van het artikel.

Jeroen Rombouts 3TuDatacentrum 'Science data services Nl' schets de ‘ANDS Data Sharing Verbs’ Approach , een sort data lifecycle van de Austtralian national data services

Create, Describe & Store, Identify & Rgister, Discover & Access, Exploit

3tuDatacentrum levert 3 diensten:
1) archives (datacite.org = persistent identifier) selection, types;
2) data-labs for working version;
3)data-services like advice, training

Na deze inleidingen wordt er een panel samengesteld uit de sprekers en wij allen in de zaal mogen met stemkastjes (turningpoint click device) op een stelling stemmen.
Stellingen:
1) Every dataset has to be accompanied by publications Y=59% N= 41
JR zou niet verplicht moeten zijn anders word took nutteloze data opgeslagen
Andersom juist wel
Data met metadata kan veel belangrijker zijn dan zonder data
2) Citation to artical with data shoud account for ..% without wegingsfactor (onduidelijk)
3) Citations should contribute to IF of journal (
Zolang je geen credits krijgt voor datasets
4) Change IF to include datasets
5) PhD moet 1 dataset produceren


De stellingen waren niet allemaal even duidelijk, en over de meeste waren we het wel eens: geen dwang, wel faciliteren en financieren.