27 sep 2009

Workshop Onderzoeksdata Knowledge Exchange-3



Op de laatste dag van de workshop is er nog gesproken over de rol van de subsidiegevers en Europa.
Samenvattend komt het er op neer dat het volgende nodig is:
• Metadata: tools nodig voor gebruikersvriendelijke invoer
• Standaarden; technisch vw herbruikbaarheid en semantisch
• Erkenning van data publicatie (data journal, impact factor)
• Open vs minder open access
• Opvallend ook de veranderende onderzoekstechnieken door nieuwe technologieën die voor een data deluge zorgen.
• Vraag naar fondsen: expliciet in subsidie van onderzoeksproject en lange termijn subsidie voor onderhoud data-opslag
• Shifting Mindset van onderzoekers naar belang van data-archivering en hergebruik



Woordenwolk gemaakt met http://www.wordle.net/.

24 sep 2009

Workshop Onderzoeksdata Knowledge Exchange -2


Een aantal (8) onderzoekers illustreren een case, bio-informatica, literatuuronderzoek, klimaatgegevens en sociale onderzoeken passeren de revue.

Uit de diverse gevalsbeschrijvingen komen een aantal gemeenschappelijke uitdagingen.
Met name (het gebrek aan) standaardisatie is een probleem alsmede het veelal tijdrovende documenteren, terwijl voor hergebruik duidelijke metadata onontbeerlijk is.
Er is veel vraag naar gebruikersvriendelijke metadata-tools, en bij voorkeur moet daar al bij de start van een onderzoek rekening mee gehouden worden. Onderzoekers moeten worden ondersteund, getraind in effectieve documentatie (metadatering) van onderzoeksgegevens.

Een van de inleiders stelde dat er een goede communicatie nodig is met de technologie-experts, want voor een onderzoeker is het onmogelijk om ook alle ins en outs van geavanceerde technologieën te beheersen.

Vanuit de sociale wetenschappen komen suggesties naar gestandaardiseerde consent formulieren voor onderzochte personen en voor onderzoekers die die gegevens willen hergebruiken en die zich ook aan regels moeten houden. Deel open acces is mogelijk, of getrapte toegankelijkheid, waarbij geanonimiseerde fragmenten wel publiekelijk toegankelijk zijn, maar de volledige data alleen na toestemming.

Hoewel meerdere keren de uitspraak terugkomt: “data sharing is uncommon” blijkt het zeker voor moderne grootschalige projecten praktisch onontbeerlijk. Megasystemen en technologieën kun je niet meer institutioneel behappen, maar vereisen een gezamenlijk approach.

Voor longitudinaal onderzoek is gearchiveerde data zeer waardevol, omdat je dan tijdslijnen kunt maken, maar dat vereist ook calibratie van de gebruikte methoden om vergelijkbare resultaten te halen.

Een paar inleiders stelden dat de onderzoeksvraag verandert door de hoeveelheid: waar je vroeger uitging van een hypothese en die ging testen,ga je tegenwoordig uit van het materiaal, waarin je patronen en uitkomsten zoekt. Ook de noodzaak tot multidisciplinair (incl technologie-experts) onderzoek en samenwerking in grote systemen vereisen een andere aanpak van het onderzoek.

En unaniem is men van mening dat de subsidiegever een belangrijke rol speelt in het geheel. Bij het subsidiëren van onderzoek zou al – ook financieel – rekening gehouden moeten worden met data management. Ook de neiging van subsidiegevers tot alleen het subsidieren van korte termijn projecten werkt dan tegen een efficiënte data management (laat staat met het oog op digitale duurzaamheid).

Een aantal voorbeelden zijn te vinden op de volgende sites:

· Social & Environmental Inequalities in Rural Areas
· Data support service van RELU
· Alfred Wegener Institute for Polar & Marine Research: Climate timelines
· Immunological data
· Parse, shared eu data
· Clarin webbased approach language
· GBIF
· Paleobiology Database
· The eCrystals data repository op basis van Eprints
· Psychdata: dataarchive
· Verrijkte Publicaties (veteranen tapes) .


23 sep 2009

Workshop Onderzoeksdata Knowledge Exchange -1

Main Drivers for Successful Re-Use of Research Data
Knowledge Exchange Discussion Workshop in Berlin September 23–24, 2009
WEDNESDAY, SEPTEMBER 23 • EUROPÄISCHES HAUS

De visie van Knowledge Exchange is
”” To make a layer of scholarly and scientific content openly available on the internet”
We worden ontvangen in het Europahuis bij de Brandenburger Tor, met een lunch van quiches en luxe mini-broodjes en –wraps.
Tijdens de lunch hoor ik over Australië, waar de data-opslag centraal geregeld is. En we spreken wat over de voor- en nadelen van het nationaal vs. Internationaal (en disciplinair) opslaan van data. Het gaat niet alleen om vertrouwen (in de software en de ondersteunende partij), maar ook om goede afspraken bijv. in een soort LOCKKS systeem, waarbij alle gegevens op meerdere plekken tegelijk worden opgeslagen. Het is me nog niet duidelijk hoe zich dat verhoudt met differentiatie en specialisatie van taken.
Er zijn ongeveer 45 mensen aanwezig, uit Duitsland, Engeland en Denemarken en ook al 5 Nederlanders gezien (van DANS, 3TUD, SURF en Universiteiten).
*
Na een introductie door 3 leden van de werkgroep Primary Research Data, volgt de key note speech van Ulf Leser van de Institute of Computer Science van de Humboldt Universiteit in Berlijn.

Social Issues in Scientific Data Exchange

Zijn belangrijkste punt is dat het delen van data geen technisch probleem is maar een sociaal-psychologisch probleem. Hij gaat uit van het knowledge management in bioinformatics. Het technische probleem is de informatie integratie en text mining, maar dat is oplosbaar. Hijhaalt een paar projecten aan, die slechts ‘lege’ systemen opleveren, omdat er geen duidelijk incentives waren om onderzoeksdata te delen, dan wel omdat er communicatieproblemen waren met de ge-outsourcete ICT.
De belangrijkste vragen zijn: waarom, wat en waarom niet? De hoe vraag is een technische en dus manageable probleem. Waarom zou je als onderzoeker je data delen: er zijn veel voordelen aan verbonden (kosten, herhaalbaarheid, kwaliteitscontrole, aanvullend..etc) en er zijn ook veel voorbeelden van succesvolle data sharing. Waarom werden die data gedeeld?: omdat er een noodzaak voor was (vanuit tijdschrift, vanuit fondsenverstreker), uit ijdelheid, voor erkenning, of vanuit overtuiging.
Vaak word de data pas gepubliceerd na de publicatie, en voor integratie (gelijktijdig voortbouwen) is dat al te laat.
Welke data wil je archiveren: ruwe data, normalized data, of de geanalyseerde data. Leser trekt daarbij een vergelijking met de welbekende driedeling in Kennis – Informatie - Kennis.
Daar zet hij ook de typen data tegen af: (integrated, confirmed) share in discussions, papers, information (interpreted) shared in databases, data (unbiased) share to increase trust.
De beschrijving van de context = metadata is onmisbaar, maar ook moeizaam zonder standaarden en gecontroleerde vocabularies (ontologies). Data is niet vergelijkbaar als context niet overeenkomt. Daarentegen zij er goede redenen om data niet te delen, voornamelijk voorkomend uit het idee dat je geen data, werk wilt weggeven.
Als aanbeveling geeft hij vooral mee dat de fondsen duidelijk eisen en gelden beschikbaar moeten stellen voor archiveren van data en dat er beneifits gecreeerd moeten worden voor de onderzoekers.
Een boeiende lezing.
*
[opmerkingen over sprekers na de key note verplaatst naar volgende blog}

Workshop Onderzoeksdata Knowledge Exchange

Op 23 en 24 september 2009 wordt er door Knowledge Exchange een workshop georganiseerd over onderzoeksdata. Het idee is dat er een 10-tal projecten worden gepresenteerd als voorbeeld voor hergebruik van wetenschappelijke data, onder de titel 'Main drivers for succesful re-use of research data'. Zoals ze op de website zeggen:

In this way the workshop is designed to critically evaluate what lessons have been learned on sharing and re-using research data from a researcher’s perspective and what actions might be taken on to still improve the successful re-use of research data.

Knowledge Exchange is een Europees samenwerkingsverband, waarin Surf namens Nederland deelneemt. De andere partners zijn Denemarken (Deens Electronic Reseearch Library DEFF), Duitsland (German Research Foundation DFG) en Groot-Brittanie (Joint Information Systems Committee JISC).
Het werk van Knowledge Exchange wordt opgedeeld in drie stromingen:
- Primary Research Data
- Virtual Research Environments
- Libraries in the Digital Age
En uiteraard gaat het om elektronische infrastructuut, om licensies, open access, auteursrechten en het inrichten van repositories.
Voor de Primary Reseach Data is een werkgroep opgericht en de workshop waarin ik ben terechtgekomen komt uit die koker.
In oktober 2008 en juni 2009 zijn eerdere workshops gehouden. De verslagen daarvan zijn helaas niet toegankelijk (So much for open Access!).

1 sep 2009

Charles Darwin


De autobiografie van Charles Darwin uitgelezen.

Darwin, Charles, and Fieke Lakmaker. De autobiografie van Charles Darwin, 1809-1882: de oorspronkelijke versie. Amsterdam: Nieuwezijds, 2008.

Wat mij opviel was zijn voorliefde voor de jacht (later liet hij een bediende jagen, maar wel op zijn verzoek/bevel) en zijn ziekelijke gezondheid (ongediagnosticeerd).

Twee opmerkelijke passages:
“…ik bij mijn grotere boeken behoorlijk veel tijd heb besteed aan de algehele ordening van het materiaal. Ik maakte eerst een ruwe opzet van twee of drie bladzijden, en daarna een grotere opzet van meerdere bladzijden, waarbij een paar woorden of een enkel woord een hele discussie of een reeks feiten vertegenwoordigden. Al deze kopjes werden weer verbreed en vaak ook veranderd voordat ik ‘in extenso’ begon te schrijven. Aangezien ik in sommige van mijn boeken uitgebreid gegevens heb gebruikt die afkomstig waren van anderen, en aangezien ik altijd verschillende, nogal uiteenlopende onderwerpen tegelijkertijd onder handen had, moet ik misschien nog vermelden dat ik in kasten, waarvan de planken van een aanduiding zijn voorzien, dertig tot veertig grote portefeuilles bewaar, waarin ik direct een losse referentie of een aantekening kan stoppen. In de vele boeken die ik heb gekocht, heb ik achterin een register gemaakt van alle feiten die betrekking hebben op mijn werk, of als het boek niet van mij was, heb ik een afzonderlijk uittreksel geschreven, zodat ik nu een grote lade vol met zulke uittreksels heb. Voor ik aan een onderwerp begin kijk ik alle korte registers door, waarna ik een algehele alfabetische index maak, en als ik dan een of meerdere portefeuilles ter hand neem, heb ik alle informatie die ik tijdens mijn leven heb verzameld klaar voor gebruik”


En hij besluit, refererend aan wat hij noemt 'mijn middelmatige kwaliteiten':
Voorzover ik het kan beoordelen, is mijn succes als wetenschapper, wat dit ook betekend moge hebben, bepaald door ingewikkelde en uiteenlopende geestelijke kwaliteiten en gesteldheden. De belangrijkste hiervan zijn geweest: liefde voor de wetenschap, onbegrensd geduld bij het nadenken over een onderwerp, grote ijver bij het waarnemen en verzamelen van feiten, en een redelijke dosis van zowel inventiviteit als gezond verstand.