21 apr. 2009

Research Data Specialist

In gesprek met de enige ‘research data’specialist die ons land rijk is: Rob Grim van de Universiteit van Tilburg. Wat databeheer betreft zijn er bij de Nederlandse Universiteiten (nog) niet veel specialisten. In Engeland (JISC – datalibrarian) en Canada (Research data – data steward) zijn ze al wat verder en is er zelfs al over geschreven.
Opvallend is dat het College van Bestuur van de UvT wel de noodzaak inzag om een specialist aan te stellen, maar vervolgens niet keihard wil (kan) verordonneren dat alle onderzoekers hun data efficiënt moeten archiveren.
Dat is denk ik ook het moeilijkste in deze positie en dat herken ik ook wel vanuit onze situatie: je moet een beetje aftasten en zelf een tweesporenbeleid voeren: zowel naar het hogere management als naar de onderzoekers toe moet je blijven argumenteren. Het zou mooi zijn als er metadataprocessen als boundary objecten kunnen fungeren, een punt waar je eerst doorheen moet voordat je verder kunt met het onderzoek.
Data management is een uiting van gedeeld belang: door opslag is hergebruik mogelijk en dat betekent ook het efficiënt omgaan met middelen. Niet altijd is het artikel meer de enige bron van wetenschappelijke kennis, er zijn gegevens die zich niet in een artikel laten vangen, zoals 3d simulaties, filmpjes etc.
Tijd is een belangrijk element. Als je gebruik kunt maken van reeds opgeslagen gegevens kun je daarmee de doorlooptijd van je eigen onderzoek bekorten. Metadata is heel veel werk, wordt gezegd., ja post hoc, als je t van te voren inricht bij opzet kun je meteen metadateren meenemen tijdens de workflow. Rob pleit er dan ook voor om te zoeken naar software-matige oplossingen die het extra werk wat gestructureerd data-archiveren vraagt, kan reduceren tot een minimum “max 5 minuten”. Zo zou de data uit instrumenten automatisch moeten kunnen worden meegenomen en dan kun je ook bepalen wat de kenmerkenzijn waarop nog gemetadateert moet worden.
Ook zou je voor onderzoekers een open-standaarden-omgeving moeten inrichten , secured data area waarbij alle tools en voorzieningen geleverd worden, zodat onderzoeker niet verleid worden gegevens ergens anders opslaan, waar je dus ook remote kan werken.

Het is nog niet haalbaar om een datamanagementplan op te stellen voor elk onderzoek. De aanpak die nu gevolgd wordt is er een uitgaande van de bestaande problemen van de onderzoekers (bijv. opslag- en/of verwerkingscapaciteit). Je aanpak moet aansluiten bij het werk van de onderzoekers en wat zij de belangrijkste bestanden vinden om te documenteren Je begint bij een of meerdere sleutelfiguren, en dan kun je in een groepsschets de gaten laten zien die er nog zijn. Als research data specialist kun jij mede zorgdragen voor de juiste technologische structuur en het inrichting van de werkprocessen en uiteindelijk in het doorzoekbaar maken van de data.

Op de UvT wordt gebruik gemaakt van de DDI als standaard model voor dataopslag: het is een model uit de sociale wetenschappen, gebaseerd op de levenscyclus van een statistisch gegeven (geboorte, groei en ontwikkeling). En als je goede metadata hebt, en de ruis is uit je instrumenten dan heb je ook zicht op de kwaliteit van de data als geheel. .
Tips van de expert:
- Aansluiten bij onderzoekers
- Technische structuur en werkprocessen inrichten
- Software/techniek is niet het probleem, wel het vinden van de goede mensen die iets (templates, e-workflows, boundaries) voor je kunnen maken
- Metadateren als onderdeel van de workflow
- Secured data area, zodat er geen noodzaak is om (deel)gegevens op meerdere plaatsen vast te leggen
- Blijven argumenteren, niet alles hoeft meteen
- Templates kunnen overzicht geven en ook de gaten in het geheel tonen
- Resources beschrijven en terbeschikking stellen
- ODF

met dank aan Rob Grim en collega's van Universiteit van Tilburg.

15 apr. 2009

Onderzoeksdata

Deze hele maand al staat voor mij min of meer in het teken van de onderzoeksdata. Het probleem van het goed archiveren van de gegevens van een onderzoek. Op welke manier zouden wij onze onderzoekers kunnen ondersteunen bij het correct opslaan en archiveren van hun databestanden.
De gegevens, die verkregen worden bij het onderzoek dat binnen het NIOO is gedaan, worden vastegelegd in zogenoemde ‘datasets’. Deze onderzoeksgegevens uit experimenten, bemonstering, veldwerk, laboratorium, observatie en dergelijke worden door de NIOO-onderzoekers bewerkt en geanalyseerd en uiteindelijk omgewerkt tot een publicatie.
Een deel van die datasets is toegankelijk via ons dataportaal .
Een dataset kan bestaan uit een hoeveelheid van bestanden waarin de gegevens zijn opgeslagen. Zo werden tijdens het vooronderzoek 3421 bestanden over die gebruikt konden worden voor archivering in 56 datasets. Op dit moment bevat het NIOO dataportaal zo’n 92 datasets.
De datasets worden beschreven in het data informatieportaal en de bestanden worden gearchiveerd in het Marine Data Archive:

- an online system specifically developed for scientists, research groups and project partners.
- it archives data files in a fully documented way in an external archive.
- each file in the Archive is saved together with its metadata (data on the data), describing the content of the file. This can answer the five principle questions in science : what?, where?, when?, who?, how?.
- at least three copies of each file are saved on different physical locations.

In dit Mariene Data Archief hebben de onderzoekers een eigen werkmap, en ze hebben toegang tot de gemeenschappelijke folder van de werkgroep en uiteindelijk kunnen de openbare bestanden worden opgeslagen in de folder die voor iedereen toegankelijk is.
“Het uitgangspunt voor data-archivering is hergebruik” is de conclusie uit een gesprek met een aantal DANS mensen. Gearchiveerde data moet worden gelinkt aan de publicatie. Metadata, het documenteren van de bestanden en de beschrijving van de datasets is een probleem. Niet alleen hoe je die bestanden en sets moet beschrijven, maar ook wanneer en wie dat moet doen.
Het zou erg helpen als het archiveren van data een standaard actie zou worden bij ieder onderzoek, bij voorkeur, want verzekerd van motivatie, vastgelegd in de eisen van de financier. Het archiveren op zich kost tijd en als die tijd niet verantwoord kan worden dan is er een probleem.
De tijd kan uiteraard bekort worden als de onderzoeker van het begin van het onderzoek op de meest efficiënte manier de gegevens van zijn onderzoek vastgelegd. Dat vereist de nodige vaardigheden bij de onderzoeker en procedures binnen het instituut. Aan beide onderdelen willen we werken: instructie aan onderzoekers en facilitering van het archiveringsproces.
Vorige week werd ik ook nog geïnterviewd in het kader van de ‘Nationale Verkenning Digitale Duurzaamheid’. Het werd me wel duidelijk dat we wel in het voordeel zijn met onze samenwerking met het VLIZ. Het zelf opslaan van de gegevens en het beheren van de archiveringsserver is al een karwei op zich. Ook het programmeren van het archief zelf, organiseren van een persistente identifier en het zorgen dat de datasets ook geharvest kunnen worden is een probleem dat we nu nog tamelijk gemakkelijk kunnen uitbesteden. Tijdens het interview bleek dat de archiveringsproblematiek in de gamma- en geesteswetenschappen toch een andere aanpak vereist. En ik vraag me af hoe je dat nu op een breder platform het beste kunt benaderen. Wellicht is een onderwerpsgerichte benadering, bijvoorbeeld op nationaal of Europees niveau nog het makkelijkst. Want de bijzondere formaten waarin sommige gegevens worden opgeslagen vereisen toch telkens weer een iets andere aanpak.

Auteursrecht


Tjeerd Schiphof was aanwezig voor toelichting over auteursrecht. Hij is nu verbonden aan de afdeling Culturele Informatie Wetenschap van de UvA, en voorheen verbonden aan de Taskforce Digitale Toegakelijkheid Archieven. In die laatste hoedanigheid heeft hij een boek gemaakt: “Juridische Wegwijzer archieven en musea online” [door Annemarie Beunen & Teerd Schiphof].

Alles wat origineel is daar berust auteursrecht op en mag niet zonder toestemming openbaar gemaakt worden. Na digitalisering is passieve openbaarmaking wel toegestaan, ook binnen de muren van een instelling mag dan geraadpleegd worden (niet remote, dus alleen walk-in). Publieke openbaarmaking mag alleen met toestemming van de rechthebbenden of diens erfgenamen. Die opsporen kan arbeidsintensieve bezigheid zijn en soms zelfs op niets uitlopen, waardoor je met zogenoemde ‘verweesde’ werken blijft zitten.

Vooral voor erfgoedinstellingen is er een commissie ingesteld Digit@ie = Digitalisering Culturele Erfgoedcollecties een samenwerkingsverband van Fobid en rechthebbende die een meldpunt erfgoedinstellingen willen gaan instellen. Dat meldpunt bemiddelt bij contracten tussen erfgoedinstellingen en rechthebbenden, met vrijwaring.

Een disclaimer op de website is wel noodzakelijk maar betekent ook niet zo erg veel. Disclaimer voor informanten is wel noodzakelijk in het kader van de persoonsgegevens geregeld in Wbp. Met beleid en gezond verstand.
Je kunt het wel op de site zetten, maar het is wijsheid om dan een klachtenprocedure in te stellen. Klachtenprocedure bij instituten houden.Er is een verbod op openbaarmaking van ‘bijzondere’ persoonsgegevens als het gaat om gezondheid, ras, religie. Kan wel worden gebruikt voor individuele onderzoekers onder voorwaarden.

Er wordt verder aan gewerkt. Mijn vraag over eigendomsrecht van onderzoeksdata bleef - wederom- een beetje zweven: is t van de onderzoeker, van t instituut, van de KNAW, van de overheid, van de fianncier.....wie zal het zeggen.
Maar in ieder geval ga ik eerst het boek lezen voor wat betere achtergrondinfo.

7 apr. 2009

Voorlichting Gemeente Wageningen


Gisteren hebben we een voorlichting gekregen van de Gemeente Wageningen over het wonen in Wageningen e.o.
Volgend jaar verhuist ons instituut naar Wageningen,er wordt nieuwbouw gepleegd t.o. de Wageningen UR campus. Op dit moment zijn ze het terrein aan het egaliseren, er staat ale en hek omheen en er rijden bulldozertjes.



Volgens de reisplanner van 9292ov.nl doe ik er 1:36 minuten over per openbaar vervoer op basis van enkele reis. Dat is dus 3 uur per dag. Dat is wel en beetje veel. Kosten voor een jaarkaart met ov zijn 400 euro. Ook veel.
Dus dan maar verhuizen?
Maar....
- We wonen op dit moment op het mooiste plekje van Amsterdam, letterlijk aan de rand met vrij uitzicht en natuurgebied vlak bij evenals de metro waarmee ik in 20 minuten in het muziektheater ben voor mijn maandelijkse dosis opera.
- Mijn partner wil niet weg uit Amsterdam en niet weg van het AMC.
Dus....
Toch maar onderzoeken wat de mogelijkheden zijn om in Wageningen een pied-a-terre te huren, een kamer, een appartementje, een bejaardenwoninkje of iets dergelijks.
Maar van de Gemeente Wageningen hoef je niet veel te verwachten.
De voorlichtingsdag was rommelig, onvoorbereid en door gebrek aan kennis van de stad en omgeving zelfs ook inhoudelijk erg mager. Je zou kunnen denken dat de gemeente iets kan doen aan onze urgentiestatus, omdat we voor ons werk moeten verhuizen, maar nee. Er is niets mogelijk.
De gemeente zegt, kijk maar op de site van de WERV (woningbouwvereningen Wageningen, Ede, Rhenen en Veenendaal)- huiswaarts.nu - en zoek het zelf maar uit. Er is ook een studenten/annex jongeren huisvesting – Idealis – maar nu ik op de site kijk zie ik dat de inschrijfvoorwaarden verscherpt zijn (max 26 jaar).
Ze weten (uiteraard) niets van de gemeente Renkum (ligt naast Wageningen) en/of de gemeenten aan de overkant van de Rijn (Neder-Betuwe).
We hebben nog wel wat door Wageningen gereden, maar zien veel ‘gestapelde woningen’ (=flats) en in de nieuwbouwijk van Wageningen (Noord-West) lijkt het sprekend op Maarssenbroek, beetje krap.
Gaat nog niet meevallen.

2 apr. 2009

Minisymposium Wageningen UR



Het was een interessante bijeenkomst gisteren in Wageningen UR bij het mini-symposium Bibliometrics.
Interessante lezingen, die gelukkig ook allemaal op Slideshare staan.
Belangrijke rol in het hele verhaal is weggelegd voor ISI Web of Science. Ik ben inderdaad benieuwd of ze snel zo'n applicatie aanbieden waarmee je de citatiegegevens van je medewerkers overzichtelijk kunt oproepen. Het ziet er echt geweldig uit: ik vond altijd al de Wageningen Yield erg handig met de wizzard die een literatuurlijst kan maken uit Metis. Maar dat je nu dus ook de citaties erbij krijgt is geweldig! Daar rommelen ze zelfs mee in hun eigen ResearcherID.
*
Ook leuk om weer eens alles op een rij te zetten over hoe de bibliometrische analyse weer in zijn werk gaat. Ik heb zelf weliswaar zojuist dezelfde excercitie gedaan voor onze mid term, maar ik heb wel steun aan zo'n overzichtelijke beschrijving, van JCR en ESI.
*
Altijd weer vlamt de discussie op over kwaliteit/impact vs bibliometrische/impact. En hoe ver moetje gaan om onderzoekers raadgevingen te geven om een hogere score ta halen. Moet je altijd aansturen op het publiceren in het tijdschrift met de hoogste impactfactor, of moet je kiezen voor je eigen publiek: (Nature, algemeen interdisciplinair vs specialistisch).
Feit blijft dat je als onderzoeker wel afgerekend wordt op cijfers: citaties en h-index. En dat je zelfs je h-index bij projectaanvragen aan financiers moet opgeven.
*
De vorm van een minisymposium vind ik ook wel prettig. Beetje vroeg beginnen, dan een intensieve ochtend en daarna kun je kiezen wat je gaat doen.
Gisteren was dat voor mij nog een middagje werken in onze Heteren bibliotheek.
En daarna naar afscheid van Piet Drent, jarenlang een van onze belangrijkste koolmezen onderzoeker.

1 apr. 2009

Minisymposium Bibliometrics International

Publication analysis of GIScience in the Netherlands door Marco van Veller. Omdat de Gsciences een nieuw en interdisciplinair onderzoeksgebied is, kan Marco niet zoveel met de onderwerpsgebieden uit ESI. Marco heeft literatuuronderzoek gedaan in Scopus en die heeft hij opgedeeld in verschillende onderzoeksgebieden.
Marco selecteerde 12 peer reviewed scientific journals die gebruikt werden om zelf een baseline te kunnen berekenen. Per tijdschrift heeft hij de relatieve impact berekend, in tabel met totaal aantal publicaties totaal en uit NL.
Blijkt dat onderzoek uit NL meerendeels gepubliceerd wordt een in een tidjschrift dat neit zo’n hoge relatieve impact heeft. Daarnaast heeft Marco ook gekeken naar een lijst met landen en aantal publicaties en citaties daarvan.(Nl op 5e plaats w.b. publicaties en 3e plaats wb citaties).
Analayse ook op basis van samenwerking, m.n. internationale samenewerking.
Analayse van NL auteurs leverde een 28-tal auteurs op die het meest publiceren. Van deze auters is de relatieve impact berekend. Dan zie je dat hun citatie impact hoger is in de Gsciences journals dan als je het totaal bekijkt.
Ook Marco vergelijkt zijn cijfers met de NOWT-cijfers, dan zie je dat Gsciences harder groeit dan het geheel van de wetenschappen, en dan met name de internationale samenwerking.

Wageningen UR in the international rankings door Wouter Gerritsma.
In het strategisch plan van de WUR staat als ambitie een aantal streefcijfers w.b. - Aantal publ in impact journals >20
- Aantal Veni Vidi Vici
- Aantal Spinoza prijzen
- Wageningen ranking in internationaal lijsten

Ook Wouter geeft het verschil aan tussen totaal en per onderzoeksgebied. In ESI kun je zien dat in het veld van Environmental Ecology, gelet op totaal aantal citaties, WUR op 5e plaats komt. In totaal, over alle onderwerpsvelden komt WUR op de 188e plaats.
Sjanhai ARWU
- Kijkt naar verschillende factoren, zoals nobel- en andere prijswinnaars, highlycited researchers (van ISI), en kwaliteit van onderwijs. WUR: 152-200
THES Ranking
- Parameters zoals faculty/student ratio en peer review score, alsmede internationale medewerkers en studenten, en natuurlijk citaties. WUR:142
Leiden ranking
- Geeft baseline op 16 verschillende onderwerpsgebieden. WUR: 123

Wouter benadrukt het belang van het opnemen van een correctie affiliatie-vermelding: in een lijst staan met vijf verschillende benamingen voor WUR is niet productief.

Wat kun je doen om je positie te verbeteren:
- geeft goede 'data'presentation, gericht op high impact (>5) journals
- publiceer in het Engels in internationale tijdschriften
- uniforme instituutsvermelding
- moedig collega's aan je te citeren
- maak je publicaties OA, of plaats je artikelen in OA Archives (95% preprint mag). Discussie over het citeren van OA-preprints, die worden niet door ISI meegenemen (want gebaseerd op tijdschrift).



Minisymposium Bibliometrics Publication

Publication strategy door Marianne Renkema.
How to enhance your citation score:
- write high quality papers
- publish in the right journals
- be consistent with names
- cooperate with other research groups
- advertise yourself

Zoals Wowter al zei, zijn we bibliometrisch gebonden aan ISI Web of Science en de impactfacoten en de baseline ESI. Daarom is het handig om ook je publicatie strategie daar op af te stemmen.
Marianne citeert : "Het is beter minder te publiceren in een high impact factor journal dan meer in een tijdschrift met lagere impact".
Ze laat cijfers zien over de citatie-impact uit de Monitoringstudie van CWTS: Wetenschaps- en Technologie Indicatoren, die voornamelijk gebruik maken van ESI.
Marianne noemt wel de andere impactfactoren en rankingsystemen, maar die zijn alle minder bekend dan de JCR van ISI.

De onderverdeling in onderwerpsvelden in ESI kan ook een aanwijzing zij om in een andere groep tijdschriften te gaan publiceren. Bijvoorbeeld in een groep zijn 287 papers gepubliceerd met een relatieve impact 1.29, maar in bijv 1 subfield was het onder het gemiddelde (0.64)en in een ander was het 3.46. Je kunt daaruit afleiden dat je als onderzoeksgroep beter niet in de tijdschriften kunt publiceren met een lagere score.
Het effect van Open Access heeft weinig effect op je citatie impact. Maar heeft heeft wel een groot effect op de toegankelijkheid, zeker als je met ontwikkelingslanden samen werkt.
Kies om te publiceren voor tijdschriften die in Web of Science voorkomen.
Belangrijk is de naamsconsistentie: pas op met voorletters, gebruik gestandardiseerde naam voor een onderzoeksgroep en/of instituut, geen drie, maar max 2 niveaus van affiliatie. Eventueel kun je foutieve of incomplete opname corrigeren of laten corrigeren in Scopus, ResearcherID, check Name in Metis/Way en DAI
Het effect van samenwerking is groot: artikelen met meerdere auteurs scoren hoger, zeker internatinale samenwerking
En belangrijk is ook om zelf als auteur te werken aan je naamsbekendheid: Advertise yourself. Zelfcitatie mag! Blijf jezelf ‘marketen’, met bijv. preprints in Open Archives, een blog en schrijf in Wikipedia, sociale bookmarks.

In de discussie wordt nog de vraag gesteld over het publiceren van boeken: de aanbeveling is om liever - uit citatie-oogpunt - artikelen te publiceren.




Minisymposium Bibliometrics Wageningen UR

Repository as a tool for bibliometric analysis door Peter van der Togt. Hij tekent een driehoekje met de benodigdheden: Producer-Citations-Baseline
Van belang is het goed registreren van de publicatie, in Wageningen in Metis (200 locale gebruikers), die gevalideerd worden door library staff en dan gepubliceerd in Wageningen Yield WAY. Dat levert de Producer. De baseline wordt bepaald door de gegevens uit het Metis record.
Er wordt gedprobeerd de records uit Metis te matchen met ISI (Web of Science) op basis van issn, volume en paginanummer. Dan krijg je een ISI-nummer dat wordt toegevoegd aan Metisrecord.
Met dat ISInummer kun je een URL genereren die de citatie’s oplevert. Met een speciale tool worden de citaties op die manier geharvest. ISI komt nu zelf ook een tooltje.
De baseline wordt gehaald uit de Essential Science Indicators per onderwerpsveld.
Dus met gebruik van de repository, ISI citations en ESI baselines kun je altijd een bibliometrisch rapport genereren voor een onderzoeksgroep.

Wouter gaat later nog in op problemen bij het matchen van de vangsten uit WUR Metis met ISI WoS. Een aantal artikelen worden domweg niet opgenomen in Wos, maar zorgelijker is het feit dat een aantal er wel in zit, maar niet gevonden wordt op affiliatie Wageningen UR. Helaas geven autuers toch niet altijd de goede affiliatie door.
Wouter Gerritsma gaat verder in op 'Bibliometric analyses at Wageningen UR.'
Hoe vergelijk je citatiegegevens met elkaar? Een gemiddelde publicatie in Molecular biology heeft ong. 300-400 citaties nodig om tot de top te behoren, een publikatie uit het veld van Mathematics veel minder.
Hoe bereken je de impact in een veld? Een artikel uit 2002 heeft bijvoorbeeld 58 citaties, de categorie Plant&Animal Sciences zou eigenlijk gemiddeld 9 citaties moeten hebben. Deze is dus 6x boven het wereld gemiddeld.
Daarom heb je baselines nodig en zijn we met handen en voeten gebonden aan ISI Web of Science, voor citaties en voor de analyse van de basisgegevens per veld de ESI, Essential science Indicators
Peter geeft een demonstratie hoe hij op een eenvoudige manier de volledige bibliometrische gegevens van een onderzoeksschool op het scherm kan toveren.
Ziet er erg mooi uit! En terecht geeft hij dan ook de credits aan de programmeur Charles Leon.


Ik wacht dus op de API van ISI, misschien kunnen wij dan ook zoiets doen, maar dat betekent dus eerst alles in Metis, vervolgens correct gebruik van ISI en ESI.