22 mrt 2012

Symposium Databeheer

Op donderdagmiddag woonde ik het symposium bij ‘Databeheer in de praktijk’. Laurens Sesink, de symposiumvoorzitter (DANS) introduceerde de middag door te constateren dat het onderwerp ‘beheer onderzoeksdata’ erg leeft en dat er veel bijeenkomsten over zijn. Dat kan ik bevestigen: ik heb zelf heel wat praatsessies meegemaakt over dit onderwerp (vanuit het Onderzoeksdataforum en in een poging om databeheer cursussen in de praktijk toe te passen) en ik zie ook heel veel nieuwe gezichten, maar ook een aantal bekenden, 35 in totaal.

CARDS: Controlled Access to Research Data Stored securely gaat vnl. over het beheer van onderzoeksdata ten tijde van het lopende onderzoek . Dus nog niet over duurzame opslag, dat is toch weer een ander (vervolg) verhaal.
Vanmiddag gaat het speciaal over het project CARDS. Er is een eindrapport verschenen en projectleider Ana van Meegen geeft daarover uitleg. Meerdere universiteiten hebben aan Cards meegedaan en hoewel de details verschilden per discipline is het algemene beeld toch wel overal hetzelfde (helaas nog steeds wat ikzelf al in 2007 constateerde): er is veel onwetendheid, veel onbegrip over wat mogelijk en voorhanden is en wat niet, ook m.b.t. de rol van de verschillende spelers: onderzoeker, ondersteuner, ict-er.
Uitgangspunten waren: de onderzoeker staat centraal, optimale ondersteuning, hands-on learning. Bedoeling is te komen tot een professionalisering van de ondersteuning (in eerder project was al eens geconstateerd dat onderzoekers ondersteuning wilden) en een inventarisatie van de wensen van de onderzoekers.

De ondersteuning kenmerkt zich door heel veel verschillen, in aard en niveau, vanuit bibliotheek, vanuit ICT, vanuit Research Support en met ook weer een keur aan benamingen waaruit de rapporteurs uiteindelijk met ‘dataspecialist’ naar voren kwam, maar tijdens de bijeenkomst bleek ook de ‘datasupporter’ als benaming wel over aanhangers te beschikken.
Onderzoekers blijken niet geïnteresseerd in verrijkte en/of open data. Onderzoekers willen bij voorkeur controle over hun data en zicht houden op wat ermee gebeurd. Ze willen minimaal tijd investeren en een vlotte technische infrastructuur en ondersteuning en advies bij metadatering, digitalisering en naast allerlei tips ook graag ondersteuning bij uitvoering.

De aanbevelingen van het CARDS project zijn:
- Zorg voor helder beleid
- Zorg voor goede ondersteuning
- Zorg voor bruikbare infrastructuur

Een van de concrete projectuitkomsten is de informatietoolbox voor het opzetten van een datamanagementplan. Deze toolbox kan vanaf de site van DANS worden gedownload.

De verschillende deelprojecten werden uitgevoerd op de verschillende universiteiten. Tijdens deze middag kregen we iets te horen over de projecten bij de UvA (Driek Heesakkers), UL (Peter Verhaar), UvT (Rob Grim) , UT (Maarten van Bentum) en VU (Peter Sol).
Zo bleek tijden de projecten in Amsterdam (UvA) dat er weinig bekend was, de pilot toonde de gaten in infrastructuur, en de onbekendheid met standaarden. Er waren veel vakgroepspecifieke vragen, en ook vraag ook om digitalisering en auteursrechtenkwesties.
In Leiden werd het project uitgevoerd door een VRE: virtual research environment op te zetten, met behulp van Sharepoint software, waarin de onderzoeker meteen kan uploaden geluidsopnamen en beschrijvingen toevoegen en gedetailleerde toegangsrechten regelen. Bij ondersteuning is meer vakkennis nodig en bij onderzoeker meer kennis van conventies, toch een positieve evaluatie met een helder idee voor vervolg i.s.m. 3TU.
Bij het Taxi-project in Tilburg ging het uiteindelijk over gebruik van internationale standaarden en software op gebied economische statistieken. Er blijkt weinig bekendheid over toch algemeen geldende standaarden zoals SDMX en open source software Fusion Registry.
In Twente werd een datacatalogue tool ontwikkeld in eXist voor intern beheer met goede zoekmachine, maar een Spartaanse gebruikersinterface. De ondersteuning zorgt voor basiskennis op gebied data management en de infrastructuur is primair. Een goede relatie met IT is essentieel.
De IT van VU heeft CARDS ingebed in DMS, het Document management Systeem waarbij giga- opslag bij onderzoeker blijft buiten de zoekmachine. Zij vinden dat capaciteit vanuit de centrale organisatie geregeld moet worden.

Na de presentaties van de projecten volgt een korte breakoutsessie, waarbij we in groepjes kunnen discussiëren over de aanbevelingen van het CARDS-project en dan m.n. wie is aan zet om welke noodzakelijke actie te nemen m.b.t. ondersteuning onderzoeksdata-beheer.
Uitgangspunt moet zijn speciale standaarden en metadata, die liefst centraal en internationaal gehanteerd worden, en verantwoordelijk financiers om eisen te stellen.
Ontbrekende en/of haperende infrastructuur, niet alleen technische, maar ook qua beheersorganisatie, moet op nationaal niveau worden aangepakt en er moet een uitspraak komen van Surf en eScience. Meer focus op delen en niet op archiveren, vakinformatie is noodzakelijk dus disciplinegerichte aanpak .

De rol van SURF in dit geheel was de uitvoering van het Surfshare programma. Als een vervolg wil Surf een Dutch Research Data Commons creëren, althans het draagvlak daarvoor onderzoeken met workshops en overleg. Het onderzoeksdataforum krijgt een vervolg als een Special Interest Group waarschijnlijk onder de naam Research Output.

2 mrt 2012

Discovery services

Wat is een discovery service?
Een discovery service is een stap in de geschiedenis van het zoeken in bestanden.
Er is een opbouw zichtbaar in het zoeken in bibliotheekbestanden. Eerst had je alleen het zoeken in de bibliotheekcatalogus. Later kreeg je als bibliotheek ook toegang tot andere catalogi, tot de Nationale Catalogus (nu Picarta) en tot andere bestanden (bijv. Pubmed/Medline, Web of Science en journal platforms zoals Science Direct , Springer Link , Wiley Online en veel meer).
Dan rijst al snel de vraag “Kunnen we al die bestanden niet in één keer doorzoeken in plaats van een voor een.?”
Het begin van een Meta Search Engine, een zoekmachine die tegelijkertijd meerdere zoekmachines bevraagt en het antwoord dus tergugeeft uit diverse databases.
Een bekende toepassing van een meta search machine is de Metacrawler, een zoekmachine, die tot mijn verrassing nog steeds bestaat en tegelijkertijd zoekt in Google, Yahoo en Bing.
Toen de ontwikkeling wat verder gingen is de term Meta Search Engine een beetje uit de mode geraakt en is de term ‘Federated search’ geworden. In Wikipedia wordt aangegeven dat er wel een nuanceverschil is (Federated Search gebruikt beter de voor de betreffende database aangemaakte indexen dan Metasearch), maar de NISO (National Information Standards Organization – US) ziet ze als synoniem.

Het grote probleem zit hem ook altijd in de indexen. Als je optimaal gebruik maakt van de mogelijkheden van een bij een bepaald bestand behorende index dan zal je zoekresultaat ook beter zijn. Zo is bijv. Een ‘topic’ search in Web of Science niet te vergelijken met een Mesh-heading search in Pubmed, terwijl ze toch beide zoeken op een onderwerp. Maar waar topic in WoS allerlei, niet gestructureerde woorden uit de titel en het abstract kan bevatten, zijn de Mesh-headings scherp gedefinieerde trefwoorden die in een gestructureerd verband met elkaar nog kunnen worden ingeperkt en/of uitgebreid. Gebruik van de eigen indexen voor een bestand is dan ook aan te bevelen, dat was zeker zo in de tijd van vóór het full-text zoeken. De zoekalgoritmen zijn sterk verbeterd.

Discovery services (of Web-scale discovery) gaan een stapje verder en gaan uit van een eigen gezamenlijke index voor diverse bestanden. Je zoekt in één index en je krijgt geïntegreerd uit een aantal bestanden het antwoord terug. In de Federated Search Blog geeft auteur Sol een aardige uitleg over discovery services (uit 2009) en Jason Vaughan heeft het in American Libraries uit 2010 over Web-scale Discovery.

Er zijn een aantal commerciële aanbieders van discovery services. Dat zijn intermedairs die contacten en licenties hebben afgesloten met uitgevers om de inhoud van hun databases te gebruiken om een ‘unified index’op te bouwen. Zij bieden een centrale service aan en daar kun je dan je eigen databases aan toevoegen. De oplossing is ‘in the cloud’d.w.z. op de servers van de aanbieders.
Aanbieders zijn:
Primo (Exlibris), Ebsco iscovery Service (EDS) , Summon (Serials Solutons) en nog een lijstje (zie de site Unified Resource Discovery Comparison van Lukas Koster en Andy Ekins) soortgelijke aanbieders. Opmerkelijk is dat het meestal gaat om tijdschriftagenten, dan wel leveranciers van link solvers of soortgelijke koppeling van tijdschriftenartikelen metadata aan de full text.

Op 26 januari zijn we in vergadering bijeengeweest, met een aantal KNAW-instituten om de mogelijkheden te bekijken en te bediscussiëren van discovery services. Als gast was daarbij aanwezig Lucas Koster van de UvA. Lukas vertelde ons over het selectieproces en de implementatie van de Primo Discovery Services bij de Universiteitsbibliothehttp://www.blogger.com/img/blank.gifek Amsterdam.

Ter voorbereiding konden we het artikel over Discovery Services uit Library Technology lezen en diverse discovery services raadplegen.
Na de bijeenkomst bleven nog genoeg vragen over. Een van de leukste was die van een van de KNAW-collectie-instituten, die zelf veel databases maken, over de mogelijkheid om al de eigen databases met een unified index toegankelijk te maken.
Nu resten ons de vragen van onze licentie-manager te beantwoorden:
Hier volgen de vragen:
1. Wie heeft wat aan een DT? Waarom?
2. Wat gaat er mis voor wie zonder een DT? Waarom?
3. Voor wie is een DT niet interessant? Waarom?
Stel dat een DT nuttig is:
4. Wanneer een DT?

En die ga ik komend weekend maar eens beantwoorden.