14 okt 2013

Bezoek aan Nationaal Herbarium




Op vrijdag 11 oktober 2013 bracht ik samen met enkele andere leden van de Amsterdamse KNNV een bezoek aan het Nationaal Herbarium in Leiden. Dit bezoek was onderdeel van een introductie over zeewieren van dr. Herre Stegenga en dr. Willem Prud'homme van Reine.
Bij de lezing: Zeewieren komen met name voor op vast substraat, dus zijn ze voor Nederland vooral gebonden aan kunstmatige structuren. Door de Deltawerken zijn de omstandigheden gewijzigd en vooral in de Oosterschelde verbeterd. Dit laatste heeft te maken met het zo veel mogelijk weren van zoetwaterinflux. Het gevolg is het gestadig toenemen van het aantal soorten, sinds het verschijnen van een flora in 1983 bedraagt dit al zo’n vijftig soorten. Een belangrijk deel daarvan bestaat uit exoten, soorten die hier zonder bemoeienis van de mens niet zouden kunnen komen. Ze kunnen binnen enkele jaren zeer abundant (overvloedig) worden. De origine van veel soorten is het Verre Oosten (Japan, China, Korea) – deze specifieke voorkeur heeft waarschijnlijk te maken met vergelijkbare temperatuuromstandigheden (relatief hoge maxima en lage minima). Gevolg is dat vooral rond de laagwaterlijn de flora een exotisch uiterlijk krijgt. Dr. Herre Stegenga en Dr. Willem Prud’homme van Reine ontvangen ons en zullen een demonstratieve show geven met herbariumexemplaren van zeewieren uit de nationale collecties. Mogelijk kunnen ze ons ook belangrijke platenwerken op zeewierengebied uit de bibliotheek tonen

Het Nationaal Herbarium Nederland (NHN) is nu nog gevestigd in het Van Steenisgebouw, Einsteinweg 2 in Leiden, het gebouw van de afdeling Biologie van de Unversiteit Leiden. Het Nationaal Herbarium is ontstaan uit een fusie van de herbaria van Leiden, Utrecht en Wageningen in 1999. Vanaf 2009 zijn ze losgemaakt van de universiteit Leiden en ondergebracht bij Naturalis Biodiversity Center. Naturalis Biodiversity Center herbergt niet alleen het nationaal natuurmuseum, maar ook alle nationale biologische collecties.
Vanaf volgend jaar (2014) gaat er een grote gebouw- en verbouw- actie beginnen die uiteindelijk moet uitmonden in de oprichting van een 2e collectietoren van Naturalis en een verhuizing van alle medewerkers naar de NBC-gebouwen.
Willem Prud'homme van Reine, die de rondleiding leidde vertelde ons dat wij de laatste groep zijn die een rondleiding krijgt door het 'oude' herbarium.

Er zijn 4 grote collectiezalen.Sommige met verrolbare kasten en andere met vaste kasten, maar allemaal met eindeloze rijen met dozen. In de dozen zitten mappen met daarin de gedroogde specimen, tussen 'flap' bladen. Die planten die gevoelig zijn voor vraat van beestjes gaan 1x per jaar in de diepvries van -25 graden. Er zijn in het herbarium zo'n kleine 6 miljoen specimen aanwezig (incl. de Utrechtse houtspecimen en de Wageningse cultuurgewassen).
Men is nu bezig met een uitgebreide digitaliseringsslag. Daartoe gaan stapels dozen naar een digitaliseringsbedrijf. Er worden dan 20.000 specimen per dag gedigitaliseerd. Bij terugkomst gaan de dozen eerst in de vrieskist voor ze weer op hun plek teruggezet worden. De firma Picturae heeft 7 digistraten ingericht voor Naturalis en het doel is om zo'n 7 milj. objecten te digitaliseren, waarvan 4,5 milj herbarium bladen en 130k houtspecimen uit het herbarium. De Volkskrant wijdde er nog een artikel aan (lees op site Picturae) en ook in Wageningen wordt gedigitaliseerd, aldus een berichtje in Resource van 26 september 2013.
De collectie omvat naast alle Nederlandse soorten ook een uitgebreide collectie planten uit Indonesie en Nieuw-Guinea, tropisch Africa en Antillen.
Het resultaat van de digitalisering is te zien in de database .
In het voorbeeld gezocht op Taraxacum officinale (paardenbloem).
Niet alleen zijn er planten gedroogd bewaar ook zijn er een groot aantal bewaard in alcohol en/of formaline. Dat levert een hele zaal met potjes en - ontkleurde - bloemen op.


Dr. Herre Stegenga (schrijver van "Flora van de Nederlandse zeewieren", uitgave van KNNV uit 1983) toonde ons een aantal exotische soorten zeewieren, die nieuw zijn voor Nederland.

Een van de nieuwe soorten is de Wakame (Undaria pinnatifia), waarvan we ook een stukje snack met zeewiersalade uit de schappen van Albert Heijn konden proeven. De meeste zeewieren kun je eten, behalve een soort als de Desmarestia viridis, die zoveel zuur heeft dat hij alles in zijn buurt verbrokkelt.
Heel mooi, en makkelijk te onthouden is de Turuturu (Grateloupia turuturu Yamada) een prachtige grote roodwier.

Ter afsluiting brachten we een bezoekje aan de NHN-bibliotheek, qua catalogus al wel geintegreerd met de Naturalis-bibliotheek, maar nog wel apart gehuisvest en met een eigen kamer met speciale, oude, handgetekende en ingekleurde boeken. We keken naar enkele zeldzame exemplaren van boeken over algen.

7 okt 2013

TPDL2013 nabeschouwing

Het 17e International Congress on Theory and Practice of Digital Libraries vond plaats in het Grand Hotel Excelsior in Floriane(Valetta) op Malta van 22-26 september met vooraf een aantal tutorials en achteraf een aantal workshops.


Statistiek
Er staan 38 lezingen aangekondigd in het programma boek. Er was een panel met 8 presentaties en de postersessie opende met 28 1-minuut/presentaties. In mijn tutorial waren 5 presentaties en er werden in totaal 6 tutorials gehouden, en een Doctoral Consortium met 6 lezingen. In mijn workshop werden 12 presentaties gegeven en er waren 6 workshops. Dat komt dan grof geteld bij elkaar op 182 presentaties.In de officiele proceedings, die door Springer worden gepubliceed onder de titel ´ Research and Advanced Technology for Digital Libraries` staan 72 hoofdstukken. Er waren 300 deelnemers uit 40 landen. Zelf heb ik 45 sprekers gehoord, 6 blogpostjes geschreven in 16 Word-bladzijden met in totaal 4552 woorden, 102 hyperlinks, 19 afbeeldingen en er werden zo´n 40 EU-projecten besproken. Kortom een boordenvol congres.

Digital Libraries
De TPDL, opgericht als European Conference on Digital Libraries, o.m. door Ecrim(European Research Consortium for Informatics and Mathematics) is bedoeld om onderzoekers in computertoepassingen over hun nieuwste onderzoeken te laten vertellen. Hoewel er ook, gedurende de hele conferentie telkens weer het belang van bruggen bouwen tussen ICT en publiek aan bod kwam, lag de nadruk ook wel erg op de technologische ontwikkelingen.
De formele defintie van ‘digital library’uit het Digital Library Reference Model luidt:
"A potentially virtual organisation, that comprehensively collects, manages and preserves for the long depth of time rich digital content, and offers to its targeted user communities specialised functionality on that content, of defined quality and according to comprehensive codified policies.
"

Onderwerp
De titel van het congres was “Sharing meaningful information” en het centrale thema kan worden samengevat in 3 woorden:
samenwerking, linking, semantisch web
.
De twee keynote-sprekers waren goed gekozen en vertegenwoordigden ook de essentie van de hele conferentie: Christine Borgman gaf alvast een inkijkje in haar nieuwe boek Big Data, Little Data, No Data,dat zal gaan over nieuwe vormen van wetenschappelijke comunicatie, openheid als norm voor het wetenschappelijk proces en hergebruik van data als uitgangspunt voor nieuw onderzoek.



En de tweede keynote-spreker Sören Auer sprak over linked data. Hij is de man van het “Wikipedia semantification project DBpedia or the social Semantic Web toolkit OntoWiki” en toonde verschillende semantische tools en bijv. ook om als transitie maatregel te beginnen met het semantisch annoteren van pdfs..
Hij sprak over de linked data life cycle, en over de noodzaak om de digitale bibliotheken opnieuw uit te vinden en te trransformeren naar 'knowledge hubs'.


In het vervolg van de conferentie kwamen deze begrippen steeds weer terug, soms met wat meer nadruk om text extractie, soms meer nadruk op kunstmatige intelligentie, soms op crowdsourcing, en soms ging het om de welbekende discussie van waardering en erkenning en het publiceren in high impact factor journals.
De tutorial die ik volgde gaf me een stevige introductie in data curatie. Data curatie, aldus tutorial-leider Andreas Rauber is niet genoeg, en ook een Data management plan volstaat niet. De uitdaging is om het proces, in zijn context vast te leggen
we need to move beyond the concept of data and capture ‘all’ elements of a research process
De demo's in de tutorial en de verhalen eromheen werden gegeven vanuit het project Wf4ever Workflow 4ever, dat draait om het preserveren van workflow in research objects. Ook semantisch geannoteerde papers kunnen tot research object worden omgewerkt en zo sloot ook dit verhaal naadloos aan op de rest vna de conferentie.
De workshop waarmee het geheel eindigde was een waterval aan resultaten en halfresultaten van onderzoeken in de richting van data curatie, data en publicatie verrijking en het semantisch annoteren. Het kwam weer terug op linked data, het linken van publicaties aan data en data aan de research workflow.
De presentaties van de workshop staan inmiddels op de site.

Na de conferentie heb je meestal het gevoel dat er een thuiswerkopdracht aan vast zit, in het Engels vaak 'take home message' genoemd. Voor mij is dat tweeledig:
- research workflow systemen Taverna / My Experiment nakijken op hun waarde en bruikbaarheid.
- winter weblecture in semantische web technologieen van Uni Bonn (Auer).
En uiteraard kijk ik met belangstelling uit naar het nieuwe boek van Christine Borgman.


3 okt 2013

LCPD workshop TPDL 2013


De eerste workshop :"Linking and Conceptualizing Publications and Datasets" gesponsord door OpenAire en Eurocris werd gehouden onder het motto: 'Paving the way towards Modern Scholarly Communication'.


De workshop van 1 dag, beslaat 5 sessies waarin 10 voordrachten worden gehouden. Het programma lijkt tamelijk volgepakt. Alle voordrachten geven een onderzoek weer op het gebied van het linken en conceptualiseren van publicaties en data.
De twee 'invited speakers'zijn Sarah Callaghan en Soren Auer. Auer hebben we daags ervoor al gehoord met zijn Linked Data en nu legde hij de nadruk op het semantisch annoteren. Dat kan ook met publicatie-PDFs. Alleen moet je daar wel een modus voor vinden zodat het annoteren voor de onderzoeker uiteindelijk lonend blijkt te zijn. Helemaal opheffen van de pdf ziet hij niet direct gebeuren er is een tijd van transitie nodig.
Sarah Callaghan vertelt over haar ervaringen met data als onderzoeker, in een geval het handmatig bij elkaar sprokkelen en ordenen van de gegevens en in het tweede geval het onmiddellijk archiveren van de data gelinkt aan het artikel. Om e.e.a. te verduidelijken gebruikt ze de datapyramide (plaatje uit presentatie Smit over ODE - Opportunities for Data Exchange).
Ze is voorstander van data publicaties in een data journal en van een correcte datacitatie. Zie ook het rapport van CODATA (Committee on Data for Science and Technology van de International Council for Science) "Out of Cite, out of mind". In dit rapport worden de eerste 10 principes van datacitatie geformuleerd:
1. Status of Data: Data citations should be accorded the same importance in the scholarly record as the citation of
other objects.
2. Attribution: Citations should facilitate giving scholarly credit and legal attribution to all parties responsible for
those data.
3. Persistence: Citations should be as durable as the cited objects.
4. Access: Citations should facilitate access both to the data themselves and to such associated metadata and
documentation as are necessary for both humans and machines to make informed use of the referenced data.
5. Discovery: Citations should support the discovery of data and their documentation.
6. Provenance: Citations should facilitate the establishment of provenance of data.
7. Granularity: Citations should support the finest-grained description necessary to identify the data.
8. Verifiability: Citations should contain information sufficient to identify the data unambiguously.
9. Metadata Standards: Citations should employ widely accepted metadata standards.
10. Flexibility: Citation methods should be sufficiently flexible to accommodate the variant practices among
communities but should not differ so much that they compromise interoperability of data across communities.
But it is crucial, she concludes, that data and publications resulting from it must be linked!
Aan het eind van haar presentatie roept Sarah Callaghan op om mee te doen met een nieuwe - Cost?-actie om het publiceren van data en publicaties gecombineerd te stimuleren:PARD: Publish Academic Research Data.
Ze refereerde daarbij aan het blog van Graham Steele: 'Publishing research without data is simply advertising, not science'


Na de koffie was er een sessie over 'Datasets en Contextualization' waarbij het ging over NLP (Natural anguage Processing), en over het belang van metadata bij klimaatgegevens (CHARMe-project).
In de sessie over 'Interlinking of Publications and datasets" werd een aardig onderzoek van de KU Leuven gepresenteerd over antieke teksten, verzameld in een Filemaker database(Trimegistos) en om te zetten (kan 'fairly straightforward') naar RDF. De leider van de workshop Paolo Manghi hield zelf een introductie in de tool Data Searchery, een prototype om te zoeken in databestanden naar soortgelijke datasets. Nog een aardig linking onderzoek werd gepresenteerd door Nuno Lopes, die met Linking Logainm een LOD-demonstrator presenteert waarmee je op Ierse plaatsnamen kunt zoeken in bestanden van de Nationale Repository van Ierland.

Na de pauze in de sessie 'Datavisualizations and representation' presenteerde Martin Skulimoski een veelbelovend platform "Link Your Research' waar de verschillende entiteiten van een research paper gelinkt kunnen worden aan andere onder het motto"Publish articles, publish your data and link your concepts!".
Andras Micsik demonstrateert een andere linked open data-toepassing genaamd: LODmilla, die relaties tussen datasets linkt en als laatste volgt een verhaal over de OpenAire mining services.


In de laatste sessie gaat het over 'metadata and packaging' en komen aan bod 'Cerif voor datasets' en metadata voor grote datasets naar 'investigation research objects'. Wat me uiteindelijk weer terugvoert, en ook de discussie terugvoerde naar Research Objects (behandeld in de tutorial van zondag).

2 okt 2013

TPDL 2013 Semantisch Web


Dinsdagnamiddag kregen we nog een plenaire bijeenkomst rondom het semantisch web.
Semantic searching was al eerder ter sprake gekomen, en bij veel onderzoeken kwam het woord 'semantisch' op de een of andere manier naar boven drijven.
De officiële W3C website zegt erover:
The term “Semantic Web” refers to W3C’s vision of the Web of linked data. Semantic Web technologies enable people to create data stores on the Web, build vocabularies, and write rules for handling data. Linked data are empowered by technologies such as RDF, SPARQL, OWL, and SKOS.
En vooral RDF, SPARQL en OWL kwamen uitbundig aan bod.

Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations
Shenghui Wang van OCLC sprak rondom het probleem van duplcaten in Europeana, hoe die op te sporen en te categoriseren. Immers eenzelfde beschrijving kan meerdere kanten van een object belichten, de bedoeling is dan die bij elkaar horende of op elkaar gelijkende objecten aan elkaar te linken. Ze gebruiken daarvoor de techniek van iteratieve paralelle clustering met minhashes (min-wise independent permutations locality sensitive hashing scheme).
Methodology for Dynamic Extraction of Highly Relevant Information Describing Particular Object From Semantic Web Knowledge Base
Krzysztof Sielski noemde Clepsydra, een aggregator die de collecties van diverse bibliotheken samenbrengt in een knowledge base. Ze gebruiken daarvoor een RDF database en SPARQL queries gebaseerd op de FRBRoo Ontologie. Met een ontologie maak je een conceptueel schema van een bepaald domein, in hierarchie opgebouwd met aanduiding van onderlinge relaties (een soort thesaurus). In de gezamelijke digitale bibliotheek kun je al, niet helemaal volgens het nieuwste algoritme, maar toch al een aanzet de ontwikkelingen daaraan zien. Als voorbeeld zoeken op Hamlet, biedt dus verrijkte catalogus.

Personalizing Keyword Search on RDF Data
Giorgos Giannopoulos presenteert het zoeken op via ranking algoritmes op een RDF database.

Providing Meaningful Information in a Large Scale Digital Library - a Case Study
Patricia Herterich van CERN over de problemen bij het identificeren van auteursnamen. Met INSPIRE, het informatiesysteem van CERN dat een samengaan is van diverse digitale bibliotheken en systemen. Met het Europese ODIN project, proberen ze, op basis van de ORCID en DATACITE initiatieven verder te bouwen aan een automatische auteurs-identificatie.

Keynote:
What can Linked Data do for Digital Libraries?
Sören Auer spreekt over het LOD2-project, een groot EU-project over Linked Open Data, dat bedoeld is om meer open data aan elkaar te knopen en toegankelijk te maken.
How can we reinvent Libraries online: Digital Library is a Digital Knowledge Hub, exploring new ways of sharing knowledge, not just access to digital stuff
De digitale bibliotheek ondersteunt verschillende soortenproducten, technologieen en interactieve samenwerkingsvormen.
Lod2 heeft een aantal tools ontwikkeld, Ontowiki en Slidewiki, die gebruikt kunnen worden om de wetenschappelijke communicatie te bevorderen.
Lees ook: "Managing the life cycle of linked data with the Load2 stack."
Vervolgens raakte Auer aan een punt want meerdere keren al ter sprake kwam, nl de semantische annotatie:
..publish semantic papers as an intermediate step, not directly in rdf knowledge base but as enriched annotated paper

De conferentie eindigde voor mij met een sessie over Preservation.
Restoring Semantically Incomplete Document Collections Using Lexical Signatures
Luis Meneses vroeg zich af wat er gebeurt als je een document niet meer terug kunt vinden, als er in een reeks iets ontbreekt. Hoe weet je dat? en als je het al kunt reconstrueren hoe betrouwbaar is die reconstructie dan?

Resurrecting My Revolution: Using Social Link Neighborhood in Bringing Context to the Disappearing Web
Michael Nelson vertelt over een tweet-onderzoek onder tweets van 6 belangrijke sociale events (opstand in Egypte, oorlog in Irak etc.) en gaat op zoek naar eventuele ontbrekende link-locaties. Zijn die weer terug te halen? M.b.v. Topsylab konden van een onderwerp dat voldoende tweets heeft een dossier gemaakt worden waaruit ev. ontbrekende link-locaties kunnen worden aangevuld.

Who and What Links to the Internet Archive
In zijn tweede praatje laat Michael L. Nelson zien dat de bestaande web-archieven minder goed zijn als ze beloven.

Aan het eind van de conferentie werd er nog een foto gemaakt op de trappen van het Grand Hotel Excelsior.