30 sep. 2013

TPDL 2013 Dinsdag

De tweede dag van de TPDL conferentie (tutorial op zondag telt niet als conferentiedag) opent met een Panel. Daarbij zaten 8 heren en een dame, die allemaal in het kort iets gaan zeggen over het onderwerp, in dit geval over e-Infrastuctures.
Digital Libraries and eInfrastructures - The Future?
Wim Jansen, Roberto Barbera, Michel Drescher, Antonella Fresa, Matthias Hemmje, Yannis Ioannidis, Norbert Meyer, Nick Poole, and Peter Stanchev

De panelvoorzitter, Wim Jansen is verbonden aan het EU-DG Connect (Digitale Agenda onder Neelie Kroes) en in deze sessie, meer nog dan in de andere sessies schoten een overdaad aan acroniemen van EU-projecten voorbij.
Hij verwacht dat in Horizon 2020 – de agenda staat nog niet vast – Call 3 en 4, die eind 2014 van start gaan interessant zullen zijn voor e-Infrastructures. Onder de vroegere FP en FP 7 programma´s en ook al daarvoor is er hard gewerkt aan Europese infrastructuur projecten. Er is een Research Infrastructures EU website en een EU Research Infrastructures Portal, waar je in een database kunt zoeken naar bepaalde infrastructurele werken
The term ‘research infrastructures’ refers to facilities, resources and related services used by the scientific community to conduct top-level research in their respective fields, ranging from social sciences to astronomy, genomics to nanotechnologies.
ESFRI, the European Strategy Forum on Research Infrastructures, is a strategic instrument to develop the scientific integration of Europe and to strengthen its international outreach. ESFRI heeft zojuist een rapport uitgegeven met daarin een assessment van de projecten, waaronder bijv. DARIAH (geesteswetenschappen, assessment rapport p. 15) en Lifewatch (levenswetenschappen, assessment rapport p. 31).
Voor de geesteswetenschappen is er nu DCH-RP (Digital Cultural Heritage Roadmap for Preservation), die een e-Culture Science Gateway ontwikkelden, die inzicht geeft in culturele databestanden, die zijn opgeslagen in het European Grid Infrastructure.
Shaman gaat over cultureel erfgoed: Sustaining Heritage Access through Multivalent Archiving. Het Shaman project is afgerond en het eindrapport kan worden gedownload. Het Enumerate project verzamelt statistische gegevens over het cultureel erfgoed.
Een overkoepelende organisatie is Eudat,een EU organisatie die samenwerking stimuleer tussen data service providers en data gebruikers c.q. ontwerpers. Speerpunten voor Eudat zijn:
Safe data replication, Data staging, Simple store, Metadata, AAI (Authentication and Authorization Infrastructure).
Ook hier zijn weer de communities van o.m. Lifewatch en CLARIN vertegenwoordigt.
En dan is er nog Chain-reds (Co-ordination & Harmonisation of e-Infrastructures for Research and Education Data Sharing) met als doel:
..in order to define a path towards a global e-Infrastructure ecosystem that will allow Virtual Research Communities (VRCs), research groups and even single researchers to access and efficiently use worldwide distributed resources (i.e., computing, storage, data, services, tools, applications).
En het European Grid Infrastructures (EGI) project, dat virtuele organisaties van onderzoekers samenbrengt met software en service mensen.
Tot slot nog een woordje over OpenAire, de Open Access infrastructuur van de EU, waar iedereen zijn publicaties kan deponeren en ondersteuning kan vinden voor het oa publiceren.
De toekomst gaat over samenwerken, niet meer ad hoc eigen systemen bouwen , maar een generic core waaromheen ieeder zijn community kan bouwen. De toekomst gaat ook over filtering en eventuele filtering tools, 'the theory of forgetting', een stelling is dat er een goed economisch model ontbreekt. Veel is nog in ontwikkeling.

Tijdens de pauze klaagde een Amerikaanse dame dat het wel erg veel en erg verwarrend is allemaal (en dat is het ook:).




Na het EU vuurwerk was er tijd voor een sessie over ‘Mining and Extracting’.

Stefan Klamp begon met An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles
Voor deze paper is hij beloond met een ‘Best Paper Award’.
Hij beschrijft hoe hij een programma ontwikkelt dat pdfs leest en de strcutuur daarvan probeert te herkennen. Dan kan indien de kopjes herkent zijn een inhoudsopgave worden gegenereerd.

Ook bij de UvA (is.m. Kitlv) wordt soortgelijk onderzoek gedaan.
Entity Network Extraction based on Association Finding and Relation Extraction
Ridho Reinanda, presenteerde gisteren, tijdens de postersessie, in een demo een ngramviewer die een voorbeeld laat zoeken naar iets soortgelijks ‘associate finding’.
given an input entity and a document collection, extract related entities from the collection and present them as a network
Als voorbeeld gebruikten ze de toespraken van de Indonesische presidenten.

Nuon Freire boog zich over de vraag hoe hij correct de namen vanauteurs uit de tekst kan extraheren., voor gebruik in nationale bibliografieën.
Word Occurrence Based Extraction of Work Contributors from Statements of Responsibility. In de toekomst zal er meer gekeken worden naar integratie met FRBR (Functional Requirements for Bibliographic Records), VIAF (Virtual International Authority File) en ISNI (International Standard Name Identifier).
Dit werk werd uitgevoerd in het kader van de EU projecten The European National Library en het Arrow Plus Network.


Dinsdagmiddag was het de beurt aan de sessie over “Interfaces for Digital libraries


Exploring Large Digital Library Collections using a Map-basedVisualisation
Mark Hall sprak over ‘spatialisation’, een poging om de toegang tot grote collecties te visualiseren. Daartoe is eerst een thesaurus gebouwd met een hiërarchische structuur, daarna zijn er per document ‘bag-of-words’ gemaakt en geschoond. Op basis van die bag-of-words zijn de TD-IDF (term frequency–inverse document frequency) vectoren berekend, waarmee een kaart getekend kan worden. In het PATHs project wordt de visualisatie gebruikt.

AugDesk. Fusing Reality with the Virtual in Document Triage. Part1: Gesture Interactions
George Buchanan
Een onderzoek in het domein vna de augmented reality: sorteren van documenten door gebaren De gebaren worden geregistreerd met een Microsoft Kinect Sensor.

The Role of Search Interface Features During Information Seeking
Pertti Vakkari
In dit onderzoek werd gekeken naar het resultaat van een verrijkte zoekinterface bij verschillende soorten van zoekacties, known item en explorerend zoeken. Er werd gebruikt gemaakt van start pagina;s zoekboxen en gerelateerd zoeken. Kernprobleem is de vraag wat aan search features ligt en wat aan de toepassing ervan in de interface.

Users Requirements in Audiovisual Search: a Quantitative Approach
Roeland Ordelman sprak (namens Beeld en Geluid) over het Axes project, access to audiovisueel archive
Onderzocht werden de verschillen en overeenkomsten tussen drie soorten gebruikers:professioneel, educatief en privé-personen. Wat zijn de specifieke gebruikerseisen en prioriteringswensen van de groepen gebruikers.
Ordelman refereerde ook nog aan het Project Infiniti dat beoogd open standaarden te ontwikkelen voor tools die semantisch zoeken mogelijk maken.

's-Avonds kregen we een diner aangeboden in de historische stad Mdina, waar we werden opgewacht door 16e eeuwse wachters met trommels en fakkels, zeer sfeervol.


29 sep. 2013

TPDL 2013 Maandag


De track op maandagochtend die ik had uitgekozen “Conceptual Models and Formal Issues”begon al goed doordat de eerste spreker niet kwam opdagen. De laatste spreker zou gaan praten over e-books in Zweedse openbare bibliotheken, dus dat trok me ook niet zo. Resteerde 2 lezingen.
De eerste over citizens science en de tweede over de definiering van digital libraries.

Hussein Suleman begon met een aardige presentatie van zichzelf door de stellen dat het land waaruit hij kwam ‘on top of the world’ ligt, en dat doet Zuid-Afrika ook als je het omgekeerd van het normale beeld voor je ziet. Een leuke aanzet tot een andere kijk op het onderwerp.
Quality Assessment in Crowdsourced Indigenous Language Transcription

Men had geprobeerd om een collectie aantekeningen van de oorspronkelijke bewoners van Zuid Afrika, die een onbekende taal spraken via kunstmatige intelligentie en allerlei linguistische computertechnieke n te ontcijferen. Dat was niet gelukt, althans niet met voldoende accuraatheid. Daarom besloten ze te onderzoeken of het zinvol was om vrijwilligers in te zetten, die m.b.v. een online tool de teksten zouden transcriberen.
Het bleek dat de vrijwilligers, vooral als verschillende versies over elkaar werden gelegd een behoorlijke graad van accuraatheid bereikten. Bleef alleen nog de vraag hoe je aan voldoende vrijwilligers komt om de klus te klaren. In een eerder artikel schreef Suleman daarover, hij zette daarvoor games in, want zei hij : ‘de vrijwilligers willen erkenning, zien dat ze het goed doen en liefst nog beter dan de anderen

De tweede spreker Armand Brahaj probeerde het begrip ‘digitale bibliotheek’ nader te definieren.
Defining digital library

Hij wilde het begrip digitale bibliotheek benaderen zowel vanuit een linguistisch als classificatorisch standpunt. Opmerkelijk genoeg ging hij daarbij uit van de defintie van een digitale biblotheek als een online collectie, en niet bijvoorbeeld van het concept bibliotheek.
Vereist dus toch nog wel enige nadere conceptuele bewerking.
Uiteindelijk kwam hij met een aantal trefwoorden die allen een relatie hebben tot ‘digitale bibliotheek’:


De TPDL, opgericht als European Conference on Digital Libraries, o.m. door Ecrim is bedoeld om onderzoekers in computertoepassingen over hun nieuwste onderzoeken te laten vertellen. Hoewel er ook, gedurende de hele conferentie telkens weer het belang van bruggen bouwen tussen ICT en publiek aan bod kwam , lag de nadruk ook wel erg op de technologische ontwikkelingen.
De formele defintie van ‘digital library’uit het Digital Library Reference Model luidt:
"A potentially virtual organisation, that comprehensively collects, manages and preserves for the long depth of time rich digital content, and offers to its targeted user communities specialised functionality on that content, of defined quality and according to comprehensive codified policies."

[zie ook Wikipedia over ‘digital libgraries’. NB Delos en dl.org zijn afgesloten EU-projecten over Digtal Libraries]


Er werd een uitgebreide en goed verzorgde lunch geserveerd (konijn, een Maltezer specialiteit, hoewel we zondagmiddag in een trip door de ‘countryside’ weinig open platteland gezien hadden. Malta blijkt een behoorlijke steenwoenstijn en de kleine akkertjes werden werden zwaar doortrokken door stangen en buizen voor de irrigatie).

Na de lunch volgde een tamelijke lange sessie over “Digital Curation”.
Mark Hedges beet het spits af met :”Digital Libraries for Experimental Data: Capturing Process Through Sheer Curation”.

Net als tijdens het tutorial was hier sprake van een poging om het proces van onderzoek, en niet zozeer de onderzoeksdata zelf bast te leggen.
Althans, de data waren er wel, er werden wel allemaal trouw bestanden bewaard, maar de relaties van die bestanden tot elkaar en de verschillende vormen en volgordes kon daar niet uit worden opgemaakt dus was de vraag :”where is the story of the experiment”.
Met de methode van het Open provenance model probeerden Hedges cs het hele proces te ‘capturen’ met minimale last voor de onderzoeker. ‘Sheer curation’is het kernbegrip en duidt op de minimale belasting voor de onderzoeker terwijl wel zijn bestandsmanipulaties door een speciale desktop tool worden vastgelegd en het proces van de verschillende versies en onderlinge afhankelijkheden van bestanden in repositories werd bewaard.
Sheer curation is an approach to digital curation where curation activities are quietly integrated into the normal work flow of those creating and managing data and other digital assets.

De volgende twee sprekers haken aan bij Europeana. Europeana werd trouwens toch heekl vaak genoemd op de conferentie en speelt duidelijk een belangrijke rol .
Europeana is a catalyst for change in the world of cultural heritage.
De Europeana Foundation & Network onderhouden een belangrijke portal, maar voeren ook vernieuwende projecten uit.
Er gebeurt echt wel veel binnen de Europeana community, ik heb me dan ook maar aangemeld voor de nieuwsbrief en wilde ontwikkelingen daar wat beter bijhouden.

Giannis Skevakis on “Metadata Management and Interoperability Support for Natural History Museums”. In het Natural Europe Project proberen de partners de toegankelijkheid tot het cultureel erfgoed in de musea voor natuurlijke historie beter toegankelijk te maken.
Het door de Universiteit van Kreta ontwikkelde Multimedia Authoring Tool is een web-based programma dat gebruikt kan worden om digitale object-collecties te beschrijven en te verrijken. Ook kan de MMAT gebruikt worden om gegevens mee uit te wisselen naar andere biodiversiteits-collectie-netwerken zoals BioCase, GBIF en Europeana.
De MMAT is gebouwd met Google Toolkit technologie en kan gebruikt worden in de gehele metadata life-cucle van ergoed objecten (CHO’s = cultural heritage objects).


Dimitri Gavrilis heett het in zijn praatje “A Curation-Oriented Thematic Aggregator”over Europese archeologische monumenten, het Carare project: Connecting ARchaeology and ARchitecture in Europeana. Via Europeana kun je nu de momenumenten zoeken . Op een kaart zijn een groot aantal monumenten aangegeven.
Aanvankelijk werd gebruik gemaakt van het Premis metadata model (preservation metadata), maar uiteindelijk werd de data overgebracht naar het Europeana Metadata Model (EDM).


De laatste presentatie was niet zozeer over curatie als wel over bibliometrie. De centrale vraag was of sociale media indicatoren een relatie hebben naar de uiteindelijke citatiescore :” Can Social Reference Management Systems?” Hamed Alhoori begint met het statement dat het door de informatie overload komt, dat we ranking hebben. Er is veel aan te merken op de huidige methoden van wetenschappelijke impact metingen, bijv. dat opvragen nog niet hetzelfde is als lezen. Sociale reference sites zoals CiteuLike en Mendeley, daar worden de genoemde artikelen ook echt gelezen. Wat als je die sites vergelijkt met de traditionele zoals Journal Impact factor, EigenFactor, Google H5 etc. De conclusie is dat er wel een correlatie is tussen het vorokomen in de social reference sites and de andere impactmetingen. Alhoori baseert zich op een artikel uit 2009, waarin Bollen e.a. 39 rankings om wetenschappelijke artiekelen te meten naast elkaar legden.


Na de presetnaties was het tijd om naar de tentoonstellingsruimte te gaan. Daar kregen alle auteurs van een poster de kans om in een minuut uit te leggen wat er op hun poster staat. - Op de foto staan de kandidaten in de rij om hun verhaal te vertellen.
Na de poster sessie was er een receptie op het ravelijn terras.


23 sep. 2013

TPDL 2013 Keynote

De officiële opening van het TPDL 2013 congres wordt verricht door een aantal officials, zoals de Minister van Educatie van Malta, enkele UNESCO officials (Valetta wil, net als Leeuwarden in 2018 Culture Hoofdstad van Europa worden) en een COST.eu (financieringsprogramma voor onderzoek) vertegenwoordiger en iemand van de Universiteit van Malta (toch nog 14 faculteiten).
De COST-vertegenwoordigster memoreerde dat de Johannieter Orde (sinds 1564 Valetta), de eerste Europese samenwerking was.
[Heb een fraaie catalogus gevonden van een tentoonstelling uit 2009 van de archieven van de Johannieters).
*
De openings keynote wordt uitgesproken door Christine Borgman. Van haar had ik al het boek gelezen “Scholarship in the digital age.
Christine Borgman.MIT Press, 2007. Goed gedocumenteerd boek met een beschrijving van de nieuwste ontwikkelingen op het gebied van wetenschappelijk onderzoek. Heel breed en daardoor worden veel onderwerpen slechts aangestipt. Ook over het belang van incentives voor het opslaan van data bijvoorbeeld. Geeft toch een aardig overzicht van de gevolgen van internet voor onderzoek.
Ook in deze keynote blijkt ze goed gedocumenteerd en geeft een heel mooi overzicht over een van de grootste issues in de wetenschap: Research Data Management. Digital scholarship, aldus Borgman "encompasses the tools, its about services and infrastructure that supports research too". Daarbij noemt ze ook nog het het recente OA rapport waaruit blijkt dat al meer dan de helft van de publicaties openbaar toegankelijk zijn.
Binnenkort komt er een nieuw boek van haar uit: “Big data, small data, no data: digital libraries past, present and future“ Daarin beschrijft ze vier duidelijke trends:
1. Open scholarship is norm (open data, open collaborations, open publication, open dissemination, open ontologies, open access attitudes)
2. Formele en informele publicaties lopen door elkaar heen, dus ook credits (altmetrics) [al in 1964 beschreven Garvey & Griffith in Science het verschil – ook in waardering – tussen formele en informele publicaties]
3. Data is lokaal bepaald (big data kan ‘big’ zijn in omvang, varieteit en snelheid (velocity) verschil tussen disciplines ‘índustrial tools vs artisanal tools’, long tail
4. Open data veroorzaakt een paradigma verschuiving (doel van onderzoek is niet langer de publicatie maar het hergebruik van de data)

Data sharing is not a technical issue, but a cultural

Haar presentatie is beschikbaar via haar website.

22 sep. 2013

Tutorial TPDL 2013




Het 17e International Congress on Theory and Practice of Digital Libraries begon vanochtend in het Grand Hotel Excelsior in Floriane(Valetta) op Malta met de tutorials.
Ik had me ingeschreven voor de tutorial: “From Preserving Data to Preserving Research: Curation of Process and Context” die georganiseerd werd door deelnemers aan het EU-project Wf4ever (Workflow for ever), waarbij het vooral gaat om de digitale curatie van het onderzoeksproces.
In zijn introductie ging Andreas Rauber in op het Microsoft boek The fourth paradigm, dat - gebaseerd op de concepten van Gray de ontwikkeling van de wetenschap ziet in 4 fasen: empirisch, theoretisch, computationeel en (nu) data-driven.
En wat heeft data-driven science meer nodig dan curatie?!
Een DMP (data mangement plan) is niet genoeg, aldus Rauber en hij haalt een casus aan waarbij door verandering in software eerder uitgevoerd onderzoek niet meer repliceerbaar was.

De uitdaging is om het proces, in zijn context vast te leggen
we need to move beyond the concept of data and capture ‘all’ elements of a research process
Rudof Mayer deed daarna het onderzoek uit de doeken. Hij heeft een model gemaakt van een methode die muziek automatisch kan caegoriseren. Daarbij maakte hij gebruik van externe bronnen voor de data en probeerde de kenmerken te exteaheren en via een machine-leerproces de software te finetunen.

Om dit proces te beschrijven maakte hij gebruik van een bestaand metadata model genaamd ArchiMate.
ArchiMate kan verschillende layers beschrijven in de processen voor informatieontsluiting, gedrag en structuur. Uiteindelijk leidde dat tot ontologieen.

Rudolf Mayer legt het proces van process- capturing uit, ook beschreven in Timbus- Project.
Het basismodel wat daaruit ontstond heeft hij uitgebreid met verdere ontologieen, met gebruikmaking van verschillende tools, zoals the software ontology, mapping metadata met Premis, CUDF voor software dependencies, en handmatig voor sensors.
Ze hebben verschillende tools ontwikkeld om een aantal van die gegevens automatisch te extraheren, maar die moeten wel worden aangevuld met handmatige aanvullingen.
Na Mayer was het de beurt aan Daniel Garijo en Raul Palma om het idee van Research Objects uit te leggen en te demonstreren. Ze lieten zie hoe het door Mayer in ontologieen beschreven proces kan worden omgezet naar Research Objects. Een Research Object is een bundel van alle bronnen die nodig zijn voor een -experimenteel - onderzoeksproces.
The resources aggregated by a Research Object can be: data used or results produced in an experiment study; (computational) methods employed to produce and analyse that data; or people involved in the investigation
* Tijdens de koffie verduidelijkte Daniel dat nog eens door te zeggen dat ook bijvoorbeeld een pdf van een publicatie met al zijn onderdelen een Research Object kan zijn.*
Annotatie is belangrijk voor een Research Object.
Waarom linked data niet genoeg is voor onderzoekers is de titel van een artikel van Bechhofer e.a. in Recent Advances in e-Science, en het antwoord is Research Objects.
Tijdens de demo over het maken van een Research Objects liet Raul Palma zien hoe de met ontologien beschreven en bewaarde workflow van Mayer omgezet kon worden in een Research Object. Dat kan met gebruikmaking van MyExperiment van Taverne. Er is ook een video van.
Nu is e.e.a. nog in projectstatus, maar dat gaat als product verder gepresenteerd worden.
De tutorial eindigde met een presentatie van Stefan Proell over datacitatie.
Behalve over doi en datacite, ging het ook over andere 'name assigning authorithy numbers' bijvoorbeeld ARK,archival resource key.
Hij gaf ook een demonstratie hoe je zelf bijv een doi of een ark kunt toewijzen.
Al met al een boeiende tutorial, met genoeg aanknopingspunten om verder te lezen.
[de link met verwijzing naar de presentaties zal op de tutorial webpagina van tpdl 2013 komen]

5 sep. 2013

Bibliotheek zonder catalogus


Is het mogelijk om de catalogus vaarwel te zeggen in een bibliotheek?

In de bibliotheek staat het vinden centraal: vinden van de juiste informatie die je (de klant) zoekt tot en met het daadwerkelijk leveren van de gevonden informatie al dan niet in digitale vorm.

In een Prezi op Internet lees ik dat Menno Rasch van de Universiteitsbibliotheek Utrecht van het "zoeken" (discovery) als bibliotheek-taak afstand en zich helermaal wil concentreren op "leverantie"(delivery). Hij erkent wel dat dat zonder catalogus nog een uitdaging zal worden.

Die uitdaging wordt gedeeld door UU-collega Pieter Reeve in zijn verslag van de Unconference Infocamp 2013 in de Informatieprofessional 2013/02.


Zelf hebben we besloten om onze catalogus, die we in eerste instantie in Refworks/Endnote hadden opgebouwd om te zetten naar GGC/Worldcat. Een lokaal bibliotheeksysteem hebben we niet meer.

Onze situatie is nu dat al onze boeken (ook e-books) te vinden zijn in Worldcat, maar dat er niet in onze collectie als zodanig gezocht kan worden.

In Worldcat zelf kun je alleen op titel/auteur/jaar etc. zoeken, maar niet binnen een speciale collectie. Ook in Picarta kunnen we niet laten zoeken alleen binnen onze collectie. Ons idee is dat de gebruiker dat ook niet wil.

Je zoekt gewoon een boek en als je een titel gevonden hebt die je wilt hebben ga je kijken waar je dat kunt krijgen. Het zoeken binnen de eigen collectie is in die zin onnodig beperkend.

Een klein beetje onhandig is het wel, want Worldcat toont geen boeknummers. Van Worldcat kun je wel naar de boektitel in Picarta en daar kun je wel de boekcode zien.

De uitlening houden we bij in een Excel-sheet. En zelf kunnen we uiteraard zoeken in de GGC via WinIBW, maar dat is niet geschikt voor gebruikers.

Vraag blijft hoe en of het werkt een bibliotheek zonder catalogus.
Is er inmiddels sprake van een nieuwe paradigma-verschuiving? Na het "van collectie naar connectie" nu dan "van zoeken naar leveren" of beter nog in het Engels "from discovery to delivery".