Digital Libraries and eInfrastructures - The Future?
Wim Jansen, Roberto Barbera, Michel Drescher, Antonella Fresa, Matthias Hemmje, Yannis Ioannidis, Norbert Meyer, Nick Poole, and Peter Stanchev
De panelvoorzitter, Wim Jansen is verbonden aan het EU-DG Connect (Digitale Agenda onder Neelie Kroes) en in deze sessie, meer nog dan in de andere sessies schoten een overdaad aan acroniemen van EU-projecten voorbij.
Hij verwacht dat in Horizon 2020 – de agenda staat nog niet vast – Call 3 en 4, die eind 2014 van start gaan interessant zullen zijn voor e-Infrastructures. Onder de vroegere FP en FP 7 programma´s en ook al daarvoor is er hard gewerkt aan Europese infrastructuur projecten. Er is een Research Infrastructures EU website en een EU Research Infrastructures Portal, waar je in een database kunt zoeken naar bepaalde infrastructurele werken
The term ‘research infrastructures’ refers to facilities, resources and related services used by the scientific community to conduct top-level research in their respective fields, ranging from social sciences to astronomy, genomics to nanotechnologies.ESFRI, the European Strategy Forum on Research Infrastructures, is a strategic instrument to develop the scientific integration of Europe and to strengthen its international outreach. ESFRI heeft zojuist een rapport uitgegeven met daarin een assessment van de projecten, waaronder bijv. DARIAH (geesteswetenschappen, assessment rapport p. 15) en Lifewatch (levenswetenschappen, assessment rapport p. 31).
Voor de geesteswetenschappen is er nu DCH-RP (Digital Cultural Heritage Roadmap for Preservation), die een e-Culture Science Gateway ontwikkelden, die inzicht geeft in culturele databestanden, die zijn opgeslagen in het European Grid Infrastructure.
Shaman gaat over cultureel erfgoed: Sustaining Heritage Access through Multivalent Archiving. Het Shaman project is afgerond en het eindrapport kan worden gedownload. Het Enumerate project verzamelt statistische gegevens over het cultureel erfgoed.
Een overkoepelende organisatie is Eudat,een EU organisatie die samenwerking stimuleer tussen data service providers en data gebruikers c.q. ontwerpers. Speerpunten voor Eudat zijn:
Safe data replication, Data staging, Simple store, Metadata, AAI (Authentication and Authorization Infrastructure).Ook hier zijn weer de communities van o.m. Lifewatch en CLARIN vertegenwoordigt.
En dan is er nog Chain-reds (Co-ordination & Harmonisation of e-Infrastructures for Research and Education Data Sharing) met als doel:
..in order to define a path towards a global e-Infrastructure ecosystem that will allow Virtual Research Communities (VRCs), research groups and even single researchers to access and efficiently use worldwide distributed resources (i.e., computing, storage, data, services, tools, applications).En het European Grid Infrastructures (EGI) project, dat virtuele organisaties van onderzoekers samenbrengt met software en service mensen.
Tot slot nog een woordje over OpenAire, de Open Access infrastructuur van de EU, waar iedereen zijn publicaties kan deponeren en ondersteuning kan vinden voor het oa publiceren.
De toekomst gaat over samenwerken, niet meer ad hoc eigen systemen bouwen , maar een generic core waaromheen ieeder zijn community kan bouwen. De toekomst gaat ook over filtering en eventuele filtering tools, 'the theory of forgetting', een stelling is dat er een goed economisch model ontbreekt. Veel is nog in ontwikkeling.
Tijdens de pauze klaagde een Amerikaanse dame dat het wel erg veel en erg verwarrend is allemaal (en dat is het ook:).
Na het EU vuurwerk was er tijd voor een sessie over ‘Mining and Extracting’.
Stefan Klamp begon met An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles”
Voor deze paper is hij beloond met een ‘Best Paper Award’.
Hij beschrijft hoe hij een programma ontwikkelt dat pdfs leest en de strcutuur daarvan probeert te herkennen. Dan kan indien de kopjes herkent zijn een inhoudsopgave worden gegenereerd.
Ook bij de UvA (is.m. Kitlv) wordt soortgelijk onderzoek gedaan.
Entity Network Extraction based on Association Finding and Relation Extraction
Ridho Reinanda, presenteerde gisteren, tijdens de postersessie, in een demo een ngramviewer die een voorbeeld laat zoeken naar iets soortgelijks ‘associate finding’.
given an input entity and a document collection, extract related entities from the collection and present them as a networkAls voorbeeld gebruikten ze de toespraken van de Indonesische presidenten.
Nuon Freire boog zich over de vraag hoe hij correct de namen vanauteurs uit de tekst kan extraheren., voor gebruik in nationale bibliografieën.
Word Occurrence Based Extraction of Work Contributors from Statements of Responsibility. In de toekomst zal er meer gekeken worden naar integratie met FRBR (Functional Requirements for Bibliographic Records), VIAF (Virtual International Authority File) en ISNI (International Standard Name Identifier).
Dit werk werd uitgevoerd in het kader van de EU projecten The European National Library en het Arrow Plus Network.
Dinsdagmiddag was het de beurt aan de sessie over “Interfaces for Digital libraries”
Exploring Large Digital Library Collections using a Map-basedVisualisation
Mark Hall sprak over ‘spatialisation’, een poging om de toegang tot grote collecties te visualiseren. Daartoe is eerst een thesaurus gebouwd met een hiërarchische structuur, daarna zijn er per document ‘bag-of-words’ gemaakt en geschoond. Op basis van die bag-of-words zijn de TD-IDF (term frequency–inverse document frequency) vectoren berekend, waarmee een kaart getekend kan worden. In het PATHs project wordt de visualisatie gebruikt.
AugDesk. Fusing Reality with the Virtual in Document Triage. Part1: Gesture Interactions
George Buchanan
Een onderzoek in het domein vna de augmented reality: sorteren van documenten door gebaren De gebaren worden geregistreerd met een Microsoft Kinect Sensor.
The Role of Search Interface Features During Information Seeking
Pertti Vakkari
In dit onderzoek werd gekeken naar het resultaat van een verrijkte zoekinterface bij verschillende soorten van zoekacties, known item en explorerend zoeken. Er werd gebruikt gemaakt van start pagina;s zoekboxen en gerelateerd zoeken. Kernprobleem is de vraag wat aan search features ligt en wat aan de toepassing ervan in de interface.
Users Requirements in Audiovisual Search: a Quantitative Approach
Roeland Ordelman sprak (namens Beeld en Geluid) over het Axes project, access to audiovisueel archive
Onderzocht werden de verschillen en overeenkomsten tussen drie soorten gebruikers:professioneel, educatief en privé-personen. Wat zijn de specifieke gebruikerseisen en prioriteringswensen van de groepen gebruikers.
Ordelman refereerde ook nog aan het Project Infiniti dat beoogd open standaarden te ontwikkelen voor tools die semantisch zoeken mogelijk maken.
's-Avonds kregen we een diner aangeboden in de historische stad Mdina, waar we werden opgewacht door 16e eeuwse wachters met trommels en fakkels, zeer sfeervol.