21 nov 2011

Bijeenkomst NVB


Vorig jaar en het jaar daarvoor kon ik drie thema’s onderscheiden bij het jaarcongres van de NVB, vereniging van informatieprofessionals:
- ordening versus serendipity
- sociale media en verwording maatschappij
- imago informatieprofessional

Over serendipity heb ik niets gehoord en de discussie rond het vermeende gevaar van sociale media lijkt ook verstomd, want zelfs de NVB heeft zich verbonden met de Nederlandse Social Media Academie.
Dit jaar was “Een ander vak” nadrukkelijk het centrale thema van het congres.
Veel heb ik over ‘het vak’ niet gehoord behalve (en dan kan ik mijn eigen verslag van 2010 weer citeren):


“Ons vak is een ander vak geworden vlgs Wesseling. Daar ben ik het niet mee eens. De vorm en media zijn anders geworden, de omgeving is sterk verandert door de toepassingen van de moderne technologie en de veranderende maatschappij, maar de essentie is hetzelfde gebleven = toegang geven/faciliteren tot informatie.
Natuurlijk moet je als informatieprofessional, maar in welk vak niet, meegaan met je tijd en gebruik maken van nieuwe mogelijkheden, zo ook van de mogelijkheden die de sociale media bieden. “

De track “Het vak: Opleidingen onder de loep: wat moet er gebeuren om ‘het vak’ aan te passen aan de eisen van deze tijd?” heb ik niet gevolgd. Van Anneke Dirkx die die track wel volgde hoord ik de kreet KID-manager (kennis – info – data). Zij suggereerde ook dat de NVB meer zou moeten doen aan IP-branding, en daar ben ik het wel mee eens.
Overigens hoorde ik uit de Track “Happe.ning Bibliotheek 2.0” nog de kreet ‘embedded librarian’ , van Bert Huizing - waarschijnlijk overgenomen van de ‘clinical librarian’ maar dan ook voor andere dan medische omgevingen. Maar ook die track heb ik niet gevolgd.
Dat een sterkere ´branding´van het vak Informatie Professional noodzakelijk is bleek ook uit het plenaire debat, dat gevoerd werd door Marleen Stikker van Waag Society , Geert Loving(Institute of Network Cultures) en Stine Jensen (auteur) onder leiding van Pieter-Jan Hagens. Geen van deze vier personen had blijkbaar een duidelijk beeld van de doelgroep waarvoor zij optraden. Dat leidde tot een tamelijk gratuit debatje over zoeken en de macht van Google. Een dappere deelnemer uit de zaal probeerde het tij te keren, maar werd door een verkeerde woordkeuze (hyvesvrouwen) min of meer weggehoond.
Overigens had Marleen Stikker in haar 10-minuten praatje het over ‘open data’ en de motieven daarvoor: democratie, efficiency, innovatie, leefklimaat. Het zou open by default moeten zijn. Marleen referereert aan appsvoornederland.nl waarmee de overheid open data aan de burgers wil brengen. Toch wel interessant. 2 van de panelleden hebben De Digitale Stad als achtergrond. Omdat ik dat als dds-bewoner van het eerste uur interessanter vond dan debat heb ik wat rond zitten neuzen naar de geschiedenis van DDS en vond een aardig achtergrondartikel.

Er hadden zich 1100 mensen ingeschreven voor het congres en op de deelnemerslijst (die ik overigens niet van de organisatie, maar onderhands heb ontvangen) kon ik zien dat ze bijna allemaal een werkgever hebben. De crisis lijkt wat dat betreft toch niet zo erg. Ook tijdens de ochtendkoffie kreeg ik een beeld van een tamelijk stevige positie van de bibliotheek: in een ziekenhuis zijn de arts-assistenten verplicht om een CAT (Critical Appraised Topic) op te stellen Een CAT probeert zich toe te spitsen op één duidelijk geformuleerde, liefst enkelvoudige vraag en vervolgens wordt geprobeerd om aan de hand van de literatuur daar een evidence based antwoord op te vinden. De rol van de bibliotheek is daarbij van cruciaal belang(ook een ‘embedded’soort werk).

Na de pauze heb ik de Track `Web 3.0`gevolgd over het semantisch web en linked open data. Vaag herinnerde ik me dat ik ooit met bewondering een presentatie heb bijgewoond, waarbij ook het Semantisch Web ter sprake kwam. Tijdens het congres kon ik het me niet meer herinneren, maar na wat pogingen weet ik het weer. Het was in september 2004 tijdens het EAHIL congres in Santander. Daar sprak Les Grivell, destijds van EMBL ( European Molecular Biology Organization’ over ´Fingerprinting metadata´. Of om de hele titel te citeren `Conceptual fingerprinting as both a literature discovery tool and a means of semantic interlinkage of bibliographic, sequence and image databases`. Er was ook een Continuing Education Course over RDF en Semantic web van Benoit Thirion en Ioana Robu ‘Structuring the information on the Internet: the Dublin Core metadata, RDF and the Semantic Web’. In het archief van BIOMEDCentral is ook nog een interview met Les Grivell te lezen over het ‘fingerprinting the literature’. Les Grivell was destijds projectleider van het E-BioSci project, dat in 2005 is afgesloten en waaruit nog steeds CiteXplore Literature searching bestaat: een andere manier van (biomedische) literatuurzoeken. Ik meen dat hij destijds gebruik maakte van Collexis software, inmiddels door Elsevier overgenomen.
Kortom, Web 3.0-semantisch web is voor mij niet zo nieuw als het wellicht op het eerste gezicht aandoet. En niet alleen voor mij, bleek, maar voor het merendeel van de aanwezigen. Daarop had Ivo Zandhuis, die de discussies leidde zich verkeken, want hij had een langzame introductie bedacht, die helaas uitliep op een wat moeizame start en daarna, helaas voor track-switchers, een omgooien van het programma.

Edgar Meij geeft een helder verslag van zijn onderzoek naar ‘Semantic Search’: de ontwikkelingen in de information retrieval. Hij is vorig jaar daarop gepromoveerd aan de UvA “Combining Concepts and Language Models for Information Access” en blogt erover op zijn website.
Hij laat zien hoe het zoeken veranderd is, en hoe de problemen die op dit moment spelen niet zozeer computationeel van aard zijn. Het gaat er meer om te proberen te begrijpen/modelleren van de emnselijke cognitie en zo een dieper begrip te krijgen voor queries en content. Hoe hangen de zaken met elkaar samen. Wat kun je als zoekmachine uit de semantiek van de zoekvragen halen, wat niet letterlijk in de bewoordingen staat: ‘het nieuwe zoeken’ maakt gebruik van aggregatie, analyse en voorspellingen, semantische profielen, semantische queries & log analyse, en meer complexere taken.
Combinatie van document-zoeken en data-zoeken met behulp van een zoekparadigma dat structuur/semantiek gebruikt om de intentie van de gebruiker weer te geven.
- Leuke termen: Begrijpen van queries ‘snap to grid’ en interface en interactie: adaptief of met ‘rich snippets’. Semantisch web = delen van data in de vorm van linked data en rda.
Uit een onderzoek naar RDFa,(or Resource Description Framework – in – attributes) blijkt dat al eenderde van alle webpagina’s metadata in RDFa heeft, zoals de Open Graph protocol van Facebook = like
rNews standaard datamodel voor semantisch markup van nieuws sites RDFa. Schema.org =gestandaardizeerde RDFa van zoekmachines
DHZ: fietstas-project tekst-analyse op basis van ANP-berichten: kennisbeheer en kennisindeling – thesaurus structuur (die moet ik nog eens nakijken).

Wat mij betreft was Edgar Meij de held van de dag!

De track Web 3.0 had verder nog 2 praktische presentaties: Lukas Koster van UvA over de verrijking van de catalogus met linked open data.
Linked Data gaat over het verbinden van onderdelen met elkaar over het web, d.m.v. URI’s(Uniform Resource Identifiers) en de triples (subject, predicaat, object) volgens een standaard RDF (Resource Description Framework). Lukas gaat in op de geschiedenis, Tim Berners-Lee in een TED-lezing in 2009 en Dbpedia (de beruchte wolk –linked open data cloud). Voor het eerst heb ik van linked data gehoord op 11 december 2009 tijdens de SURF-bijeenkomst Advanced Services for Researchers van Frank van Harmelen en daarna nogmaals tijdens de Emtacl in Trondheim.
Het aardige van de presentatie van Lukas is dat hij probeerde het heel praktisch te houden, door in te gaan hoe je in de praktijk bijv. links zou kunnen leggen in de catalogus naar andere stukjes informatie over hetzelfde onderwerp. Zijn presentatie is te lezen op Slideshare, waar ook zijn duidelijke uitleg over de principes van linked data staan. Hij maakt gebruik van de standaard van Bibliographic Ontology Specification voor het bibliografisch beschrijven van referenties voor het semantisch web.
Een van de linked data opties is om het traditioneel catalogiseren te verrijken met andere FRBR-expressies en manifestaties. De FRBR (Functional Requirements for Bibliographic Records) is het entiteiten-relatiemodel voor titelschrijvingen van de IFLA uit 1998.


Wat is er nodig om wereldwijd gebruik te kunnen maken van Linked Cataloguing?:
- Wereldwijd gedeelde metadat opslag(plaatsen)
- Mondiale autorisatie bestanden (namen bijv.)
- Open catalogiseersystemen
- Linken met URIs moet worden ondersteund

Lukas heeft een proefproject gedaan met het Theater Instituut, waarbij allerlei gegevensover theaterproducties uit verschillende bronnen gelinkt worden. De problemen die ze daarbij tegenkwamen hadden vrnl. betrekking op het niet-uitwisselbare formaat van de opgeslagen gegevens (verschillende catalogussystemen, geen centrale ‘work’ beschrijving, maar alleen specifieke ‘manifestaties’ en problemen met matchen van tekst en copyright.)
Wat er nodig is is dat bibliotheken hun gegevens als open data publiceren en dat bibliotheeksystemen op een uitwisselbare manier hun gegevens opslaan.
Het kenniscentrum Digitaal Erfgoed Nederland publiceert een handleiding over het publiceren van open linked data.
Voorlopig adviseert Lukas af te wachten wat voor keuze de Library of Congress gaat maken nu zij besloten hebben af te stappen van Marc en over te gaan op linked data.

Dan is het de beurt aan IDM studenten van Klaas Jan Mollema met een presentatie van een project met gegevens van NCB Naturalis.
De studenten hebben een database gebouwd in RNAToolset m.b.v. Darwin Core metadata en onderdelen gelinkt met andere databases. Ze hebben daarvoor gebruik gemaakt van Trezorix software. Trezorix is een verzelfstandiging van de automatiseringsafdeling van Naturalis. Ze hebben veel tijd besteeed aan het maken van indelingen en het (handmatig) converteren van Excel-bestanden. De toegevoegde waarde hiervan is me niet geheel duidelijk. Wat ze hebben laten zien had m.i. ook een normale MS Access database kunnen zijn.
Schattig is wel dat ze zeiden dat ze zich IT-ers voelden. Duidelijk is wel dat er nog wat geleerd moet worden, ook als ze uiteindelijk toch IP-ers worden:)

Alles bij elkaar was het weer een leuke en leerzame bijeenkomst. Veel mensen gesproken en in een goede sfeer samen gezeten. Jammer is wel dat van het IP-branding nog niet veel terecht komt. Van de tijdens het jaarcongres 2009 aangekondigde Taskforce (TACIS, Taskforce Arberidsmarktcampagne Informatiespecialisten)heb ik ook nooit meer wat vernomen. Daar ligt toch nog een taak.

Tevreden terug op de fiets naar mijn Wageningse appartement.

16 nov 2011

Gelezen in 2009/2010

Overzicht van mijn 'gelezen' lijst voor 2009 en 2010: (voor 2008 zie voorgaand verslag)
**

Lanting, Menno. Connect!: de impact van sociale netwerken op organisaties en leiderschap. Amsterdam [etc.]: Business Contact, 2010.
**
*Chris Anderson .Free: The long tail: Hoe het nieuwe Gratis de markt radicaal verandert . Nieuw Amsterdam, 2009. http://lifehacking.nl/algemeen/free-artikel/ (Gratis e-book)
**
*Darwin, Charles, and Fieke Lakmaker. De autobiografie van Charles Darwin, 1809-1882: de oorspronkelijke versie. Amsterdam: Nieuwezijds, 2008.
Nuchter en helder geschreven overzicht van zijn leven en werk. Zie mijn logje met opmerkelijke uitspraken.
**
* Volledig communicatiegeorienteerde informatiemodellering FCO-IM, met bijbehorende case-tool. / door Guido Bakema, Jan Pieter Zwart en Harm van der Lek. Academic Service, 2005. ISBN 9039524181
FCO-IM is de facto standaard voor databaseontwerp.FCO-IM staat voor Fully Communication Oriented Information Modelling. Dit is een leerboek met opdrachten, voorbeelden en tips. FCO-IM is opvolger van NIAM (Natuurlijke taal Informatie Analyse Methode). Ook de FCO-Im -informatiegrammatica maakt gebruik van natuurlijke taal zinnen. Het classificeren (indelen in groepen) en kwalificeren (betekenisvolle naamgeving) moet identificeerbare en redundantievrije objectbeschrijvingen opleveren. In het Informatiegrammaticadiagram worden de verschillende tyoen in hun onderlinge samenhang getoond. Het gaat om feittypen, labeltypen, objecttypen, feittypeexpressies en objecttype-expressies. Hoewel op het eerste gezicht sommige begrippen wat moeilijk overkomen is het geheel helder uiteengezet.
**
* Budd, J. (2008). Self-examination: The present and future of librarianship. Westport, Conn: Libraries Unlimited.
John Budd schrijft in een lange monoloog zijn visie op de wereld, waarbij ook bibliotheken aan bod komen. Op de achterflap staat : "Through intellectually rich and engaging entrees into ethics, democracy, social responsability, governance and globalization ..."e ja, die onderwerpen zijn allemaal voorbijgekomen in dit 281 pagina's tellende boekwerk. Als hij de 7 hoofdstukken ieder in 2 Aviertjes had weten te pakken was hij wat mij betreft"een 'Meister' geweest. Nu is het voornamelijk gefilosofeer en offshow van wat hij allemaal kan citeren. De toekomst van de bibliotheek ben ik er niet tegengekomen.
**
* De draagbare lichtheid van het bestaan: het alledaagse gezicht van de informatiesamenleving / onder red. van Valerie Frissen en Jos de Mul. Kampen, Uitgeverij Klement, 2008. ISBN 9789086870301
Bundel essays, van een aantal, jonge, onderzoekers die berichten over de relatie technologie en samenleving. Uitgangspunt is dat dagelijkse, triviale en soms onvoorspelbare praktijken van de gebruikers de loop van de technologie en de vorm van de informatiesamenleving bepalen. Het gaat over de 'bricoleurs'i.t.t. íngenieurs', een antropologische benadering van triviale telefoongesprekken, ambient intelligence, de technologische toekomstvisie en de emancipatie van de gebruiker. Gadgets maken het leven misschien niet draaglijker, maar zeker wel draagbaarder, is de slotconclusie.

**
* De snavel van de vink: evolutie op heterdaad betrapt / door Jonathan Weiner. Contact, 1994. ISBN 90 25406157. Vert. van The beak of the finch: a story of evolution in our time.
Uitleg over het voortgaande proces van natuurlijke selectie. Met als voorbeeld de evolutionaire aanpassing van Darwin-vinken op de Galapagoseilanden, wordt helder uitgelegd wat evolutie is.
**
* Het nieuwe werken: op weg naar een productieve kenniseconomie / door Dik Bijl. Den Haag, Academic Service, 2007. ICT bibliotheek. ISBN 9789012119481
Het nieuwe werken, een door Microsoft in 2005 beschreven concept voor verhoging vasn de productiviteit van de individuele kenniswerker. Uitgaande van de factor 4 index met als hoofdcategorieen technologie, organisatie, cultuur en inspiratie wordt de werknemer persoonlijk aangesproken op zijn werkhouding. Werkplek aanpassing, flexplekken en werken kan overal, en werktijd aanpassing, geen 9-5, maar altijd en overal tussendoor. Boekje leest lekker weg.
**
* Iedereen : hoe digitale netwerken onze contacten, samenwerking en organsiaties veranderen. / door Clay Shirky. Business Contact, 2008 ISBN 9789047000808. Vert van 'Here comes everybody'
Gemakkelijk leesbaar boek over de sociaal-psychologische veranderingen, die mogelijk zijn geworden door toepassing van Internetapplicaties.

Bijeenkomst 11 november van het Onderzoeksdataforum



Het Surfshare programma eindigt dit en zal worden afgesloten met de SURF Onderzoeksdag op 9 februari 2012 in Media Plaza in Utrecht.

“Met het SURFshare-programma wil SURFoundation een gemeenschappelijke infrastructuur realiseren die de toegankelijkheid èn de uitwisseling van onderzoeksinformatie bevordert.”


Maar het Onderzoeksdataforum blijft bestaan.

Deze bijeenkomst zal worden besteedt aan 2 nieuwe rapporten: het Witboek dataprofessionals en de rapportage Podium Plus.
Daarna zal Bram van de Werf dieper ingaan op metadata.

De werkgroep Datastewardship van het Onderzoeksdataforum (waar ik zelf deel van heb uitgemaakt) heeft een witboek geschreven over het beroep dataprofessional. De werkgroep doet verschillende aanbevelingen in het Witboek Dataprofessionals in Nederland. Rob Grim voorzitter van de werkgroep geeft een nadere toelichting op het Witboek en neemt de aanbevelingen door.
Het Witboek Dataprofessionals geeft een overzicht van de datamanagement-ondersteuning bij 3 onderzoeksinstellingen NIOO, TUD, UvT
Rob geeft in het kort zijn impressie over de drie organisaties:
NIOO: afspraken over workflow – kwaliteit van dataverzameling – koppeling publicaties
TUD: permanente toegankelijkheid – veel DIY – registratie ws output
UvT: ondersteuning domein experts – lokaal naar centraal – geen opslag cultuur

De werkgroep is in 2009 gestart met het opstellen van “terms of reference:: een afbakening tot het profiel/ de competenties van ondersteuners van onderzoekers
Er wordt ingegaan op de rol van de dataprofessional in drie fasen van onderzoek: voorbereiding, uitvoering, evaluatie.
De aanpak is een literatuuronderzoek, gevolgd door een case studie bij ieder van de drie deelnemende instellingen d.m.v. interviews met onderzoekers, om te kunnen beschrijven wat de algemene knelpunten zijn en wat voor ondersteuning zij nodig hebben.
Datamanagement onderscheiden we in drie groepen: data-archivering, metadata, digitale duurzaamheid.
Uit literatuur komen vier belangrijke vaardigheden voor dataprofessional naar voren: data-archivering, softskills, kennis van wetenschappelijk onderzoek(smethoden), ict-skills.

- Rob verwijst hier ook naar de presentatie van Youngseek Kim tijdens de 6th International Data Curation Day over ‘Education for eScience professionals”.
Overigens ook aardig om te lezen is de masterscriptie De Datalibrarian in Nederland van J. Puttenstein, die in algemene zin schets hoe de situatie bij de Nederlandse Universiteiten is.-


Wat zijn de aanbevelingen:
Er moet training en opleiding worden aangeboden, niet alleen voor ondersteuners, maar ook voor onderzoekers zelf, specifiek maar ook een algemene basis voor alle wetenschappen.

Verder kan gekeken worden naar: UFO-profielen, GO-opleidingen, op maat trainingen, docenten, bijv. in overleg met eScience center.

Vervolgens kwam Paulien Wiersma over project PodiumPlus mogelijkheden tot data-opslag mbv Dataverse

Ervaringen met open source programma Dataverse (Harvard) en ervaringen met samenwerking met andere universiteiten. Er is nu een officiële dienst van Universiteit Utrecht, hosting bij Vancis (Sara dochter), en is nu een openbaar netwerk.
De metadata wordt geharvest door Harvard DataVerse: met federatieve inlog. Het is bedoeld voor middellange termijn opslag met koppeling naar DANS via SWORD protocol.
In het project heeft Paulien de licentievoorwaarden Dataverse vergeleken met DANS en 3TUD, en ook een vergelijking van de metadata en formaten.
Bijvoorbeeld nu vanwege de NWO-verplichting om data op te slaan daardoor komen er toch meer mensen naar DVN. Zie het als voorportaal., lokale variant van Harvard DataVerse
Grote machine gegenereerde data past er niet in, maar het werkt snel: onderzoekers krijgen meteen een URL – persistente handle.

Na de thee geeft Bram van de Werf een presentatie over ‘Metadata en sustainability”. Bram is directeur van Open Planets Foundation over metadata en duurzaamheid bij lange termijn opslag van onderzoeksgegevens. Voorheen bemoeide hij zich met Europeana. Europeana heeft ook een Toughtlab waarin ze een aantal tools voor het verrijken van metadata tonen Europeana is oorspronkelijk ook bedoeld als metadata-project.
Ipv preservation praten over lange termijn toegang.
Er is te snel overgestapt op het omzetten – normaliseren – van data- bits. Daar is niet genoeg over nagedacht, aldus Bram. Metadataschema’s zijn niet zo belangrijk als er maar over nagedacht is en het kan interopereren met anderen. Hoe beter de metadata hoe beter de objecten gebruik gaan worden”.
Met de community onderzoeken van de technische metadata, niet bij ingest (want dan creëer je een bottleneck), maar maak een enrichment layer in je repository en gebruik/ontwikkel tools om de metadata daar te verrijken. vd Werf ziet veel in het verrijken van de metadata door in de repository de hiaten in de technische metadata op te sporen

Gebruik is de sleutel, kijk naar de requirements en use cases, die gebruikt kunnen worden voor data mining en data modelling

Het Planets project, waaruit de Open Planets Foundation voorkomt had als ambitie het opzetten comptetentiecentrum waaruit de lidstaten dan kunnen putten (voor diensten en expertise).

Tijdens de discussie aan het slot van de middag bleek de centrale vraag “ Wat is noodzakelijk om de data te hergebruiken”.
Vaak is het heel moeilijk om data geschikt te maken voor meerdere functies bijv.voor omzetten in Narcis en KB etc. Beginnen met Basale ontsluiting en daarna discipline specifieke metadata toevoegen.