Ecobibl

15 jan 2012

Afscheidssymposium Eric Sieverts

Vrijdag 13 januari 2012 werd in het Kohnstammhuis (voormalige gebouw van de Amsterdamse Belastingen, nu HvA) het afscheidssymposium gehouden ter gelegenheid van de pensionering van Eric Sieverts.
Vanuit de zaal op de 9e verdieping heb je een prachtig uitzicht over het bouwterrein van waar eerst het Wibauthuis stond aan de andere kant van de Wibautstraat. En aan de andere kant kijk je richting Amstel en de torens van het Rijksmuseum.
Eric Sieverts, werkzaam bij de Universiteitsbibliotheek Utrecht en de Hogeschool van Amsterdam heeft zich ontwikkeld tot dè zoekspecialist van Nederland. Hij werkte mee aan de Vogin-cursus ‘Online opsporen van informatie’, waarvan ik een aflevering heb gevolgd in 1990, maar die nog steeds ge-update wordt en wordt gegeven. Eric is ook bekend geworden van zijn columns in de Informatieprofessional, het vakblad voor bibliothecarissen en mensen die in de informatiesector werken.
Het symposium met als thema “Op zoek naar de toekomst; wat 30 jaar ervaring over de volgende 30 jaar kan zeggen" trok een volle zaal.
Er werden drie lezingen gehouden: Cees Snoek over beeldretrieval, Wouter Gerritsma over zoekmachines en Eric Sieverts zelf over het vinden van informatie. Daarna de afscheidstoespraakjes en felicitaties. Het geheel eindigde met een borrel en lichtkransjes voor de gasten.
Eric kreeg een digitaal gastenboek aangeboden waarin de gasten ieder een blogtekstje hadden kunnen schrijven ter herinnering.

Beeldretrieval
De toekomst van het zoeken duidt al enigszins op andere manieren van zoeken, dus niet alleen maar tekst, maar ook beeld. Cees Snoek, medewerker aan het Instituut voor Informatica van de UvA doet onderzoek naar video en beeld retrieval, zoals hij op zijn website aangeeft. Probleem bij het zoeken naar beelden begint al bij het labelen (beschrijving of typering van de herkenningspunten) van beelden. Een mens ziet meteen een aantal kenmerken op een afbeelding, maar voor een computer is dat lastig. Het eenvoudigste niveau om beelden te benoemen is door ‘concept detection’. Je geeft de computer een aantal voorbeelden en die ‘leert’dan het concept te herkennen. De kenmerken zijn op het gebied van kleur, textuur, vorm en beweging, Die kenmerken moeten ‘invariant’zijn, dus niet door toevalligheden veranderen (zoals schaduw). Snoek toont een grafiek, waarin hij aangeeft dat de waarschijnlijkheid op goede match berekend kan worden met een Support Vector Machine in 1995 uitgevonden door Vladimir Vapnik. [Als je dat in wikipedia opzoekt kom je op een pagina met voor niet-wiskundige tamelijke ingewikkelde formules].
Voorheen maakte idereen gebruik van eigen datasets, maar sinds 2001 is er TRECVID, dat datasets levert die iedereen kan gebruiken. Het uit de wereld van de information retrieval bekende TREC systeem zorgt voor uitdagingen en probleemstellingen die in een jaarlijkse conferentie bestaande uit workshops aan elkaar worden getoetst. Zo kan het onderzoek snel voortgang boeken.
Een van de uitdagingen van TRECVID, waaraan hij met Media Mill, semantic video search engine, deelneemt is dat naar video indexing, methoden om multimedia te analyseren. In een demo laat hij zien hoe dat in zijn werk gaat. Fascinerend om te zien, dat de computer sommige beelden wel herkent en goed indeelt en andere niet. Maar van de fouten kan ook de computer leren.
Bijvoorbeeld. De zoekmachine heeft door voorbeelden ‘geleerd’ wat een boot is (blauw vlak met gat) en kan zo in de zoekopdracht voor boot, de diverse plaatjes met een boot eruithalen. Als fout ook booreiland, auto in ondergelopen straat.
Ook de andere voorbeelden die hij aanstipt spreken tot de verbeelding, bijv. vergelijk alle foto’s op Flickr met tags en besluit op basis van gemeenschappelijke tags tot een gemeenschappelijk trefwoord. En ook het crowdsourcing door publiek online concerten te laten ‘taggen’.
Er zit hier zeker nog wat in het vat voor de toekomst.

Toevalligerwijs kwam later op de avond op Twitter een vogel-determinatie-app ter sprake:

Zoiets bestaat trouwens al voor bomen (in de USA) Leafsnap.
En in NRC van zaterdag 14 januari geeft Folkert Jensma in zijn Recht en Bestuur column een juridische beschouwing over gezichtsherkenning. Boeiend allemaal.

Zoekmachines
Als tweede spreker gaat Wouter Gerritsma van de WUR en VOGIN, in op de ontwikkeling van zoekmachines onder de prikkelende titel: "Instant satisfaction in the library”.
Na een hilarische inleiding waarin hij duidelijk aangeeft dat bibliotheekcatalogi niet meteen een makkelijke toegang tot een full text boek (als voorbeeld The Fourth Paradigm) zijn gaat hij verder over zoekmachines. Hij memoreert de beroemde cursus 'Online opsporen van informatie', waarvan de 67e aflevering uit 2010 op de Vogin wiki is te vinden. Hij laat de - op typemachine getipte aankondiging zien van de Lycos-cursus door Eric Sieverts uit 1995.

Na de komst van Google wordt de Google interface min of meer leidend. Wouter toont dat met al het more en more klikken je ook bij Google nog niet alle Google applicaties kunt vinden. Hij noemt het ´het bibliotheekprobleem van Google´ ook niet altijd instant satisfaction dus. Ook zijn de zoekresultaten bij Google niet erg consistent, afhankelijk van je manier van inloggen, je landenversie etc.
Zo moet het dus ook niet, maar hoe dan wel?

Vinden in tijden van informatieovervloed
Eric Sieverts zelf spreekt over 'Informatie vinden en selecteren in tijden van informatieovervloed'. Een cijferoverzicht: de exponentiele groei van het aantal wetenschappelijke publicaties (iedere 14 jaar een verdubbeling); jaarlijkse verdubbeling van aantal gecoverde pagina's door webzoekmachines (wordt niet meer bijgehouden nu); jaarlijkse verdubbeling van aantal bytes dat iedereen produceert.
Wat betreft wetenschappelijke publicaties wordt een overstap gemaakt naar andere manieren van publiceren zoals op weblogs, nanopublicaties in triples.
SearchEngineWatch, de site waar Eric altijd veel info vandaan haalde is opgehouden met aantal pagina's te tellen.
En als we de infographic van bijv. ReadWriteWeb mogen geloven dan is de hoeveelheid data (bytes) in 2015 gegroeid tot het equivalent van 18 miljoen keer de Library of Congress. [Maar aldus Eric infographic = overtreffende trap van statistics].
Video is het snelst groeiend, al in 2005 was de helft van alle materiaal video, maar als het zo doorgaat in 2210 het aantal bytes bereikt dat netzoveel is als het aantal atomen op aarde.
Zo ver zal het dus wel niet komen....

De ontwikkeling in het online zoeken is van de robuuste online hosts als Dialog naar het bekende, maar onbetrouwbaardere zoeken met Google gelopen. De sociale media, zoals Facebook en Twitter worden steeds belangrijker als zoekingang en ook allerlei vormen van gepersonaliseerd zoeken. Dat levert het gevaar op van de ´filter bubble´ (je krijgt alleen informatie van binnen je eigen club).
[Tijdens mijn verblijf in de USA in de jaren 80 viel het mij al op dat op het platteland daar mensen alleen de lokale sufferdjes lazen en geen 'echte' kranten en ze dus ook nauwelijks weet hadden van 'de wereld en het wereldnieuws'.]
Ook in het literatuuronderzoek is het nodige veranderd: van de gedrukte abstract journals naar het online zoeken. Eric heeft in Utrecht meegeholpen een makkelijke enkelvoudige zoekingang te creëren "Omega", eigenlijk al een discovery service avant la lettre.
En de toekomst: weet in 2020 Google al het antwoord door rechtstreekse koppeling met ons brein?
Grote vraag blijft voor Eric of al deze ontwikkelingen van sneller, beter vindbaar ook hebben bijgedragen aan een betere kwaliteit van het werk?
Zijn lezing over 20 jaar werkzaamheden voor de afdeling Innovatie & Ontwikkeling van de Universiteitsbibliotheek Utrecht laat wel zien dat we 30 turbulente jaren achter de rug hebben, en dat de toekomst nog een open vraag blijft.

Of Eric Sieverts na zijn pensionering stil achter de geraniums kruipt lijkt niet aan de orde gezien zijn recente tweet:

En dat is maar goed ook, we hopen allemaal nog veel van hem te horen en te lezen!

21 dec 2011

Import uit Refworks

En dan probeer ik een bestand uit Refworks te importeren in Endnote.
Dat geeft wel weer de nodige aanpassingen. Uiteindelijk lukt het het beste om het Refworks-bestand te exporteren als 'Tagged Refworks - format'.
Het aardige van zo'n tagged format is dat je een overzicht van de tags erbij krijgt.

Dan het importeren in Endnote volgens het commando File - Import met als optie Refworks-import.
Ik heb wat User-Defined Fields en die staan in het standaard Refworks-importfilter van Endnote op {IGNORE}. Maar daarom heb ik ze niet gemaakt.

Die User-defined Refworks fields wil ik ingelezen hebben in Custom-fields in Endnote.

Het lastige is dat Endnote erg inconsequent omgaat met de custom-fields. In sommige 'reference types' worden die custom-fields doodleuk gebruikt voor andere veldbenamingen. En dan lukt import niet.

Zaak is dus om eerst in Endnote alle reference types zo aan te passen dat de custom-fields ook Custom 1, Custom 2 etc. heten. Dat doe je via Edit - Preferences - Reference types en dan per stuk Modify Reference Type. Achter de gekozen veldnaam moet dan staan hoe die veldnaam in dat document type moet gaan heten (dus Custom 1 = Custom 1).
Er is wel een optie "Apply to all reference types", maar die werkt niet voor die benamingen die al ingevuld zijn, dus daar heb je niets aan.

De tweede stap is om het import-filter aan te passen. Via Edit - Importfilter kies je het Refworks-Importfilter en maakt eerst een kopie.
Je kiest 'Templates' om de matchende velden te bewerken, en dat doe je weer voor ieder reference type. Gelukkig kun je het ook kopiëren en plakken(Ctrl+C en Ctrl+V).

Dan nog in de Field editing aangeven dat ik in Custom 8 geen kleine letters wil en ik kan alles netjes inlezen.

[In Refworks klikte ik weer per ongeluk op Help en in plaats van een helptekst krijg je dan een akelige herenstem die je probeert iets uit te leggen. O gruwel!
Als je in de rechterzijbalk onder Quick Access iets aanklikt en dan op Help krijg je wel een geschreven helptekst, ze kunnen het dus wel en die engerd is helemaal niet nodig.]

9 dec 2011

ICT-termen

Surfmagazine is altijd goed voor een flink aantal nieuwe termen en afkortingen.
In de ICT-wereld gaat het tegenwoordig om IPv6 (de nieuwe generatie internetadressen). Maar het moet behalve snel ook mobiel. Termen als UMTS (telefoonnetwerk met dataverkeer), Wi-Fi (draadloos internet) en LTE (Long term evolution = 4G).
Gelukkig staat Surfnet KPN daarbij terzijde met de overdracht van een aantal IPv4-adressen aan KPN) via RIPE NCC.
In een achtergrondartikel spreekt Surfnet nog over 'consumerization'; 'bottlenecks'en het aanjagen van innovatie'.
Geweldig om te lezen en naar die prachtig sites te surfen en dat op een gewone vrijdagmiddag!

Ook mooi verwoord zijn de nieuwe instellingen voor Surfdiensten waarmee flexibele licenties kunnen worden afgesloten “LMNG speelt in op trends als SaaS en cloud computing”.
Waarbij LMNG staat voor Licentiemodellen Next Generation en SaaS voor Software as a Service. Maar dat laaste begrip is al een tijd langer in omloop. Cloud computing komt weer terug in de column van Jan Bogerd “De cloud dringt binnen” over de constatering dat docenten en studenten steeds vaker gebruik maken van Google Apps en diensten als Dropbox.

Dropbox propageer ik zelf ook, erg handig zo’n share op internet, terwijl ik merk dat de meeste medewerkers er niet mee bekend zijn.
Met Google Apps, niet de individuele maar de zakelijke i.c. educatieve toepassing hebben we binnen KNAW-verband ge-experimenteerd. Je kunt dan inderdaad ook bestanden delen.
Een stapje verder nog gaat het ‘Unified Communications’ programma. UC staat voor e-mail, instant messaging, telefonie en videoconferencing in een. Eigenlijk betekent het het stringent bijhouden van je agenda zodat je optimaal daarvan gebruik kunt maken, m.n. voor HNW (Het Nieuwe werken).
Microsoft heeft een infrastructuur (zonder telefooncentrale) draaiend op Microsoft Office Communications Server, die zal worden opgevolgd door Lync. Bij Surfnet valt het onder 'samenwerkingsinfrastructuur'.
Dat gaat in onze – traditionele – werken-omgeving nog wel lastig worden, daar zelfs het bijhouden van een agenda in Outlook al als moeilijk wordt ervaren, terwijl “het bijhouden van de agenda cruciaal is voor het succes van UC “

5 dec 2011

Metis 2011

Metis is het onderzoeksregistratiesysteem [ofwel een CRIS (= Current Research Information System)]van de universiteiten. Het is ontwikkeld door het Universitair Centrum voor Informatievoorziening van de Radboud Universiteit in Nijmegen en wordt door alle universiteiten gebruikt. Metis is een Oracle databasesysteem dat functioneert samen met Macromedia Coldfusion. En is via Internet te gebruiken. Zie ook de Metis guide (handleiding) en demo (2006).

In oktober 2007 heb ik mijn eerste stukje over Metis geschreven en ik zie nu dat er al veel veranderd is sinds die tijd. Links die niet meer werken, maar ook hele modules en systemen die veranderd zijn. Zo is de Consultatie-module van Metis (de toegangen tot de verschillende Metis-systemen per universiteit) uit de lucht genomen en Dare, het repository-project is nu omgevormd tot NARCIS. In Narcis kun je nog wel een overzicht van de aangesloten repositories vinden. Maar of die allemaal Metis gebruiken weet ik niet.

Metis wordt door de KNAW en ook door andere universiteiten gebruikt als managementinformatiesysteem over de uitkomsten van onderzoek enerzijds en anderzijds als toegangspoort tot de repository. Voor de repository zelf wordt weer aparte software gebruikt.
Het idee van Metis is dat alle onderzoeksinstellingen op uniforme wijze de inzet en de uitkomsten van het onderzoek kunnen rapporteren (aan ministerie). Het gaat dan om cijfers: met zoveel fte personeel kunnen zoveel publicaties, zoveel lezingen, zoveel bezoeken en zoveel overige functies bekleedt worden. Dit alles volgens de definities van het SEP, het standaard evaluatie protocol.
In 2008 heb ik een blogpost over SEP geschreven. Zover ik weet werken nog alle universiteiten met SEP en worden ze eens in de 4-6 jaar gevalueerd aan de hand van SEP. Zie ook de bijgewerkte brochure over het Nederlandse wetenschapssysteem van het ministerie.

Er gaan wel stemmen op om meer te doen aan ´valorisatie´, daar is ook het evaluatievoorstel EriC opgebaseerd, maar echt operationeel is dat (nog) niet. Ook de VSNU heeft op de website wat informatie over valorisatie.

De VSNU heeft ook een aantal definitie-afspraken beschreven, die gehanteert kunnen worden bij het bepalen van de soort gegevens waarop geraportteerd moet worden. De UB van de Universiteit van Maastricht heeft een overzicht gepubliceerd over de Metis-resultaattypen en de relatie met de VSNU-SEP definities.

Metis werkt volgens het datamodel van EuroCris (Cerif)

” Gradually the need for a standard format for interchange of R&D information was seen. The European Commission put together a group of experts nominated by national governments with the purpose to define a Common European Research Information Format (CERIF).”

Op de site van EuroCris is meer informatie over de geschiedenis van CRIS en van dit Cerif-formaat.
Niet alleen Metis werkt op basis van dit Cerif-datamodel ook andere CRIS software, zoals Pure (Deens) en Converis (wordt gebruikt door LUMC e.a. medische universiteiten).

Dus het begint bij de SEP, dat schrijft voor dat de onderzoeksinstellingen moeten rapporteren over wat ze presteren. In de praktijk gaat het over de aantallen: aantallen publicaties, aantal dissertaties , aantal congressen, aantal andere activiteiten.
Die prestaties=activiteiten kunnen per persoon worden geregistreerd in Metis. Metis heeft daartoe een module – Personal Metis – waar een onderzoeker zelf zijn eigen activiteiten : publicaties etc. kan registreren. De onderzoeker heeft een uitgebreide lijst van zogenoemde resultaattypen = soorten activiteiten = waarop hij kan rapporteren. Voor het NIOO hebben we er nu zo’n 20 op een lijstje varierend van “wetenschappelijk tijdschriftartikel” – via “niet wetenschappelijk boekhoofdstuk” en “invited speaker” tot “patent”.
Die jaarlijkse rapportages gebruiken we voor het interne jaarverslag – het Business Report – en voor de cijfermatige rapportage aan de KNAW (die op zijn beurt weer rapporteert aan het ministerie).

Metis heeft naast een Personal Metis per onderzoeker een algemene Data Entry & Control Module, bedoeld voor de institutioneel beheerders.
Met deze beheermodule kan ik als beheerder correcties doorvoeren en namen van medewerkers toevoegen en of aanpassen en daarmee ook accounts beheren.

In een diagram geeft de ontwerper aan hoe het Metis-systeem in elkaar zit en onderling verbonden is. Daarbij zijn de begrippen belangrijk als werkrelatie (hoe is een auteur verbonden methet instituut), onderzoeksactiviteit en onderzoeksbijdrage (bijv. projecten, maar kan ook afdelingscoderingen), organisatieonderdeel (afdeling) en resultaten (resultaattypen, soorten activiteiten).
Het vereist wele en heel ander jargon voor je een beetje vlot met het systeem kunt omgaan. Er zijn ook verschillende soorten classificaties die je kunt gebruiken: VSNU-classificatie, resultaattypen-classificatie en een interne classificatie. Dat maakt het soms erg verwarrend.

Vanuit de beheermodule is het mogelijk om een aantal overzichten te maken m.b.v. verschillende filters. Helaas is het systeem toch een tikje te star om echt mooie overzichten te genereren. We gebruiken de publicatielijsten uit Metis nu wel om – dynamisch – overzichten op onze website te publiceren. Bij iedere publicatie die wordt toegevoegd worden de publicatielijsten op de website aangepast. Dat werkt nu wel heel mooi.
Ook kun je importeren uit Endnote en exporteren naar RIS-formaat. Op dit moment wordt onderzocht of er ook rechtstreeks vanuit Web of Science kan worden geimporteerd.

De KNAW heeft een koppeling tot stand gebracht tussen Metis en de software Eprints. Met Eprints runnen we onze repository. Vanuit Metis kunnen wij, en via Personal Metis kan de onderzoeker zelf ook, de full text van zijn publicatie uploaden en ter beschikking stellen. Uiteraard alleen indien dat is geoorloofd (Open Access).
De metadata voor de full text komt dus uit Metis en wordt in Eprints gekoppeld aan de pdf. We proberen nu ook de ‘green road’ operationeel te krijgen, d.w.z. dat onderzoekers hun definitieve auteursversie (die al is gepeerreviewed, maar nog niet gelayout) kunnen uploaden naar de repository. De publicaties zijn dan onmiddellijk voor eidereen toegankelijk.
De publicaties in de repository worden door Narcis geharvest en op die manier zijn ze te vinden in het overzicht van de Nederlandse wetenschappelijke literatuur.

Omdat het Metis-systeem een jaren negentig software-architectuur kent, waarbij ook nog eens vanuit verschillende kanten input aan gegeven is, wordt het tijd om een ander systeem te gaan gebruiken. Daartoe is de MetisGebruikersgroep overgegaan tot het opstellen van een programma van eisen en een plan van aanpak. Marc Dupuis beschrijft in de Newsletter van de Association for Learning Technology wat er speelt bij de aanbestedings van zo’n nieuw onderzoeksinformatiesysteem, ofwel een CRIS (= Current Research Information System).

Het ziet er evenwel naar uit dat we voorlopig nog wel met Metis blijven werken.

21 nov 2011

Bijeenkomst NVB

Vorig jaar en het jaar daarvoor kon ik drie thema’s onderscheiden bij het jaarcongres van de NVB, vereniging van informatieprofessionals:
- ordening versus serendipity
- sociale media en verwording maatschappij
- imago informatieprofessional

Over serendipity heb ik niets gehoord en de discussie rond het vermeende gevaar van sociale media lijkt ook verstomd, want zelfs de NVB heeft zich verbonden met de Nederlandse Social Media Academie.
Dit jaar was “Een ander vak” nadrukkelijk het centrale thema van het congres.
Veel heb ik over ‘het vak’ niet gehoord behalve (en dan kan ik mijn eigen verslag van 2010 weer citeren):

“Ons vak is een ander vak geworden vlgs Wesseling. Daar ben ik het niet mee eens. De vorm en media zijn anders geworden, de omgeving is sterk verandert door de toepassingen van de moderne technologie en de veranderende maatschappij, maar de essentie is hetzelfde gebleven = toegang geven/faciliteren tot informatie.
Natuurlijk moet je als informatieprofessional, maar in welk vak niet, meegaan met je tijd en gebruik maken van nieuwe mogelijkheden, zo ook van de mogelijkheden die de sociale media bieden. “

De track “Het vak: Opleidingen onder de loep: wat moet er gebeuren om ‘het vak’ aan te passen aan de eisen van deze tijd?” heb ik niet gevolgd. Van Anneke Dirkx die die track wel volgde hoord ik de kreet KID-manager (kennis – info – data). Zij suggereerde ook dat de NVB meer zou moeten doen aan IP-branding, en daar ben ik het wel mee eens.
Overigens hoorde ik uit de Track “Happe.ning Bibliotheek 2.0” nog de kreet ‘embedded librarian’ , van Bert Huizing - waarschijnlijk overgenomen van de ‘clinical librarian’ maar dan ook voor andere dan medische omgevingen. Maar ook die track heb ik niet gevolgd.
Dat een sterkere ´branding´van het vak Informatie Professional noodzakelijk is bleek ook uit het plenaire debat, dat gevoerd werd door Marleen Stikker van Waag Society , Geert Loving(Institute of Network Cultures) en Stine Jensen (auteur) onder leiding van Pieter-Jan Hagens. Geen van deze vier personen had blijkbaar een duidelijk beeld van de doelgroep waarvoor zij optraden. Dat leidde tot een tamelijk gratuit debatje over zoeken en de macht van Google. Een dappere deelnemer uit de zaal probeerde het tij te keren, maar werd door een verkeerde woordkeuze (hyvesvrouwen) min of meer weggehoond.
Overigens had Marleen Stikker in haar 10-minuten praatje het over ‘open data’ en de motieven daarvoor: democratie, efficiency, innovatie, leefklimaat. Het zou open by default moeten zijn. Marleen referereert aan appsvoornederland.nl waarmee de overheid open data aan de burgers wil brengen. Toch wel interessant. 2 van de panelleden hebben De Digitale Stad als achtergrond. Omdat ik dat als dds-bewoner van het eerste uur interessanter vond dan debat heb ik wat rond zitten neuzen naar de geschiedenis van DDS en vond een aardig achtergrondartikel.

Er hadden zich 1100 mensen ingeschreven voor het congres en op de deelnemerslijst (die ik overigens niet van de organisatie, maar onderhands heb ontvangen) kon ik zien dat ze bijna allemaal een werkgever hebben. De crisis lijkt wat dat betreft toch niet zo erg. Ook tijdens de ochtendkoffie kreeg ik een beeld van een tamelijk stevige positie van de bibliotheek: in een ziekenhuis zijn de arts-assistenten verplicht om een CAT (Critical Appraised Topic) op te stellen Een CAT probeert zich toe te spitsen op één duidelijk geformuleerde, liefst enkelvoudige vraag en vervolgens wordt geprobeerd om aan de hand van de literatuur daar een evidence based antwoord op te vinden. De rol van de bibliotheek is daarbij van cruciaal belang(ook een ‘embedded’soort werk).

Na de pauze heb ik de Track `Web 3.0`gevolgd over het semantisch web en linked open data. Vaag herinnerde ik me dat ik ooit met bewondering een presentatie heb bijgewoond, waarbij ook het Semantisch Web ter sprake kwam. Tijdens het congres kon ik het me niet meer herinneren, maar na wat pogingen weet ik het weer. Het was in september 2004 tijdens het EAHIL congres in Santander. Daar sprak Les Grivell, destijds van EMBL ( European Molecular Biology Organization’ over ´Fingerprinting metadata´. Of om de hele titel te citeren `Conceptual fingerprinting as both a literature discovery tool and a means of semantic interlinkage of bibliographic, sequence and image databases`. Er was ook een Continuing Education Course over RDF en Semantic web van Benoit Thirion en Ioana Robu ‘Structuring the information on the Internet: the Dublin Core metadata, RDF and the Semantic Web’. In het archief van BIOMEDCentral is ook nog een interview met Les Grivell te lezen over het ‘fingerprinting the literature’. Les Grivell was destijds projectleider van het E-BioSci project, dat in 2005 is afgesloten en waaruit nog steeds CiteXplore Literature searching bestaat: een andere manier van (biomedische) literatuurzoeken. Ik meen dat hij destijds gebruik maakte van Collexis software, inmiddels door Elsevier overgenomen.
Kortom, Web 3.0-semantisch web is voor mij niet zo nieuw als het wellicht op het eerste gezicht aandoet. En niet alleen voor mij, bleek, maar voor het merendeel van de aanwezigen. Daarop had Ivo Zandhuis, die de discussies leidde zich verkeken, want hij had een langzame introductie bedacht, die helaas uitliep op een wat moeizame start en daarna, helaas voor track-switchers, een omgooien van het programma.

Edgar Meij geeft een helder verslag van zijn onderzoek naar ‘Semantic Search’: de ontwikkelingen in de information retrieval. Hij is vorig jaar daarop gepromoveerd aan de UvA “Combining Concepts and Language Models for Information Access” en blogt erover op zijn website.
Hij laat zien hoe het zoeken veranderd is, en hoe de problemen die op dit moment spelen niet zozeer computationeel van aard zijn. Het gaat er meer om te proberen te begrijpen/modelleren van de emnselijke cognitie en zo een dieper begrip te krijgen voor queries en content. Hoe hangen de zaken met elkaar samen. Wat kun je als zoekmachine uit de semantiek van de zoekvragen halen, wat niet letterlijk in de bewoordingen staat: ‘het nieuwe zoeken’ maakt gebruik van aggregatie, analyse en voorspellingen, semantische profielen, semantische queries & log analyse, en meer complexere taken.
Combinatie van document-zoeken en data-zoeken met behulp van een zoekparadigma dat structuur/semantiek gebruikt om de intentie van de gebruiker weer te geven.
- Leuke termen: Begrijpen van queries ‘snap to grid’ en interface en interactie: adaptief of met ‘rich snippets’. Semantisch web = delen van data in de vorm van linked data en rda.
Uit een onderzoek naar RDFa,(or Resource Description Framework – in – attributes) blijkt dat al eenderde van alle webpagina’s metadata in RDFa heeft, zoals de Open Graph protocol van Facebook = like
rNews standaard datamodel voor semantisch markup van nieuws sites RDFa. Schema.org =gestandaardizeerde RDFa van zoekmachines
DHZ: fietstas-project tekst-analyse op basis van ANP-berichten: kennisbeheer en kennisindeling – thesaurus structuur (die moet ik nog eens nakijken).

Wat mij betreft was Edgar Meij de held van de dag!

De track Web 3.0 had verder nog 2 praktische presentaties: Lukas Koster van UvA over de verrijking van de catalogus met linked open data.
Linked Data gaat over het verbinden van onderdelen met elkaar over het web, d.m.v. URI’s(Uniform Resource Identifiers) en de triples (subject, predicaat, object) volgens een standaard RDF (Resource Description Framework). Lukas gaat in op de geschiedenis, Tim Berners-Lee in een TED-lezing in 2009 en Dbpedia (de beruchte wolk –linked open data cloud). Voor het eerst heb ik van linked data gehoord op 11 december 2009 tijdens de SURF-bijeenkomst Advanced Services for Researchers van Frank van Harmelen en daarna nogmaals tijdens de Emtacl in Trondheim.
Het aardige van de presentatie van Lukas is dat hij probeerde het heel praktisch te houden, door in te gaan hoe je in de praktijk bijv. links zou kunnen leggen in de catalogus naar andere stukjes informatie over hetzelfde onderwerp. Zijn presentatie is te lezen op Slideshare, waar ook zijn duidelijke uitleg over de principes van linked data staan. Hij maakt gebruik van de standaard van Bibliographic Ontology Specification voor het bibliografisch beschrijven van referenties voor het semantisch web.
Een van de linked data opties is om het traditioneel catalogiseren te verrijken met andere FRBR-expressies en manifestaties. De FRBR (Functional Requirements for Bibliographic Records) is het entiteiten-relatiemodel voor titelschrijvingen van de IFLA uit 1998.

Wat is er nodig om wereldwijd gebruik te kunnen maken van Linked Cataloguing?:
- Wereldwijd gedeelde metadat opslag(plaatsen)
- Mondiale autorisatie bestanden (namen bijv.)
- Open catalogiseersystemen
- Linken met URIs moet worden ondersteund

Lukas heeft een proefproject gedaan met het Theater Instituut, waarbij allerlei gegevensover theaterproducties uit verschillende bronnen gelinkt worden. De problemen die ze daarbij tegenkwamen hadden vrnl. betrekking op het niet-uitwisselbare formaat van de opgeslagen gegevens (verschillende catalogussystemen, geen centrale ‘work’ beschrijving, maar alleen specifieke ‘manifestaties’ en problemen met matchen van tekst en copyright.)
Wat er nodig is is dat bibliotheken hun gegevens als open data publiceren en dat bibliotheeksystemen op een uitwisselbare manier hun gegevens opslaan.
Het kenniscentrum Digitaal Erfgoed Nederland publiceert een handleiding over het publiceren van open linked data.
Voorlopig adviseert Lukas af te wachten wat voor keuze de Library of Congress gaat maken nu zij besloten hebben af te stappen van Marc en over te gaan op linked data.

Dan is het de beurt aan IDM studenten van Klaas Jan Mollema met een presentatie van een project met gegevens van NCB Naturalis.
De studenten hebben een database gebouwd in RNAToolset m.b.v. Darwin Core metadata en onderdelen gelinkt met andere databases. Ze hebben daarvoor gebruik gemaakt van Trezorix software. Trezorix is een verzelfstandiging van de automatiseringsafdeling van Naturalis. Ze hebben veel tijd besteeed aan het maken van indelingen en het (handmatig) converteren van Excel-bestanden. De toegevoegde waarde hiervan is me niet geheel duidelijk. Wat ze hebben laten zien had m.i. ook een normale MS Access database kunnen zijn.
Schattig is wel dat ze zeiden dat ze zich IT-ers voelden. Duidelijk is wel dat er nog wat geleerd moet worden, ook als ze uiteindelijk toch IP-ers worden:)

Alles bij elkaar was het weer een leuke en leerzame bijeenkomst. Veel mensen gesproken en in een goede sfeer samen gezeten. Jammer is wel dat van het IP-branding nog niet veel terecht komt. Van de tijdens het jaarcongres 2009 aangekondigde Taskforce (TACIS, Taskforce Arberidsmarktcampagne Informatiespecialisten)heb ik ook nooit meer wat vernomen. Daar ligt toch nog een taak.

Tevreden terug op de fiets naar mijn Wageningse appartement.

16 nov 2011

Gelezen in 2009/2010

Overzicht van mijn 'gelezen' lijst voor 2009 en 2010: (voor 2008 zie voorgaand verslag)
**

Lanting, Menno. Connect!: de impact van sociale netwerken op organisaties en leiderschap. Amsterdam [etc.]: Business Contact, 2010.
**
*Chris Anderson .Free: The long tail: Hoe het nieuwe Gratis de markt radicaal verandert . Nieuw Amsterdam, 2009. http://lifehacking.nl/algemeen/free-artikel/ (Gratis e-book)
**
*Darwin, Charles, and Fieke Lakmaker. De autobiografie van Charles Darwin, 1809-1882: de oorspronkelijke versie. Amsterdam: Nieuwezijds, 2008.
Nuchter en helder geschreven overzicht van zijn leven en werk. Zie mijn logje met opmerkelijke uitspraken.
**
* Volledig communicatiegeorienteerde informatiemodellering FCO-IM, met bijbehorende case-tool. / door Guido Bakema, Jan Pieter Zwart en Harm van der Lek. Academic Service, 2005. ISBN 9039524181
FCO-IM is de facto standaard voor databaseontwerp.FCO-IM staat voor Fully Communication Oriented Information Modelling. Dit is een leerboek met opdrachten, voorbeelden en tips. FCO-IM is opvolger van NIAM (Natuurlijke taal Informatie Analyse Methode). Ook de FCO-Im -informatiegrammatica maakt gebruik van natuurlijke taal zinnen. Het classificeren (indelen in groepen) en kwalificeren (betekenisvolle naamgeving) moet identificeerbare en redundantievrije objectbeschrijvingen opleveren. In het Informatiegrammaticadiagram worden de verschillende tyoen in hun onderlinge samenhang getoond. Het gaat om feittypen, labeltypen, objecttypen, feittypeexpressies en objecttype-expressies. Hoewel op het eerste gezicht sommige begrippen wat moeilijk overkomen is het geheel helder uiteengezet.
**
* Budd, J. (2008). Self-examination: The present and future of librarianship. Westport, Conn: Libraries Unlimited.
John Budd schrijft in een lange monoloog zijn visie op de wereld, waarbij ook bibliotheken aan bod komen. Op de achterflap staat : "Through intellectually rich and engaging entrees into ethics, democracy, social responsability, governance and globalization ..."e ja, die onderwerpen zijn allemaal voorbijgekomen in dit 281 pagina's tellende boekwerk. Als hij de 7 hoofdstukken ieder in 2 Aviertjes had weten te pakken was hij wat mij betreft"een 'Meister' geweest. Nu is het voornamelijk gefilosofeer en offshow van wat hij allemaal kan citeren. De toekomst van de bibliotheek ben ik er niet tegengekomen.
**
* De draagbare lichtheid van het bestaan: het alledaagse gezicht van de informatiesamenleving / onder red. van Valerie Frissen en Jos de Mul. Kampen, Uitgeverij Klement, 2008. ISBN 9789086870301
Bundel essays, van een aantal, jonge, onderzoekers die berichten over de relatie technologie en samenleving. Uitgangspunt is dat dagelijkse, triviale en soms onvoorspelbare praktijken van de gebruikers de loop van de technologie en de vorm van de informatiesamenleving bepalen. Het gaat over de 'bricoleurs'i.t.t. íngenieurs', een antropologische benadering van triviale telefoongesprekken, ambient intelligence, de technologische toekomstvisie en de emancipatie van de gebruiker. Gadgets maken het leven misschien niet draaglijker, maar zeker wel draagbaarder, is de slotconclusie.

**
* De snavel van de vink: evolutie op heterdaad betrapt / door Jonathan Weiner. Contact, 1994. ISBN 90 25406157. Vert. van The beak of the finch: a story of evolution in our time.
Uitleg over het voortgaande proces van natuurlijke selectie. Met als voorbeeld de evolutionaire aanpassing van Darwin-vinken op de Galapagoseilanden, wordt helder uitgelegd wat evolutie is.
**
* Het nieuwe werken: op weg naar een productieve kenniseconomie / door Dik Bijl. Den Haag, Academic Service, 2007. ICT bibliotheek. ISBN 9789012119481
Het nieuwe werken, een door Microsoft in 2005 beschreven concept voor verhoging vasn de productiviteit van de individuele kenniswerker. Uitgaande van de factor 4 index met als hoofdcategorieen technologie, organisatie, cultuur en inspiratie wordt de werknemer persoonlijk aangesproken op zijn werkhouding. Werkplek aanpassing, flexplekken en werken kan overal, en werktijd aanpassing, geen 9-5, maar altijd en overal tussendoor. Boekje leest lekker weg.
**
* Iedereen : hoe digitale netwerken onze contacten, samenwerking en organsiaties veranderen. / door Clay Shirky. Business Contact, 2008 ISBN 9789047000808. Vert van 'Here comes everybody'
Gemakkelijk leesbaar boek over de sociaal-psychologische veranderingen, die mogelijk zijn geworden door toepassing van Internetapplicaties.

Bijeenkomst 11 november van het Onderzoeksdataforum

Het Surfshare programma eindigt dit en zal worden afgesloten met de SURF Onderzoeksdag op 9 februari 2012 in Media Plaza in Utrecht.

“Met het SURFshare-programma wil SURFoundation een gemeenschappelijke infrastructuur realiseren die de toegankelijkheid èn de uitwisseling van onderzoeksinformatie bevordert.”

Maar het Onderzoeksdataforum blijft bestaan.

Deze bijeenkomst zal worden besteedt aan 2 nieuwe rapporten: het Witboek dataprofessionals en de rapportage Podium Plus.
Daarna zal Bram van de Werf dieper ingaan op metadata.

De werkgroep Datastewardship van het Onderzoeksdataforum (waar ik zelf deel van heb uitgemaakt) heeft een witboek geschreven over het beroep dataprofessional. De werkgroep doet verschillende aanbevelingen in het Witboek Dataprofessionals in Nederland. Rob Grim voorzitter van de werkgroep geeft een nadere toelichting op het Witboek en neemt de aanbevelingen door.
Het Witboek Dataprofessionals geeft een overzicht van de datamanagement-ondersteuning bij 3 onderzoeksinstellingen NIOO, TUD, UvT
Rob geeft in het kort zijn impressie over de drie organisaties:
NIOO: afspraken over workflow – kwaliteit van dataverzameling – koppeling publicaties
TUD: permanente toegankelijkheid – veel DIY – registratie ws output
UvT: ondersteuning domein experts – lokaal naar centraal – geen opslag cultuur

De werkgroep is in 2009 gestart met het opstellen van “terms of reference:: een afbakening tot het profiel/ de competenties van ondersteuners van onderzoekers
Er wordt ingegaan op de rol van de dataprofessional in drie fasen van onderzoek: voorbereiding, uitvoering, evaluatie.
De aanpak is een literatuuronderzoek, gevolgd door een case studie bij ieder van de drie deelnemende instellingen d.m.v. interviews met onderzoekers, om te kunnen beschrijven wat de algemene knelpunten zijn en wat voor ondersteuning zij nodig hebben.
Datamanagement onderscheiden we in drie groepen: data-archivering, metadata, digitale duurzaamheid.
Uit literatuur komen vier belangrijke vaardigheden voor dataprofessional naar voren: data-archivering, softskills, kennis van wetenschappelijk onderzoek(smethoden), ict-skills.

- Rob verwijst hier ook naar de presentatie van Youngseek Kim tijdens de 6th International Data Curation Day over ‘Education for eScience professionals”.
Overigens ook aardig om te lezen is de masterscriptie De Datalibrarian in Nederland van J. Puttenstein, die in algemene zin schets hoe de situatie bij de Nederlandse Universiteiten is.-

Wat zijn de aanbevelingen:
Er moet training en opleiding worden aangeboden, niet alleen voor ondersteuners, maar ook voor onderzoekers zelf, specifiek maar ook een algemene basis voor alle wetenschappen.

Verder kan gekeken worden naar: UFO-profielen, GO-opleidingen, op maat trainingen, docenten, bijv. in overleg met eScience center.

Vervolgens kwam Paulien Wiersma over project PodiumPlus mogelijkheden tot data-opslag mbv Dataverse

Ervaringen met open source programma Dataverse (Harvard) en ervaringen met samenwerking met andere universiteiten. Er is nu een officiële dienst van Universiteit Utrecht, hosting bij Vancis (Sara dochter), en is nu een openbaar netwerk.
De metadata wordt geharvest door Harvard DataVerse: met federatieve inlog. Het is bedoeld voor middellange termijn opslag met koppeling naar DANS via SWORD protocol.
In het project heeft Paulien de licentievoorwaarden Dataverse vergeleken met DANS en 3TUD, en ook een vergelijking van de metadata en formaten.
Bijvoorbeeld nu vanwege de NWO-verplichting om data op te slaan daardoor komen er toch meer mensen naar DVN. Zie het als voorportaal., lokale variant van Harvard DataVerse
Grote machine gegenereerde data past er niet in, maar het werkt snel: onderzoekers krijgen meteen een URL – persistente handle.

Na de thee geeft Bram van de Werf een presentatie over ‘Metadata en sustainability”. Bram is directeur van Open Planets Foundation over metadata en duurzaamheid bij lange termijn opslag van onderzoeksgegevens. Voorheen bemoeide hij zich met Europeana. Europeana heeft ook een Toughtlab waarin ze een aantal tools voor het verrijken van metadata tonen Europeana is oorspronkelijk ook bedoeld als metadata-project.
Ipv preservation praten over lange termijn toegang.
Er is te snel overgestapt op het omzetten – normaliseren – van data- bits. Daar is niet genoeg over nagedacht, aldus Bram. Metadataschema’s zijn niet zo belangrijk als er maar over nagedacht is en het kan interopereren met anderen. Hoe beter de metadata hoe beter de objecten gebruik gaan worden”.
Met de community onderzoeken van de technische metadata, niet bij ingest (want dan creëer je een bottleneck), maar maak een enrichment layer in je repository en gebruik/ontwikkel tools om de metadata daar te verrijken. vd Werf ziet veel in het verrijken van de metadata door in de repository de hiaten in de technische metadata op te sporen

Gebruik is de sleutel, kijk naar de requirements en use cases, die gebruikt kunnen worden voor data mining en data modelling

Het Planets project, waaruit de Open Planets Foundation voorkomt had als ambitie het opzetten comptetentiecentrum waaruit de lidstaten dan kunnen putten (voor diensten en expertise).

Tijdens de discussie aan het slot van de middag bleek de centrale vraag “ Wat is noodzakelijk om de data te hergebruiken”.
Vaak is het heel moeilijk om data geschikt te maken voor meerdere functies bijv.voor omzetten in Narcis en KB etc. Beginnen met Basale ontsluiting en daarna discipline specifieke metadata toevoegen.

Pagina's