15 jan. 2012

Afscheidssymposium Eric Sieverts

Vrijdag 13 januari 2012 werd in het Kohnstammhuis (voormalige gebouw van de Amsterdamse Belastingen, nu HvA) het afscheidssymposium gehouden ter gelegenheid van de pensionering van Eric Sieverts.
Vanuit de zaal op de 9e verdieping heb je een prachtig uitzicht over het bouwterrein van waar eerst het Wibauthuis stond aan de andere kant van de Wibautstraat. En aan de andere kant kijk je richting Amstel en de torens van het Rijksmuseum.
Eric Sieverts, werkzaam bij de Universiteitsbibliotheek Utrecht en de Hogeschool van Amsterdam heeft zich ontwikkeld tot dè zoekspecialist van Nederland. Hij werkte mee aan de Vogin-cursus ‘Online opsporen van informatie’, waarvan ik een aflevering heb gevolgd in 1990, maar die nog steeds ge-update wordt en wordt gegeven. Eric is ook bekend geworden van zijn columns in de Informatieprofessional, het vakblad voor bibliothecarissen en mensen die in de informatiesector werken.
Het symposium met als thema “Op zoek naar de toekomst; wat 30 jaar ervaring over de volgende 30 jaar kan zeggen" trok een volle zaal.
Er werden drie lezingen gehouden: Cees Snoek over beeldretrieval, Wouter Gerritsma over zoekmachines en Eric Sieverts zelf over het vinden van informatie. Daarna de afscheidstoespraakjes en felicitaties. Het geheel eindigde met een borrel en lichtkransjes voor de gasten.
Eric kreeg een digitaal gastenboek aangeboden waarin de gasten ieder een blogtekstje hadden kunnen schrijven ter herinnering.

Beeldretrieval
De toekomst van het zoeken duidt al enigszins op andere manieren van zoeken, dus niet alleen maar tekst, maar ook beeld. Cees Snoek, medewerker aan het Instituut voor Informatica van de UvA doet onderzoek naar video en beeld retrieval, zoals hij op zijn website aangeeft. Probleem bij het zoeken naar beelden begint al bij het labelen (beschrijving of typering van de herkenningspunten) van beelden. Een mens ziet meteen een aantal kenmerken op een afbeelding, maar voor een computer is dat lastig. Het eenvoudigste niveau om beelden te benoemen is door ‘concept detection’. Je geeft de computer een aantal voorbeelden en die ‘leert’dan het concept te herkennen. De kenmerken zijn op het gebied van kleur, textuur, vorm en beweging, Die kenmerken moeten ‘invariant’zijn, dus niet door toevalligheden veranderen (zoals schaduw). Snoek toont een grafiek, waarin hij aangeeft dat de waarschijnlijkheid op goede match berekend kan worden met een Support Vector Machine in 1995 uitgevonden door Vladimir Vapnik. [Als je dat in wikipedia opzoekt kom je op een pagina met voor niet-wiskundige tamelijke ingewikkelde formules].
Voorheen maakte idereen gebruik van eigen datasets, maar sinds 2001 is er TRECVID, dat datasets levert die iedereen kan gebruiken. Het uit de wereld van de information retrieval bekende TREC systeem zorgt voor uitdagingen en probleemstellingen die in een jaarlijkse conferentie bestaande uit workshops aan elkaar worden getoetst. Zo kan het onderzoek snel voortgang boeken.
Een van de uitdagingen van TRECVID, waaraan hij met Media Mill, semantic video search engine, deelneemt is dat naar video indexing, methoden om multimedia te analyseren. In een demo laat hij zien hoe dat in zijn werk gaat. Fascinerend om te zien, dat de computer sommige beelden wel herkent en goed indeelt en andere niet. Maar van de fouten kan ook de computer leren.
Bijvoorbeeld. De zoekmachine heeft door voorbeelden ‘geleerd’ wat een boot is (blauw vlak met gat) en kan zo in de zoekopdracht voor boot, de diverse plaatjes met een boot eruithalen. Als fout ook booreiland, auto in ondergelopen straat.
Ook de andere voorbeelden die hij aanstipt spreken tot de verbeelding, bijv. vergelijk alle foto’s op Flickr met tags en besluit op basis van gemeenschappelijke tags tot een gemeenschappelijk trefwoord. En ook het crowdsourcing door publiek online concerten te laten ‘taggen’.
Er zit hier zeker nog wat in het vat voor de toekomst.

Toevalligerwijs kwam later op de avond op Twitter een vogel-determinatie-app ter sprake:

Zoiets bestaat trouwens al voor bomen (in de USA) Leafsnap.
En in NRC van zaterdag 14 januari geeft Folkert Jensma in zijn Recht en Bestuur column een juridische beschouwing over gezichtsherkenning. Boeiend allemaal.

Zoekmachines
Als tweede spreker gaat Wouter Gerritsma van de WUR en VOGIN, in op de ontwikkeling van zoekmachines onder de prikkelende titel: "Instant satisfaction in the library”.
Na een hilarische inleiding waarin hij duidelijk aangeeft dat bibliotheekcatalogi niet meteen een makkelijke toegang tot een full text boek (als voorbeeld The Fourth Paradigm) zijn gaat hij verder over zoekmachines. Hij memoreert de beroemde cursus 'Online opsporen van informatie', waarvan de 67e aflevering uit 2010 op de Vogin wiki is te vinden. Hij laat de - op typemachine getipte aankondiging zien van de Lycos-cursus door Eric Sieverts uit 1995.

Na de komst van Google wordt de Google interface min of meer leidend. Wouter toont dat met al het more en more klikken je ook bij Google nog niet alle Google applicaties kunt vinden. Hij noemt het ´het bibliotheekprobleem van Google´ ook niet altijd instant satisfaction dus. Ook zijn de zoekresultaten bij Google niet erg consistent, afhankelijk van je manier van inloggen, je landenversie etc.
Zo moet het dus ook niet, maar hoe dan wel?


Vinden in tijden van informatieovervloed
Eric Sieverts zelf spreekt over 'Informatie vinden en selecteren in tijden van informatieovervloed'. Een cijferoverzicht: de exponentiele groei van het aantal wetenschappelijke publicaties (iedere 14 jaar een verdubbeling); jaarlijkse verdubbeling van aantal gecoverde pagina's door webzoekmachines (wordt niet meer bijgehouden nu); jaarlijkse verdubbeling van aantal bytes dat iedereen produceert.
Wat betreft wetenschappelijke publicaties wordt een overstap gemaakt naar andere manieren van publiceren zoals op weblogs, nanopublicaties in triples.
SearchEngineWatch, de site waar Eric altijd veel info vandaan haalde is opgehouden met aantal pagina's te tellen.
En als we de infographic van bijv. ReadWriteWeb mogen geloven dan is de hoeveelheid data (bytes) in 2015 gegroeid tot het equivalent van 18 miljoen keer de Library of Congress. [Maar aldus Eric infographic = overtreffende trap van statistics].
Video is het snelst groeiend, al in 2005 was de helft van alle materiaal video, maar als het zo doorgaat in 2210 het aantal bytes bereikt dat netzoveel is als het aantal atomen op aarde.
Zo ver zal het dus wel niet komen....

De ontwikkeling in het online zoeken is van de robuuste online hosts als Dialog naar het bekende, maar onbetrouwbaardere zoeken met Google gelopen. De sociale media, zoals Facebook en Twitter worden steeds belangrijker als zoekingang en ook allerlei vormen van gepersonaliseerd zoeken. Dat levert het gevaar op van de ´filter bubble´ (je krijgt alleen informatie van binnen je eigen club).
[Tijdens mijn verblijf in de USA in de jaren 80 viel het mij al op dat op het platteland daar mensen alleen de lokale sufferdjes lazen en geen 'echte' kranten en ze dus ook nauwelijks weet hadden van 'de wereld en het wereldnieuws'.]
Ook in het literatuuronderzoek is het nodige veranderd: van de gedrukte abstract journals naar het online zoeken. Eric heeft in Utrecht meegeholpen een makkelijke enkelvoudige zoekingang te creëren "Omega", eigenlijk al een discovery service avant la lettre.
En de toekomst: weet in 2020 Google al het antwoord door rechtstreekse koppeling met ons brein?
Grote vraag blijft voor Eric of al deze ontwikkelingen van sneller, beter vindbaar ook hebben bijgedragen aan een betere kwaliteit van het werk?
Zijn lezing over 20 jaar werkzaamheden voor de afdeling Innovatie & Ontwikkeling van de Universiteitsbibliotheek Utrecht laat wel zien dat we 30 turbulente jaren achter de rug hebben, en dat de toekomst nog een open vraag blijft.

Of Eric Sieverts na zijn pensionering stil achter de geraniums kruipt lijkt niet aan de orde gezien zijn recente tweet:




En dat is maar goed ook, we hopen allemaal nog veel van hem te horen en te lezen!