2e dag: over spreadsheets en relationele databases.
De voordelen en de nadelen.Spreadsheets zijn oorspronkelijk gemaakt om cijfermatig materiaal te kunnen bewerken. Er zijn veel voordelen (gebruiksgemak en celgebaseerd), maar ook nadelen (herhaling, bovenste rij limiet, kwetsbaar bij zoeken en sorteren).
Een relationele database heeft die nadelen niet, maar is weer moeilijke in aanmaak en gebruik.
[Excel 2007 zou de beperking tot 65.000 records niet hebben, maar verhoogd tot 1 miljoen en 16.000 kolommen].
Er zijn wel een aantal gevaren bij het gebruik, zoals het isolatie van bestanden, bestanden kunnen incompleet, inconsistent en verspreid raken. Maar de conclusie is dat een relationele databank beter is voor het opslaan van data op een geïntegreerde manier, maar belangrijker dan het dataformaat is de aanwezigheid van informatie/metadata.
* Als je spreadsheets gebruikt zorg er dan voor dat het eerste werkblad je metadata bevat.
* Stel je gegevens zo op dat ze bijv. door statistisch programma gebruikt kunnen worden
* Ruwe gegevens en bewerkte gegeven altijd in aparte werkbladen.
Juist omdat eht zo gemakkelijk te bewerken is kun je ook makkelijk fouten maken.
Relationele databases. Definities uit het Computerwoordenboek: " Een complexe toepassing waarmee databases kunnen worden gemaakt, georganiseerd en bewerkt, waarmee gegevens in een door de gebruiker opgegeven selectie kunnen worden getoond en waarmee in sommige gevallen opgemaakte rapporten kunnen worden afgedrukt. Bekende voorbeelden zijn Oracle, Sybase en Informix.".
ook Wikipedia geeft een overzichtje van relatione datasystemen. De Nederlandse versie geeft een beknopte beschrijving en een onduidelijke verwijzing naar het boek van E.F. Codd: The relational model for database management (versie 2 uit 1990). De Engelse Wikipedia is uitgebreider en geeft ook een verwijzing naar de originele Codd uit 1970 in de Communications of ACCM (getiteld "A relational model of data for large shared data banks").
Access is volgens onze docent het meest klantvriendelijke, maar bij grotere bestanden (meer dan 1GB) kun je beter over op SQL (aparte installatie nodig). Er is ook een Open Office variant genaamd BASE, maar die kan nog niet wast Access kan.
Je hebt tabellen (de entitties) met velden (attributen) en relaties tussen tabellen (via de unieke keyfields).
De velden zijn de kolommen in de tabel en worden gedefinieerd met een Naam, Beschrijving en een Datatype.
Wat relaties betreft zijn eigenlijk alleen de 'one-to-many' relaties te behandelen. Een 'one-to-one' wordt gezien als een entity, en een ' many-to-many' gaat via een tussentabel van 'one-to-many' .
Referentiele integriteit is belangrijk, als voorbeeld wordt gegeven dat er geen soort (species) kan zijn zonder genus. In Access kun je die relatie afdwingen.
Met Queries kun je de de databank bevragen, updaten en elementen verwijderen.
Een goed ontwerp zal voorkomen dat er verdubbelingen in data optreden, niet bestaande en niet gevulde velden (nul-records).
Waarom zou je een relationele database gebruiken:
1. foutenvrije gegevens opslag is essentieel voor goede wetenschap
2. combinatie van gegevens is mogelijk
3. berekeningen en analyses zijn geïntegreerd
Ecologische databanken bestaan vaak uit gegevens uit veldonderzoek (monsters en waarnemingen) en/of experimenten. Metadata is belangrijk: wat, waar, wanneer en hoe moet geregistreerd zijn en in de datasheets kunnen de waarden en de links.
Een zware ochtend met veel theorie, maar dan is er weer tijd voor praktische oefeningen.
Weblog over mijn werk als informatiespecialist bij het Nederlands Instituut voor Ecologie (NIOO-KNAW).
3 jul 2008
Workshop Spreadsheets en Databases
Abonneren op:
Reacties posten (Atom)
Geen opmerkingen:
Een reactie posten