Finnish Museum of Natural History Museum websites

GBIF IPT versio 2 on nyt käytettävissä tietoaineistojen julkistamiseen

Tämä kuvaus on päivitetty 2011-03-11 IPT versiolle 2.

Mikä on IPT?

IPT tulee sanoista GBIF Integrated Publishing Toolkit. Sen avulla tietoaineiston haltija voi tehdä aineistonsa helposti saataville GBIF-verkostossa. IPT tarjoaa standardoidun OAI-PMH rajapinnan, joten se sopii periaatteessa liittymiseen myös muihin verkostoihin, kuten meillä Kansalliseen Digitaaliseen Kirjastoon [linkki].  Ohjelmisto on yleensä valmiiksi asennettuna ja löytyy esim. Suomen GBIF-solmun tarjoamana palveluna [linkki].  Kaikkien tutkimuslaitosten ja museoiden kannattaa kuitenkin harkita sen asentamista omalle palvelimelleen.  Lisätietoja.

Millaisille aineistoille IPT sopii?

IPT sopii parhaiten esim. Excelissä ja Accessissa tiedostomuodossa säilytetyille pienille tai jollakin tavalla henkilökohtaisille aineistoille, jotka eivät muutu kovin usein. Suuret laitosten yhteiskäyttöiset, jatkuvasti muuttuvat tietokannat, joihin tahdotaan tehdä hakuja yksittäisten tietueiden noutamiseksi sopivat paremmin ehkä julkistettavaksi TAPIRlink-ohjelmistolla. IPT tukee siis kokonaisten tietoaineistojen "haravointia" kerralla, mutta ei yksittäisien tietueiden hakua.

Aineiston tulee olla kokoelma- tai havaintodataa.  Joka rivillä on yksi yksilö tai lajihavainto ja siinä on sellaisia kenttiä kuin tieteellinen lajinimi, paikka, koordinaatit, aika, havaitsija/kerääjä, määrittäjä, jne.

Tiedoston muokkaaminen sopivaksi

Tässä on kaksi vaihtoehtoa: 1) otetaan omasta tietokannasta aineisto tiedostoon, tai 2) kytekydytään suoraan omaan tietokantaan, jossa on vastaava taulu tai tauluja.

1) Excelistä, Accessista tai muusta tietokannasta aineisto otetaan ulos Export-toiminnolla ja talletetaan tab-separated CSV tai TXT -tiedostoksi.  Merkistö on UTF-8. Merkkijonoa rajoittavia "ripsiä" kuten tässä ei välttämättä tarvita, mutta ne saavat olla. Ensimmäisellä rivillä on hyvä olla kenttien nimet.

2) Toinen vaihtoehto on kytkeä IPT suoraan omaan tietokantaan, esim. MySQL, SQL Server, jne.

Molemmissa em. tapauksissa kenttien nimet "mapataan" IPT:ssä vastaamaan Darwin Core-standardia. Tämä tapahtuu automaattisesti, jos ne ovat tiedostossa tai tietokannassa jo valmiina. Muussa tapauksessa vastaavuudet on kerrottava kentittäin.

Pakollisia kenttiä on ainoastaan CatalogNumber (luettelonumero). Myös ScientificName tarvitaan, mutta tämän ei välttämättä tarvitse olla aina lajitason nimi.  Tämän lisäksi on hyvä laittaa ainakin Country (englanniksi tai ISO-koodina), Locality (tarkka paikka), YearCollected (esim. 2010) tai tarkemmin EventDate (ISO-muodossa, tarvittaessa ajanjaksona kauttaviivalla alku ja loppu erottaen, esim. 2010-12-31/2011-01-04). Paikan koordinaatit esitetään desimaaliasteina, jotka saa esim. Google Earthilla tai muunnettua YKJ:sta geodeettisen laitoksen palvelun avulla [linkkejä].  Meikäläiset yhtenäiskoordinaatit voi laittaa kenttään VerbatimCoordinates ja merkintä tästä VerbatimCoordinateSystem kenttään arvolla "Finnish YKJ".

Synkroininti GBIF Data Portaalin kanssa

Kun aineisto on rekisteröity, GBIF Helpdesk tarkistaa sen ja antaa usein lähempiä ohjeita yksityiskohtien viilaamiseen.  Sen jälkeen GBIF Data Portal käy noin 3 kuukauden välein katsomassa onko jotain uutta saatavissa.

Askel askelelta

Seuraavassa käydään em. kuvaus läpi askel askeleelta:

  1. Mene sivulle http://ipt.digitarium.fi/ tai vastaavaan oman laitoksesi IPT-osoitteeseen.
  2. Kirjaudu sisään. Käyttäjätunnuksen ja salasanan Digitariumin IPT-palveluun saat osoitteesta helpdesk@gbif.fi.
  3. Paina nappia "Manage Resources".
  4. Jos haluat tehdä saataville uuden aineiston, anna sille lyhyt osoite ja paina nappia "Create" tai valitse olemassaoleva, jos haluat muokata sitä.
  5. Syötä "Basic Metadata" kentät.  Tämä on tärkeä laittaa hyvin sillä sen näkyy julkisesti GBIF Data Portaalissa. Paina nappia "Save".
  6. Syötä halutessa muut Metadata aihealueet, kuten Taxonomic Coverage, jne. Nämä eivät ole kovin tärkeitä.
  7. Palaa aineiston otsaketta napauttamalla aineiston etusivulle. Kohdasta "Source Data" toiminnon alla, joko 1) uploadaa valmistamasi datatiedosto, tai 2) kytkeydy tietokantaasi suoraan. 
  8. Siirry toimintoon "Darwin Core Mappings" ja valitse vetovalikosta "Darwin Core Occurence". Nappulasta "Add" tai "Edit" määrittele mitkä kentät vastaavat Darwin Core -standardia.  Voit myös laittaa vakioarvon, jos kentässä on aina sama arvo eikä se löydy datatiedostosta, niinkuin esim. InstitutionCode ja VerbatimCoordinateSystem useimmiten on.  "OccurrenceID" kenttään valitaan aina CatalogNumber tai muu uniikki rivin tunniste.  Lopuksi paina nappia "Save".
  9. Siirry toimintoon "Published Reselase" ja paina nappia "Publish".  Tämä lukee tiedostosi ja laittaa sen saataville GBIF-rajapintaan.  Tämän toiminnon pitäisi näyttää tiedoston rivien määrä ym.
  10. Lopuksi siirry kohtaan "Visibility" ja rekisteröi aineistosi jonkun valittavissa olevan museon tai laitoksen alle. Tällöin aineistosta vilahtaa tieto Kööpenhaminaan.

Loppuhuomioita

Tämä kuvaus koskee IPT versiota 2, joka on kokonaan uudelleen kirjoitettu syksylla 2010. Se on toiminut moitteetta. Aineiston rekisteröinti voi kuitenkin vaatia salasanaa, mitä varten ota yhteys helpdesk@gbif.fi, niin asia järjestetään.

Edellä kuvattiin vain havainto/kokoelmatietojen julkistaminen.  On myös mahdollista julkistaa lajiluetteloita ja pelkkää kokoelmia ym. kuvaavaa metadataa.

Jokaiseen havaintoon tai kokoelmayksilöön (riviin) voi liittyä useita tarkempia tietoja, kuten esim. sarja historiallisia lajimäärityksiä, synonyymejä, preparaatteja tai seuralaislajeja. Näitä ei ole helppo hallita lisäämällä tiedostoon kenttiä esim. Määritys1, Määritys2, jne. Tällaiset tiedot on paras sijoittaa eri tiedostoon ja yhdistää päätietueeseen molemmista tiedostoista löytyvän CatalogNumber -kentän avulla, eli yksi-moneen relaatiolla. Ks. "Star schema" toiminnon "Mappings" alla.

Palaute näihin ohjeisiin on tervetullutta!

Digitarium News