Open Dimension: open data

Näytetään tekstit, joissa on tunniste open data. Näytä kaikki tekstit

torstai 21. huhtikuuta 2016

GLAMpipe

Olen työskennellyt viimeaikoina GLAMpipe-nimisen työkalun kehittämisen parissa. Hanke on Wikimedia Suomen projekti OKM:n rahoitukseslla.

Kyseessä on sveitsiläinen linkkuveitsi -tyyppinen ohjelmisto aineistojen katseluun, muokkaukseen ja lataamiseen. Ohjelman käyttäminen ei vaadi ohjelmointitaitoja.

Esimerkkejä käyttötavoista

aineiston tuonti Flickristä:

Kartta-aineiston georeferointi (hyvin alustava prototyyppi):

Aineiston lataaminen Internet Archivesta ja sen uploudaus Wikimedia Commonssiin:

Ohjelmisto on kehityksen alla ja vielä paljon riittää tehtävää. Voit katsoa lisätietoja täältä:

http://artturimatias.github.io/GLAMpipe/

tiistai 24. marraskuuta 2015

Wikidata ja Ylen historiallinen tapahtumakalenteri

Yle on julkaissut tapahtumakalenterinsa tiedot vapaana datana:
https://www.avoindata.fi/data/fi/dataset/yle-arkiston-historiallinen-tapahtumakalenteri

Halusin selvittää, kuinka monta tapathumakalenterissa olevista ihmisistä löytyy wikidatasta. Tämä on edellytys sille, että tietoja voitaisiin siirtää kalenterista wikidataan.

Data

Ylen kalenteridata näyttää tällaiselta:

"id": 9234,
"vuosi": 1945,
"kuukausi": 6,
"paiva": 2,
"tapahtuma": "Kim Brown syntyi",
"huomautus": "Englantilainen laulaja & lauluntekijä, the Renegades-yhtyeen johtohahmo. Kuoli 11.10.2011.",
"linkki": "",
"henkilo": 1,
"fennica": 0,
"lahde": "hs 13.10.11",
"valmis": 1,
"tallpvm": "4.1.2012",
"muokkpvm": "4.1.2012"

Aineisto koostuu erillisistä tiedoista, joilla ei ole muuta keskinäistä viitettä kuin henkilön nimi. Henkilöitä koskevat tiedot on merkitty "henkilo" -lipulla, joten aineiston rajaaminen tämän mukaan on ensimmäinen vaihe.

Toiseksi aineistosta pitää kaivaa henkilöiden nimet, sillä nimet eivät ole omana kenttänään vaan ne ovat muotoa "Aleksi Lehtonen syntyi" tai "Ari Vatanen voitti ensimmäisenä suomalaisena ralliautoilun virallisen maailmanmestaruuden".

Vaiheet

Prosessi jakautui neljään vaiheeseen.

Konvertointi

Ääkköset näkyivät rumasti kun tiedostoa katseli tekstimuodossa.
Ensiksi piti siis päästää eroon väärästä merkistöstä. Sen jälkeen muunsin tiedoston json-formaattiin, jotta jatkokäsittely olisi helpompaa.

Yhtenäistäminen

Yhtenäisteminen tarkoittaa tässä tapauksessa sitä että yksittäistä henkilöä koskevat tiedot kootaan yhteen. Siis esimerkiksi kaikki Matti Nykästä koskevat huomiot linkitetään Matti Nykäsen alla. Tästä muodostuu Matti Nykäsen tapahtumat. Tätä voisi kutsua myös tapahtumallistamiseksi(?).

Kysely

Seuraavaksi tein kohteesta hakutiedoston json-formaattiin. Tiedosto sisältää hakutermit ja viitteet alkuperäisen aineiston tietoihin. Tähän tiedostoon kirjoitetaan kyselyn tulokset. Näin voidaan tehdä useita hakuja ilman että haetaan samoja tietoja uudestaan ja uudestaan.

"name": "Alfred Kordelin",
"response": {
   "head": {
    "vars": [
     "s",
     "label",
     "birth",
     "death"
    ]
   },
   "results": {
    "bindings": []
   }
},
"ids": [
   5857
],
"response_count": 0,
"long_name": 6,
"new_id": 123

Käytin wikidatan SPARQL-rajapintaa. Kokeilujen jälkeen päädyin kysymään siltä joko suomen- tai englanninkielistä versiota nimestä.

Analyysi

Kun onnistuineita hakuja on saatu tarpeeksi, voi tuloksia analysoida. Anayysissa tutkitaan millaisia vastauksia on saatu tai onko niitä saatu ollenkaan.

henkilöitä: 3071
ei löydy: 314
yksi osuma: 2516
useita osumia: 241

Yli 80 prosenttia kyselyistä tuotti yhden osuman. Se ei tietysti tarkoita että henkilö on oikea, mutta siitä on hyvä jatkaa esimerkiksi syntymä- ja kuolinpäivien (tai vuosien) vertailulla. Mutta entä nuo yli 300 joita ei löytynyt?

Aleksander vai Alexander?

Nimi on kehno ihmisen tunniste. On samoja nimiä, eri tavalla kirjoitettuja samoja nimiä (esim. aksenttimerkit), väärin kirjoitettuja nimiä (Bertrand Russel) ja sitten on vielä kuninkaalliset. Esimerkiksi Ylen kalenteridatassa on "Anne, englannin prinsessa". Tässä muodossa wikidatasta ei löydy mitään. Sen sijaan "Prinsessa Anne" löytyy.

Myös aksenttimerkit aiheuttava omat ongelmansa. Kalenterissa osassa nimissä on aksenttimerkit ja osassa ei. Salvador Dali ja Edith Piaf ovat kalenterissa ilman aksenttia mutta näiden henkilöiden wikidatan suomenkielinen label on aksentin kanssa. Siksi haku ei löydä kyseisiä taitelijoita.

Lisäksi on vielä kielivalinta. Wikidata on aidosti monikielinen ja siksi myös henkilöiden nimillä voi olla useita eri kieliasuja kielen mukaan. Esimerkiksi aiemmin mainittu prinsessa Anne on suomennettu nimi Princess Annelle. Tosin haun kannalta tällä on merkitystä lähinnä SPARQL -hakujen kannalta.

Google ratkaisuksi?

Entä jos syötetään "Anne, englannin prinsessa" Googlen hakuun? Jo vain, ensimmäinen osuma on wikipedian sivu "Anne (prinsessa)". Wikipedian sivun kautta taas voidaan löytyy prinsessa Annen wikidatakohde!

En tehnyt ohjelmallista google-hakua, vaan tein suppean testin käsin. Mutta näyttää siltä, että kattavin hakualgoritmi näyttää menevän mutkan (Google) kautta.

Loppujen kohdalla on tehtävä sitä, mitä kukaan ohjelmointitaitoiseksi itseään kutsuva ei halua tehdä eli käsineditointia. Otetaan siis listaus niistä nimistä, joista ei löytynyt tietoa minkään haun avulla ja tutkitaan ovatko hakutermit järkeviä ja jos on, niin miksi mitään ei löytynyt (kirjoitusvirhe, ei wikipediasivua jne.)

Entä useat osumat?

Nopean katsauksen perusteella useita osumia tuli koska henkilöillä oli useita syntymä- tai kuolinpäiviä (wikidatassa tämä on mahdollista, niin kuin olla pitääkin). Moni nimi myös tuotti useampia henkilöitä, kuten esimerkiksi Aarre Merikanto.

Johtopäätös

Pelkkien nimien avulla tietojen yhdistäminen on hankalaa ja vaatii jossain vaiheessa perinteistä käsityötä. Paras algoritmi näyttäisi olevan Googlen kautta wikipediaan ja sieltä wikidataan.Kaiken kaikkiaan tehtävä ei ole triviaali. Teknisen värkkäämisen lisäksi tarvitaan myös aika lailla tietoa, jotta tiedot kohtaavat oikeat henkilöt silloin kun erehtymisen vaara on.

Tekniikkaa

Merkistömuunnos iconv-ohjelmistolla:

iconv -f WINDOWS-1252 -t UTF-8 Yle-tapahtumat.csv > Yle-tapahtumat-utf8.csv

Tein kokeilut javascriptillä nodejs-ympäristössä. Wikidatahaut tein wikidatan sparql -apin kautta seuraavalla kyselyllä:

PREFIX wd: <http://www.wikidata.org/entity/>
PREFIX wdt: <http://www.wikidata.org/prop/direct/>

SELECT DISTINCT ?s ?birth ?death WHERE {
    ?s wdt:P31/wdt:P279* wd:Q5 .

    { ?s ?label "Eubie Blake"@en }
    UNION
    { ?s ?label "Eubie Blake"@fi }

    OPTIONAL { ?s wdt:P569 ?birth }
    OPTIONAL { ?s wdt:P570 ?death }
}

lauantai 19. tammikuuta 2013

Purku-klubi: Rahat vai kuvat?

Sain ilokseni kutsun panelistiksi Valokuvataiteen museolla järjestettyyn Purku-klubin keskustelutilaisuuteen nimeltään Rahastavatko museot kuvallisella kulttuuriperinnöllä? Tälläiset keskustelutilaisuudet ovat hieman hankalia, ainakin tutkijan näkökulmasta. Näkökulmia ja kysymyksiä nousee esiin tiheästi, eikä aikaa juuri voi käyttää asoiden määrittelyyn, jolloin seurauksena on yksinkertaistuksien, väärinymmärryksien ja provokaatioiden sekamelska.

Tämä ei kuitenkaan tarkoita, että tällaiset tilaisuudet olisivat turhia. Päinvastoin, tilaisuus antoi ainakin minulle - ja toivottavasti monelle muullekin - paljon ajattelmisen aihetta. Keskustelu myös jatkuu ainakin blogien välityksellä. Yhtenä panelistina ollut Kaisa Kyläkoski on summannut tilaisuutta omassa blogissaan ja toinen panelisti Kimmo Levä käsitteli aihetta omassa blogi-kirjoituksessaan.

Tilaisuuden anti?

Museoihmiset paketoivat kuvien maksullisuuden näppärästi talouskysymykseksi. Eli museot julkaisisivat vapaasti kuvia, mutta kun kuvista tulee tuloja, ei niitä ole varaa julkaista vapaaseen käyttöön, koska tulot menetettäisiin. Tämä olisi hyvä argumentti jos se olisi totta. Mutta kun se ei ole.

Ajatellaanpa tilannetta, jossa Kaisa Kyläkoski tai joku muu bloggaaja käyttää kuvaa blogissaan ja samalla tarjoaa taustatietoa tai yhdistää kuvan johonkin muuhun materiaaliin. Toisin sanoen rikastuttaa kuvallista kulttuuriperintöä tarjoamalla meille sitä paljon puhuttua sisältöä.

Paljonko museo menettää tässä tapauksessa rahaa? Ei yhtään, koska bloggaaja tuskin on valmis maksamaan kuvista. Mutta kun kuva on maksullinen ja uudet sisällöt jäävät tekemättä, voidaan kysyä, paljonko yhteiskunta menettää museon käytäntöjen takia kulttuurisisältöä.

Open Data

Blogissaan Levä kutsuu meitä, jotka kannatamme vapaampaa kuvien käytettävyyttä, open data -ajattelun edustajiksi. Ja kuten Levä itsekin toteaa, hän ei ole perehtynyt Open Data -ajatteluun. Hänen tulkintansa asiasta (ilmeisesti museoiden kannalta katsottuna) on jonkinlainen ansaintalogiikka, joka perustuu ilmaisiin näytteisiin(?). Säädyllisempi tulkinta on ajatella Open Datan edustavan yleistä hyvää. Siis sitä, että avoimesti ja ilmaiseksi saatuvilla oleva materiaali, joka on julkisilla varoilla tuotettu, on yhteisön kannalta hyödyllisempää kuin siitä yhden toimijan mahdollisesti saamat tulot.

Mielenkiintoisesti Levän Purku-klubia edeltävä blogikirjoitus käsittelee oppimisen murrosta ja museoiden osuutta siinä. Lainaus:

Museotulevaisuuden kahdeksas kysymys on, mitä meidän pitäisi tehdä, jotta museo tunnistetaan keskeisenä elämän mittaisen oppimisen paikkana sekä muodollisen että vapaa-ajan oppimisen sektorilla.

Olisiko aineistojen avaaminen Open Datan hengessä yksityiseen ja opetuskäyttöön se keino?

Mitäs nyt?

Aivan aiheellisesti Levä kysylee blogissaan ehdotuksia tilanteen ratkaisuksi. Vaihtoehtoja ei tarvitse etsiä kovin kaukaa. Vierailu Rijksmuseumin sivuilla on virkistävä kokemus kaiken rahapuheen jälkeen. Sieltä voi valita vaikkapa Vermeerin teoksen Maitotyttö, klikata linkkiä "Download this work (and go creative)" ja nauttia 2261 * 2548 pikselin kuvasta.

Ennen kuvan lataamista täytyy määritellä mihin käyttöön kuva tulee. Kuvat ovat vapaita henkilökohtaiseen käyttöön (myös verkkokäyttöön), opetukseen ja myös opinnäytetöihin. Ainoastaan kaupallinen ja mainoskäyttö on maksullista.

Suurempaa kontrastia voi tuskin kuvitella verrattuna monien Suomen museoiden surkuhupaisiin vesileimavirityksiin.

Taco Dibbits, Rijksmuseumin kokoelmajohtaja:

"We created Rijks Studio based on the belief that the collection of the Rijksmuseum belongs to us all. The collection inspires, we want to unleash the artist in everyone.” [lähde]

Olisipa hieno kuulla tuo lause suomalaisen museon edustajan suusta. Tammikuisessa keskustelutilaisuudessa sen sijaan sain kuulla erään museon edustajalta, että kyllä se on se museo joka sen kokoelman omistaa. Mutta aina voi unelmoida, eikö niin?

Miksi te ootte olemassa?

Paneelin aikan Kaisa Kyläkoski lähes tulkoon parahti kysymyksen "Miksi te (museot) olette olemassa?" Mielestäni se on aika relevantti kysymys. Sitä voisi ehkä tarkentaa kysymyksellä "ja ketä varten?".

Alla vielä mieleniintoista katsottavaa:
Rijksstudio Digital Innovation Think Tank

perjantai 2. marraskuuta 2012

Open Sourcing Digital Heritage

My dissertation "Open Sourcing Digital Heritage. Digital Surrogates, Museums and Knowledge Management in the Age of Open Networks" is now online!

How is the new heritage different than the "old heritage"?
Why are some museums promoting openness while others are busy destroying their online materials with excessive watermarks?
What is the role of technology in the digital heritage?
What kind of information systems are needed for open digital heritage?

You can find it here:
https://jyx.jyu.fi/dspace/handle/123456789/40157

Have fun!