17. maaliskuuta 2010

Tarkoitushakuisia kuvaajia turvapaikanhakijoista

Maahanmuuttokeskusteluun osallistumalla saa ilmeisesti huomiota riippumatta esitetystä näkökannasta. Tätä täytyy ehdottomasti kokeilla.

Viime viikolla Jussi Halla-ahon alias Mestarin (huom! sarkastinen ilmaus mouh!) ilmoitus eduskuntavaaliehdokkuudesta sai Husein Muhammedin haastamaan Mestarin luvut ja Jussi (ainakin osittain) vastasi haasteeseen. Keskustelun osapuolet eivät löytäneet yhteistä tulkintaa maahanmuuttoviraston julkaisemisesta
luvuista ja kumpikin yritti kovasti tulkita asiaa omalle kannalleen edullisella tavalla.

Jussi ja Husein ovat kumpikin kovia puhumaan, mutta numeroista puhuminen on kuin musiikista piirtämistä, eli ei erityisen hyvä tapa analysoida asioita.

Miltä maahanmuuton trendi sitten näyttää visualisoituna? Gnu R:n oletusplotti näyttää oheisenkaltaiselta. Plotti on jo varsin informatiivinen, vaikka oletusrajaus jättää hieman toivomisen varaa. Akseleiden otsikot tulevat suoraan käytetyistä dataobjekteista ja muutenkin graafi on vähän sinne päin.


Hiukan petraamalla saadaan jo selkeästi ymmärrettävämpi kuva. Akseleiden nimeäminen fiksusti, asteikon aloittaminen nollasta ja turhien akselipisteiden poisto vähentävät chartjunkkia. Samalla vaivalla samaan kuvaan voi lisätä esimerkiksi johdannaisilmiön kuvaajan. Kannattaa huomata, että myönnetyt turvapaikat laahaavat selkeästi hakijoiden perässä: keskimääräinen käsittelyaika on yli 6 kuukautta, ja varmasti nousussa, kun katsomme viime vuoden hakijamääriä.




Postauksen tarkoitus oli kuitenkin esitellä kikkoja, joilla dataa voidaan näyttää tarkoitushakuisesti. Jos olisin Mestari, tekisin kuvaajasta osapuilleen seuraavannäköisen:

Kuva on sinänsä ihan oikein ja kuvastaa mittausdataa. Tarkoituksenmukainen valinta kuvattaviksi vuosiksi ja pieni kuvan kavennus saavat trendin näyttämään selkeästi erilaiselta. Scriptaa lukeneet huomaavatkin, että Hallis kovin mielellään käyttää vuosien 2007 ja 2009 välistä eroa esimerkkinään.


Mikäli taas haluaisin ottaa kantaa Huseinin suuntaan, käyttäisin logaritmista asteikkoa ja "sattumalta" jättäisin merkitsemättä käytetyn asteikon, seuraavasti:

Tämäkin kuva perustuu samaan dataan, eikä se periaatteessa valehtele sanan tarkimman merkityksen mukaan. Koska logaritmi on aidosti kasvava funktio, ovat pisteet varmasti kokojärjestyksessä akselilla, vaikka niiden väliset suhteet saattavatkin näyttää harhaanjohtavilta. Asteikon lisääminen akselille pilaisi illuusion helposti.

Oheinen yhdistelmäkuva ehkä selventää miten ylläolevat graafit suhtautuvat alkuperäiseen.


Vaikka en itseäni hirveänä rassistina pidäkään, on pakko todeta vuosien 2009 ja 2008 trendin olevan sellainen, että sen selittäminen normaalilla heilahtelulla tai outlierina on aika vaikeaa. Varmuutta tästä ei tietenkään voi saada kuin odottamalla.
Mieleni tekisi kovasti ottaa tunnamilonoffmainen Madventures-asenne ja sanoa "Who am I to judge?" ja jäädä odottamaan varmuutta. Odotellessa nämäkin käppyräni (ja niihin linkkaaminen) saattavat pian täyttää rikoksen tunnusmerkit. Ajatusrikoslakia odotellessa...


Loppukevennykseksi haluan esitellä Helsinskaja Pravdan kyselytuloksen (kiva diagrammi) HS raadin kyselystä 8.10.2009. Kuvan hauskuus löytyy metatasolta: suomalaiselta älymystöltä (miten muutenkaan HS-raatia voisi kuvailla?) kysytään hyssytteleekö suomalainen älymystö maahanmuuton ongelmia. Historian naurettavimmasta näytteenottobiaksesta huolimatta vain 51% vastaa "ei".


Aiheesta kiinnostuneille: kuvien generoimiseen käytetty R-koodi ja turvapaikanhakijat.csv.

Ei kommentteja:

Lähetä kommentti