Tilastollisen tietojenkäsittelyn seminaari 9.4.2014

classic Classic list List threaded Threaded
2 messages Options
Reply | Threaded
Open this post in threaded view
|

Tilastollisen tietojenkäsittelyn seminaari 9.4.2014

Seppo Mustonen
Administrator
Tilastollisen tietojenkäsittelyn seminaari

Seminaarin seuraava tilaisuus on keskiviikkona 9.4.2014
klo 16-18 Psykologian laitoksella huoneessa 229 (Siltavuorenpenger 1 A).

Survo R - dokumentointi

Seminaariin ovat kaikki aiheesta kiinnostuneet tervetulleita.

Seppo Mustonen
Reply | Threaded
Open this post in threaded view
|

Alustavaa alustusta dokumentointiaiheeseen

Kimmo Vehkalahti
Administrator
On ollut aiemmin alustavasti puhetta Survo R -alkeisoppaan laatimisesta
johonkin kansainväliseen julkaisusarjaan. Yksi tarkoituksenmukaisimmista
sarjoista näyttäisi olevan Springerin UseR! (josta on vähän juteltukin,
ja Reijolla on jo ollut tiettyjä kontaktejakin sinne suunnalle):

http://www.springer.com/series/6991
- luettelossa n. 50 nimikettä (2006-2014)
- yhdistävä tekijä: R

Sarjan yleiskuvaus on lyhyt:

"This series of inexpensive and focused books on R will publish shorter books aimed at practitioners. Books can discuss the use of R in a particular subject area (e.g., epidemiology, econometrics, psychometrics) or as it relates to statistical topics (e.g., missing data, longitudinal data). In most cases, books will combine LaTeX and R so that the code for figures and tables can be put on a website. Authors should assume a background as supplied by Dalgaard's Introductory Statistics with R or other introductory books so that each book does not repeat basic material."

Selailin luetteloa ja katsoin vähän tarkemmin kolmea teosta
(kaikista on ao. sivuilla ainakin jonkin verran näytteitä):

1) A Beginner's Guide to R (2009, 220 s.)
http://www.springer.com/statistics/computational+statistics/book/978-0-387-93836-3?otherVersion=978-0-387-93837-0

2) R by Example (2012, 359 s.)
http://www.springer.com/statistics/statistical+theory+and+methods/book/978-1-4614-1364-6

3) An Introduction to Applied Multivariate Analysis with R (2011, 274 s.)
http://www.springer.com/statistics/statistical+theory+and+methods/book/978-1-4419-9649-7

Lähimpänä sitä, mitä minun mielestäni kannattaisi tavoitella, on 1),
joka keskittyy puhtaasti R:n alkeisiin. Tekijät toteavat esipuheessa,
että on parempi olla opettamatta yhtaikaa R:ää ja tilastotiedettä,
koska ne ovat molemmat jo erikseen niin haastavia opittavia:

"But this book does not deal with statistics, as, in our experience, teaching statistics and R at the same time means two steep learning curves, one for the statistical methodology and one for the R code. This is more than many students are prepared to undertake. This book is intended for people seeking an elementary introduction to R."

Toki 1):n tekijätkin ovat tilastotieteilijöitä, ks.
http://highstat.com/staff.htm
Niinpä mukana on tilastollisia sisältöjä, mutta kirjan rakenne ei
perustu tilastotieteen käsitteisiin kuten monet muut, mm. 2) ja 3).

Teos 2):n kohderyhmäksi on mainittu "people who are learning,
teaching, or using statistics", lukujen pääotsikoina mm. sellaisia
kuin Regression tai ANOVA yms. Teos 3) puolestaan keskittyy usean
muuttujan aineistojen eräisiin analyyseihin ja visualisointeihin
(jälkimmäisestä aiheesta on jaossa aika erikoinen näyteluku...).
Näiden molempien tyyppisiä teoksia on valtavasti enkä näe pointtia
ryhtyä sellaisia lisää tekemään, ainakaan tässä vaiheessa.

Palaan vielä teokseen 1), joka herättää minussa enemmän intoa.
Sen esipuheessa sanotaan totuus, joka pätee hyvin myös Survoon,
etenkin ensimmäinen lause;:

"R contains a high 'you need to know what you are doing' content, and its application requires a considerable amount of logical thinking."

Sisällysluettelon perusteella heti johdannossa on kohtia, joista
voisi ottaa mallia Survo R -opasta ajatellen: lataus ja asennus,
yleisiä asioita, historia ja kirjallisuus lyhyesti, kirjan käyttö
eri kohderyhmien kannalta: "jos olet se ja se...".

Luku 2 ("Getting Data into R") on saatavilla näytteenä ja sitä on
hyvä vilkaista. Se on kokonaan JUURI SELLAISTA tavaraa, jossa Survo
on editoriaalisen käyttötapansa ansiosta PALJON havainnollisempi ja
selkeämpi väline kuin R. (Havaintomatriisi toimituskentässä näyttää
havaintomatriisilta jo tallennettaessa, toisin kuin R:ssä.) Aivan
vastaavia asioita kannattaisi sisällyttää myös Survo-oppaan alkuun.

Otsikoiden perusteella arvelen, että luvut 3 ja 4 ovat samaa maata.
Luku 5 koskee grafiikkaa, jossa olisi myös verrattoman havainnollista
esittää, miten asiat tehdään Survolla. Luku 6 on jostain syystä
tässä välissä ja esittelee loopit ja funktiot, kun taas luku 7 käy
läpi valikoiman kuvatyyppejä ja luku 8 jatkaa vähän vaativampiin
(otsikoiden perusteella tuntuvat turhan vaativilta kohderyhmälle).

Luvussa 9 on koottuna tyypillisiä R-virheitä, mikä ei ole huono
idea; tulee heti mieleen monta Survon aloittelijan perusvirhettä
(rajarivit yms.), jotka on hyvä tehdä ja tietää - niistä oppii.
(Näistä saamme varmasti seminaariristeilyllä hyvän tietopaketin!)

Esipuheen lopussa pohditaan datojen roolia yleensä ja erikoisesti
kirjan esimerkkien kannalta ("datan hieronta": hauskasti sanottu!):

"Scientists in all fields need to import data, massage data, make graphs, and, finally, perform analyses. The R commands will be very similar in every case." A 200-page book does not offer a great deal of scope for presenting a variety of dataset types, and, in our experience, widely divergent examples confuse the reader. The optimal approach may be to use a single dataset to demonstrate all techniques, but this does not make many people happy. Therefore, we have used ecological datasets (e.g., involving plants, marine benthos, fish, birds) and epidemiological datasets."

Omassa kirjassani (2014/2008) päädyin vain yhden datan käyttöön
ja olen siihen(kin) päätökseen ollut tyytyväinen. Näkisin kuitenkin,
että nyt kaavaillussa kirjassa saisi olla useampia, muttei liikaa
(aivan kuten tekijät tuossa myös toteavat). Tärkeää on, että kaikki
datat ja esimerkit ovat netistä saatavilla (se taitaa jopa olla koko
UseR!-sarjan vaatimus). Se tietenkin asettaa tiettyjä rajoituksia,
mutta en usko, että asia siitä ainakaan jäisi kiinni.

- Kimmo