Administrator
|
Tilastollisen tietojenkäsittelyn seminaari
Seminaarin seuraava tilaisuus on keskiviikkona 9.4.2014 klo 16-18 Psykologian laitoksella huoneessa 229 (Siltavuorenpenger 1 A). Survo R - dokumentointi Seminaariin ovat kaikki aiheesta kiinnostuneet tervetulleita. Seppo Mustonen |
Administrator
|
On ollut aiemmin alustavasti puhetta Survo R -alkeisoppaan laatimisesta
johonkin kansainväliseen julkaisusarjaan. Yksi tarkoituksenmukaisimmista sarjoista näyttäisi olevan Springerin UseR! (josta on vähän juteltukin, ja Reijolla on jo ollut tiettyjä kontaktejakin sinne suunnalle): http://www.springer.com/series/6991 - luettelossa n. 50 nimikettä (2006-2014) - yhdistävä tekijä: R Sarjan yleiskuvaus on lyhyt: "This series of inexpensive and focused books on R will publish shorter books aimed at practitioners. Books can discuss the use of R in a particular subject area (e.g., epidemiology, econometrics, psychometrics) or as it relates to statistical topics (e.g., missing data, longitudinal data). In most cases, books will combine LaTeX and R so that the code for figures and tables can be put on a website. Authors should assume a background as supplied by Dalgaard's Introductory Statistics with R or other introductory books so that each book does not repeat basic material." Selailin luetteloa ja katsoin vähän tarkemmin kolmea teosta (kaikista on ao. sivuilla ainakin jonkin verran näytteitä): 1) A Beginner's Guide to R (2009, 220 s.) http://www.springer.com/statistics/computational+statistics/book/978-0-387-93836-3?otherVersion=978-0-387-93837-0 2) R by Example (2012, 359 s.) http://www.springer.com/statistics/statistical+theory+and+methods/book/978-1-4614-1364-6 3) An Introduction to Applied Multivariate Analysis with R (2011, 274 s.) http://www.springer.com/statistics/statistical+theory+and+methods/book/978-1-4419-9649-7 Lähimpänä sitä, mitä minun mielestäni kannattaisi tavoitella, on 1), joka keskittyy puhtaasti R:n alkeisiin. Tekijät toteavat esipuheessa, että on parempi olla opettamatta yhtaikaa R:ää ja tilastotiedettä, koska ne ovat molemmat jo erikseen niin haastavia opittavia: "But this book does not deal with statistics, as, in our experience, teaching statistics and R at the same time means two steep learning curves, one for the statistical methodology and one for the R code. This is more than many students are prepared to undertake. This book is intended for people seeking an elementary introduction to R." Toki 1):n tekijätkin ovat tilastotieteilijöitä, ks. http://highstat.com/staff.htm Niinpä mukana on tilastollisia sisältöjä, mutta kirjan rakenne ei perustu tilastotieteen käsitteisiin kuten monet muut, mm. 2) ja 3). Teos 2):n kohderyhmäksi on mainittu "people who are learning, teaching, or using statistics", lukujen pääotsikoina mm. sellaisia kuin Regression tai ANOVA yms. Teos 3) puolestaan keskittyy usean muuttujan aineistojen eräisiin analyyseihin ja visualisointeihin (jälkimmäisestä aiheesta on jaossa aika erikoinen näyteluku...). Näiden molempien tyyppisiä teoksia on valtavasti enkä näe pointtia ryhtyä sellaisia lisää tekemään, ainakaan tässä vaiheessa. Palaan vielä teokseen 1), joka herättää minussa enemmän intoa. Sen esipuheessa sanotaan totuus, joka pätee hyvin myös Survoon, etenkin ensimmäinen lause;: "R contains a high 'you need to know what you are doing' content, and its application requires a considerable amount of logical thinking." Sisällysluettelon perusteella heti johdannossa on kohtia, joista voisi ottaa mallia Survo R -opasta ajatellen: lataus ja asennus, yleisiä asioita, historia ja kirjallisuus lyhyesti, kirjan käyttö eri kohderyhmien kannalta: "jos olet se ja se...". Luku 2 ("Getting Data into R") on saatavilla näytteenä ja sitä on hyvä vilkaista. Se on kokonaan JUURI SELLAISTA tavaraa, jossa Survo on editoriaalisen käyttötapansa ansiosta PALJON havainnollisempi ja selkeämpi väline kuin R. (Havaintomatriisi toimituskentässä näyttää havaintomatriisilta jo tallennettaessa, toisin kuin R:ssä.) Aivan vastaavia asioita kannattaisi sisällyttää myös Survo-oppaan alkuun. Otsikoiden perusteella arvelen, että luvut 3 ja 4 ovat samaa maata. Luku 5 koskee grafiikkaa, jossa olisi myös verrattoman havainnollista esittää, miten asiat tehdään Survolla. Luku 6 on jostain syystä tässä välissä ja esittelee loopit ja funktiot, kun taas luku 7 käy läpi valikoiman kuvatyyppejä ja luku 8 jatkaa vähän vaativampiin (otsikoiden perusteella tuntuvat turhan vaativilta kohderyhmälle). Luvussa 9 on koottuna tyypillisiä R-virheitä, mikä ei ole huono idea; tulee heti mieleen monta Survon aloittelijan perusvirhettä (rajarivit yms.), jotka on hyvä tehdä ja tietää - niistä oppii. (Näistä saamme varmasti seminaariristeilyllä hyvän tietopaketin!) Esipuheen lopussa pohditaan datojen roolia yleensä ja erikoisesti kirjan esimerkkien kannalta ("datan hieronta": hauskasti sanottu!): "Scientists in all fields need to import data, massage data, make graphs, and, finally, perform analyses. The R commands will be very similar in every case." A 200-page book does not offer a great deal of scope for presenting a variety of dataset types, and, in our experience, widely divergent examples confuse the reader. The optimal approach may be to use a single dataset to demonstrate all techniques, but this does not make many people happy. Therefore, we have used ecological datasets (e.g., involving plants, marine benthos, fish, birds) and epidemiological datasets." Omassa kirjassani (2014/2008) päädyin vain yhden datan käyttöön ja olen siihen(kin) päätökseen ollut tyytyväinen. Näkisin kuitenkin, että nyt kaavaillussa kirjassa saisi olla useampia, muttei liikaa (aivan kuten tekijät tuossa myös toteavat). Tärkeää on, että kaikki datat ja esimerkit ovat netistä saatavilla (se taitaa jopa olla koko UseR!-sarjan vaatimus). Se tietenkin asettaa tiettyjä rajoituksia, mutta en usko, että asia siitä ainakaan jäisi kiinni. - Kimmo |
Free forum by Nabble | Edit this page |