Tiedostojen merkistökoodaukset ENCODING , UTF-8,...

classic Classic list List threaded Threaded
3 messages Options
Reply | Threaded
Open this post in threaded view
|

Tiedostojen merkistökoodaukset ENCODING , UTF-8,...

Petri Palmu
Nuo tiedostoformaatit aiheuttavat hieman pohdintaa... itse pyörittelen Linuxin ja Windowsin kanssa. Olen aika usein pyrkinyt tuohon utf-8, se näyttäisi toimivan hyvin. Jostain ymmärsin, että olisi "paras" merkistö...?

Nämä UTF-8 liittyvät löysin Survon NEWSista (LINEDEL + DEL_SAVE):
SAVE UTF / Deleted lines
- PRINT has now new control operation ENCODING (example usage: - encoding UTF-8 )
- Specification RAWOUTFILE=out.txt for RISKSIMU to output raw bootstrap data
- RPLOT now uses UTF-8 encoding explicitly
- U key to switch to UTF-8 in SHOW
- If default Tcl/Tk clipboard fetching returns a zero length STRING, contents are fetched again using type UTF8_STRING
- ENCODING specification for SAVEP/W/U and LOADP/W/U (Example: ENCODING=UTF-8)

Olen itse käyttänyt
ENCODING=UTF-8  SAVEP ja FILE LOAD yhteydessä. Lähinnä kun olen siirtänyt tekstiä tai tekstitiedostoa esim. R:ään tai Pythoniin.

Tuo PRINT (UTF-8) olisi myös hyödyllinen, kun teen html-tiedostot PRINTillä.

Aiheesta voisi keskustella enemmänkin  Survo R:ssä.
Huomaan, että itselläni välillä tulee hankaluuksia noiden kanssa. Alkuperäiset datat saattavat olla jotain UTF-16 tms.
Survo R:ssä on komento:
CODES REMOVE utf16file.csv,file2.csv,STEP,2  /
Joka auttaa tiettyihin merkistöihin (poistaa joka toisen tarpeettoman merkin).

Kun hyppelee Linuxin ja Windowsin välillä, niin olisi kiva löytää selkeys, mutta olen ymmärtänyt, että merkistöt ovat aikamoinen riesa koodaajille :)






Reply | Threaded
Open this post in threaded view
|

Re: Tiedostojen merkistökoodaukset ENCODING , UTF-8,...

Kimmo Vehkalahti
Administrator
Unicode on hyvä ja tärkeä, yleistyy kokoajan eri puolilla. Survossa tärkeää pitää kiinni samaan aikaan trad. IBM-merkistöstä, jotta yhteensopivuutta 5-30 vuotta taaksepäin ei menetetä.

Windowsilla on omat suosikkinsa näissä asioissa, samoin Unix-sukuisilla (Linux, Mac). Tein kauan sitten sukron /MUUNNA-TEKSTI (näyttääpä villiltä 20 v myöhemmin!) ja näemmä vielä villimmän, "kieliversion" /TXT-CONV :-)
Reply | Threaded
Open this post in threaded view
|

Re: Tiedostojen merkistökoodaukset ENCODING , UTF-8,...

Petri Palmu


href="http://stackoverflow.com/questions/7481799/convert-a-file-encoding-using-r-ansi-to-utf-8">http://stackoverflow.com/questions/7481799/convert-a-file-encoding-using-r-ansi-to-utf-8

Tässä muuten R-koodi, jolla olemassa olevan file.txt voi konvertoida tuosta windows-muodosta  utf-8 muotoon.
writeLines(iconv(readLines("file.txt"), from = "cp1252", to = "UTF8"), 
           file("file2.txt", encoding="UTF-8"))

Tuon voi toki tehdä toiseen suuntaankin.

Esim. R:n read.table() tekstitiedostoa oikein, ellei sen parametri fileEncoding ole asettu oikein.

cp1252:
https://en.wikipedia.org/wiki/Windows-1252