Standartai      turinys

Unikodo standartas (The Unicode Standard) yra nustatytas Unicode konsorciumo, sudaryto Microsoft, Apple, Sun, IBM ir kitų pagrindinių programinės įrangos firmų. Nors išeina naujos Unicode standarto versijos, visos jos yra griežtai suderinamos su ankstesnėmis, tai yra visi iki vieno simboliai buvę anskstesnėse versijos, išlieka ir naujesnėse.
ISO komiteto dabartinis ISO 10646 standartas yra suderintas su Unicode konsorciumu ir atitinka Unicode standartą, skirtumų praktiškai nėra. Jis taip pat patvirtintas kaip LST ISO 10646 viršelio principu.

Kartais sakoma, kad Unikodas yra ISO 10646 standarto įgyvendinimas. Iš pradžių sukūrus ISO 10646 standartą, numatyta 32 bitų koduotė (dabar atitiktų UTF-32) buvo praktiškai neįgyvendinama. Dėl to programinės įrangos gamintojai sukūrė Unicode konsorciumą bei Unicode standartą, kuris apibrėžė praktinius kodavimo būdus ir dabar rūpinasi retų simbolių klasifikacija ir įtraukimu į naujas Unicode standarto versijas. Unicode konsorciumas šiuo metu yra atvira visiems organizacija.

UTF-8 yra Unikodo kodavimo būdas naudojant 1-6 baitų sekas. Jis yra suderinamas su US-ASCII, t.y. vienai lotyniškai raidei koduoti naudojamas tas pats vienas baitas kaip ir US-ASCII, lietuviškoms, rusiškoms - po du, Rytų Azijos ideogramai - 3 baitai. UTF-8 aprašytas RFC 2279 "UTF-8, a transformation format of Unicode and ISO 10646". Taip pat jis yra aprašytas ISO 10646 Annex R. UTF-8 naudojamas internete ir Unix tipo sistemose.

UTF-16 yra Unikodo kodavimo būdas naudojant vieno arba dviejų 16 bitų skaičių sekas kiekvienam simboliui. UTF-16 aprašytas RFC 2781 . Supaprastintas variantas, kai apsiribojama tik vienu 16 bitų skaičiumi, vadinamas UCS-2. UTF-16 ar UCS-2 naudoja Microsoft'o programos. UTF-16 naudojimas ne visada įmanomas, nes: leidžiami nuliniai baitai; baitų tvarka gali būti skirtinga; nėra US-ASCII suderinamumo.

UTF-7 yra Unikodo kodavimo būdas naudojant tik 7bitų skaičių sekas. Šiuo metu laikomas atgyvenusiu ir nevartotinu, esant 7 bitų koduotės poreikiui vietoje jo vartotinas UTF-8 plius Base64 ar quoted-printable.

UCS-4 arba UTF-32 numato galimybę naudoti 32bitų skaičius.

IETF (Internet Engineering Task Force) organizacija yra nusprendusi laikyti UTF-8 vienintele privaloma suprasti koduote interneto protokolams. Žr. RFC 2277 "IETF Policy on Character Sets and Languages" . Tai atsispindi XML, LDAP, NNTP ir kitų protokolų dokumentuose, nusakančiuose UTF-8 kaip protokolo teksto koduotę.

Internet Mail Consorcium, sudarytas Microsoft, IBM, AOL, Sendmail, Sun ir kitų, 1998 metais yra priėmęs dokumentą „Using International Characters in Internet Mail“, kuriame rekomendavo:
All mail-creating programs created or revised after January 1, 1999, must be able to create mail using the UTF-8 charset. Another way to say this is that any program created or revised after January 1, 1999, that cannot create mail using the UTF-8 charset should be considered deficient and lacking in standard internationalization capabilities.
...
All mail-displaying programs created or revised after January 1, 1999, must be able to display mail that uses the UTF-8 charset. Another way to say this is that any program created or revised after January 1, 1999, that cannot display mail using the UTF-8 charset should be considered deficient and lacking in standard internationalization capabilities.

Reziumė: jei jūsų pašto programa normaliai nepalaiko UTF-8, jūs turėtumėte laikyti ją pasenuse arba netobula ir netinkančia tarptautinei (t.y. ne vien tik JAV) rinkai.

Pagal MIME standartą, RFC 2045,2046,2047,2048,2049, kiekvienas laiškas ar laiško MIME dalis privalo turėti „Content-Type:“ antrašte su „charset“ atributu. Tik tokiu būdu galima automatiškai nustatyti laiško teksto koduotę ir teisingai jį parodyti.

Tačiau to neužtenka vienareikšmiškai nustatyti antraščių koduotei („charset'ui“), be to daugelis populiarių pašto serverių programų sudarko neatitinkančias standartų antraštes su tiesiog 8 bitų simboliais. Dėl to antraštės turi būti RFC 2047 bei RFC 2231 nustatyta forma, pvz.: =?UTF-8?B?UmnEjWFyZGFzIMSMZXBhcw==?=.

„News“ programos dažnai elgiasi blogiau nei pašto, nes ilgą laiką nebuvo standartų, apibrėžiančių ne US-ASCII simbolių naudojimą news'uose. Naujuose dokumentuose rekomenduojama naudoti tą patį MIME pašto standartą news'uose.


  Valid XHTML 1.0!