UTF-8 estas kodoprezento, maniero prezenti unikodajn signonumerojn per sinsekvo da bajtoj.
Ĝia nomo devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "8" indikas la fakton, ke la signonumerojn oni malkomponas en 8-bitajn bajtojn, bitokojn. Tia perbajta kodoprezento havas varian longon, de 1 ĝis 4 bajtoj.
UTF-8 estas difinita en la normo RFC 3629. Principe ĝia skemo povas uzi ĝis 6 bitokojn por unu signo, sed la Unikodaj signonumeroj ne superas 17·216, kaj por tiuj sufiĉas 4 bitokoj.
UTF-8 sekvas la principon, ke la komenca bitoko de signonumero estu klare rekonebla. Tial eblas malkodi kodoprezenton de signoĉeno ne nur ekde la komenco, sed de ajna ties pozicio. Tio funkcias, ĉar la unua bitoko en signonumero neniam komenciĝas per la bitoj "10", sed la sekvaj bitokoj ĉiam. Krome, la unua bitoko klare indikas, kiom da bitokoj havas la prezento de signonumero — nome tiom, kiom da unuoj (kiom da bitoj "1") aperas komence de la unua bitoko. Escepto estas la unubajtaj prezentoj de signonumeroj, kiuj komenciĝas per "0".
Jena tabelo montras la strukturon de la 1-, 2-, 3- kaj 4-bitokaj prezentoj de signonumeroj (x-oj indikas variajn bitojn informajn, kiuj konsistigas la propran numeron):
Unikoda intervalo, dek-ses-ume | UTF-8, du-ume | Rimarkigo |
0x000000 - 0x00007F | 0xxxxxxx | kodoj identaj al Askio; la bitoko komenciĝas per 0 |
0x000080 - 0x0007FF | 110xxxxx 10xxxxxx | la unua bitoko komenciĝas per 110, la dua per 10 |
0x000800 - 0x00FFFF | 1110xxxx 10xxxxxx 10xxxxxx | la unua bitoko komenciĝas per 1110, la dua kaj tria per 10 |
0x010000 - 0x10FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | la unua bitoko komenciĝas per 11110, la tri sekvaj per 10 |
Oni kritikis pri UTF-8, ke la prezentoj de signonumeroj havas malsamajn longojn. Iam tiurilate la kodoprezento UTF-16 havis avantaĝon, sed de kiam 2 bitokoj ne plu sufiĉas por Unikodo, tiu avantaĝo malpliiĝis.
La fakto, ke la unu-bitokaj signoj komenciĝas ne per "10", sed per "0", impresas kiel neregulaĵo. Sendube tiun decidon kaŭzis la deziro de kongrueco kun 8-bita reprezento de Askio.
Jen kiel la tradician ĉiuĉapelaĵon esperantan, prezentitan en UTF-8, vidigas la uniksa komando od (la neaskiaj kodoj en la supraj linioj, kaj ĉiuj kodoj en la malsupraj, aperas okume):
$ echo "eĥoŝanĝo" | od -An -t co1 e 304 245 o 305 235 a n 304 235 o \n 145 304 245 157 305 235 141 156 304 235 157 012 $ echo "ĉiuĵaŭde" | od -An -t co1 304 211 i u 304 265 a 305 255 d e \n 304 211 151 165 304 265 141 305 255 144 145 012 $
Kompreneble, en normala esperanta teksto la averaĝa denso de ĉapelitaj literoj estas multe malpli granda.
This article uses material from the Wikipedia Esperanto article UTF-8, which is released under the Creative Commons Attribution-ShareAlike 3.0 license ("CC BY-SA 3.0"); additional terms may apply (view authors). La enhavo estas disponebla laŭ CC BY-SA 4.0, se ne estas alia indiko. Images, videos and audio are available under their respective licenses.
®Wikipedia is a registered trademark of the Wiki Foundation, Inc. Wiki Esperanto (DUHOCTRUNGQUOC.VN) is an independent company and has no affiliation with Wiki Foundation.