Unicode
Unicode är en industristandard som bland annat innehåller en teckenkod om 21 bitar per tecken. De tecken som ryms inom de första 16 bitarna utgör större delen av världens vanliga skrivtecken, inklusive de som används i kinesiska, japanska, tamil och även vissa utdöda skrivsätt som runor. Unicodestandarden (som anger vilka bitar som skall motsvara vilka tecken) publiceras av . Den senaste versionen är 4.0, från april 2003.Unicode är indelat i 17 s k plan, vardera med utrymme för 65 536 tecken. Totalt finns alltså 1 114 112 tillgängliga teckenpositioner. Antalet definierade tecken är i version 4.0 ca 96 000.
16-bitarstecknen återfinns i plan 0, Basic Multilingual Plane (BMP). Fr o m Unicode 3.1 har tecken tilldelats positioner utanför BMP. I plan 1 (Basíc Supplementary Plane) återfinns bland annat gotiska och etruskiska tecken. Det finns förslag att inkludera alfabet från påhittade språk som JRR Tolkiens Tengwar och Cirth, men här har konsortiet ännu inte tagit slutgiltig ställning. Se http://www.unicode.org/roadmaps/smp/.
Teckenuppsättningen i Unicode är helt synkroniserad med standarden ISO 10646. Se http://www.unicode.org/unicode/faq/unicode_iso.html.
UTF-8 och UTF-16 är de två vanligaste sätten att representera Unicodetecken som bitsekvenser. Båda kännetecknas av att antalet oktetter som representerar ett tecken varierar beroende på vilket tecken som kodas. UTF-16 är ett superset av den föråldrade UCS-2, vilken enbart kunde beteckna de första 65 536 tecknen. De första 65 536 Unicode-tecknen betecknas i UTF-16 på samma sätt som UCS-2, medan tecken utanför BMP representeras med hjälp av så kallade surrogatpar.
Till skillnad mot ASCII, där en del tecken används i flera olika betydelser (t.ex. "-" som används som minustecken, bindestreck och tankstreck), har varje sådant tecken en egen teckenposition i Unicode. De tecken som importerats från existerande standarder behåller dock sin tvetydiga semantik (såsom just "-" vilket i Unicode kallas för "hyphen-minus" just av denna orsak).
En detalj som kan krångla till användandet av Unicode, är att det finns kombinationstecken, tecken som modifierar ett annat tecken, se http://www.unicode.org/unicode/faq/char_combmark.html.
Det kan bli rörigt när man har olika filer på samma system kodade i olika teckenstandards, t.ex. Latin-1 och UTF-8. Ett sätt att underlätta är att inleda Unicode-filerna med en byte-order-mark eller BOM. En BOM kodad i UTF-8 är bytevärdena 0xEF 0xBB 0xBF. Versionshanteringssystemet Subversion anger teckenkodningen för varje fil. .
Se även
- Unicode och Java
- Unicode och Linux
- Unicode och MySQL - version 4.1 har stöd för UTF-8, se även MySQL
- Unicode och Perl
- Unicode och pike
- Unicode och Python
Länkar
- http://www.unicode.org
- http://www.unicode.org/charts/ - Tabeller över Unicodetecken
- http://www.theorem.ca/~mvcorks/code/charsets/auto.html - trevlig uppdelning av tecknen
- http://www.joelonsoftware.com/articles/Unicode.html - The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
- är ett funktionsbibliotek för Unicode med öppen källkod från IBM.
Artikeln skriven 2009-01-17 av Learning4sharing
Inga kategorier för denna artikel än...Intresserad av fler artiklar?
EntusiastDinosaurie
Jesus Christ Superstar
MegaDrive
Sonic The Hedgehog Triple Trouble
Johan Georg II av Sachsen
August den starke
Circle Line
Svensk dansbandsmusik