Start Logga In Skriv Artikel Om Oss
Vad söker du?
Allt om 'Unicode'

Unicode

Unicode är en industristandard som bland annat innehåller en teckenkod om 21 bitar per tecken. De tecken som ryms inom de första 16 bitarna utgör större delen av världens vanliga skrivtecken, inklusive de som används i kinesiska, japanska, tamil och även vissa utdöda skrivsätt som runor. Unicodestandarden (som anger vilka bitar som skall motsvara vilka tecken) publiceras av . Den senaste versionen är 4.0, från april 2003.

Unicode är indelat i 17 s k plan, vardera med utrymme för 65 536 tecken. Totalt finns alltså 1 114 112 tillgängliga teckenpositioner. Antalet definierade tecken är i version 4.0 ca 96 000.

16-bitarstecknen återfinns i plan 0, Basic Multilingual Plane (BMP). Fr o m Unicode 3.1 har tecken tilldelats positioner utanför BMP. I plan 1 (Basíc Supplementary Plane) återfinns bland annat gotiska och etruskiska tecken. Det finns förslag att inkludera alfabet från påhittade språk som JRR Tolkiens Tengwar och Cirth, men här har konsortiet ännu inte tagit slutgiltig ställning. Se http://www.unicode.org/roadmaps/smp/.

Teckenuppsättningen i Unicode är helt synkroniserad med standarden ISO 10646. Se http://www.unicode.org/unicode/faq/unicode_iso.html.

UTF-8 och UTF-16 är de två vanligaste sätten att representera Unicodetecken som bitsekvenser. Båda kännetecknas av att antalet oktetter som representerar ett tecken varierar beroende på vilket tecken som kodas. UTF-16 är ett superset av den föråldrade UCS-2, vilken enbart kunde beteckna de första 65 536 tecknen. De första 65 536 Unicode-tecknen betecknas i UTF-16 på samma sätt som UCS-2, medan tecken utanför BMP representeras med hjälp av så kallade surrogatpar.

Till skillnad mot ASCII, där en del tecken används i flera olika betydelser (t.ex. "-" som används som minustecken, bindestreck och tankstreck), har varje sådant tecken en egen teckenposition i Unicode. De tecken som importerats från existerande standarder behåller dock sin tvetydiga semantik (såsom just "-" vilket i Unicode kallas för "hyphen-minus" just av denna orsak).

En detalj som kan krångla till användandet av Unicode, är att det finns kombinationstecken, tecken som modifierar ett annat tecken, se http://www.unicode.org/unicode/faq/char_combmark.html.

Det kan bli rörigt när man har olika filer på samma system kodade i olika teckenstandards, t.ex. Latin-1 och UTF-8. Ett sätt att underlätta är att inleda Unicode-filerna med en byte-order-mark eller BOM. En BOM kodad i UTF-8 är bytevärdena 0xEF 0xBB 0xBF. Versionshanteringssystemet Subversion anger teckenkodningen för varje fil. .

Se även

  • Unicode och Java
  • Unicode och Linux
  • Unicode och MySQL - version 4.1 har stöd för UTF-8, se även MySQL
  • Unicode och Perl
  • Unicode och pike
  • Unicode och Python

Länkar

  • http://www.unicode.org
  • http://www.unicode.org/charts/ - Tabeller över Unicodetecken
  • http://www.theorem.ca/~mvcorks/code/charsets/auto.html - trevlig uppdelning av tecknen
  • http://www.joelonsoftware.com/articles/Unicode.html - The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)
  • är ett funktionsbibliotek för Unicode med öppen källkod från IBM.

Redigera?

Artikeln skriven 2009-01-17 av Learning4sharing

Inga kategorier för denna artikel än...

Vi behhöver hjälp att kategorisera våra artiklar. Kan du skriva ett nyckelord för denna artikel? Du kan skriva upp till 3 olika nyckelord för denna artikel, vi uppskattar din hjälp!

Skriv nyckelord som du tycker beskriver denna artikel på ett bra sätt. Du kan ange 3 olika nyckelord för denna artikel, max 20 tecken per nyckelord.

  1. Lägg till fler
    Skriv in svaret på frågan: 2+10

Intresserad av fler artiklar?

Entusiast
Dinosaurie
Jesus Christ Superstar
MegaDrive
Sonic The Hedgehog Triple Trouble
Johan Georg II av Sachsen
August den starke
Circle Line
Svensk dansbandsmusik

Senaste sökningarna

vajrayana har fått 1400 sökningar. Den senaste gjordes 2024-09-14 11:55:05.

dimissionsrätt har fått 1188 sökningar. Den senaste gjordes 2024-09-14 11:51:20.

moleky har fått 1553 sökningar. Den senaste gjordes 2024-09-14 11:51:16.

valutakod har fått 1209 sökningar. Den senaste gjordes 2024-09-14 11:51:14.

marcus eriksson har fått 1256 sökningar. Den senaste gjordes 2024-09-14 11:49:28.

landsnummer har fått 1539 sökningar. Den senaste gjordes 2024-09-14 11:46:08.

aptering har fått 1262 sökningar. Den senaste gjordes 2024-09-14 11:45:17.

vakuol har fått 1667 sökningar. Den senaste gjordes 2024-09-14 11:44:02.

företag har fått 1305 sökningar. Den senaste gjordes 2024-09-14 11:43:32.

xs har fått 1759 sökningar. Den senaste gjordes 2024-09-14 11:41:57.

Gandalf har fått 1394 sökningar. Den senaste gjordes 2024-09-14 11:39:06.

zlatan har fått 1416 sökningar. Den senaste gjordes 2024-09-14 11:38:15.

Designed by: template world
Learning4sharing.nu
All Rights Reserved. 0.07 SEK

Logga in

Välkommen att redigera och skriva nya artiklar!

Ingent Konto?

Skaffa konto för att redigera och skapa nya ariklar Nytt Konto.

Ny Användare

Välkommen att redigera och skriva nya artiklar! Skapa konto nedan.


Ett verifieringsmail kommer att skickas till din E-post som du måste öppna och verifiera din E-post med

Lägg till artikel

Du är inte inloggad.

Logga In eller Skapa konto.