Unicode-koding: tegnkodingsstandard
Hver Internett-bruker i forsøksett opp en eller annen av sine funksjoner, minst en gang på skjermen, skrevet i latinske bokstaver, ordet "Unicode". Hva er det, vil du lære ved å lese denne artikkelen.
definisjon
"Unicode" -kodning er en kodingsstandardtegn. Det ble foreslått av non-profit organisasjonen Unicode Inc. i 1991. Standarden er laget for å kombinere så mange forskjellige typer symboler som mulig i ett dokument. Siden som er opprettet på grunnlag av den, kan inneholde bokstaver og hieroglyfer fra forskjellige språk (fra russisk til koreansk) og matematiske tegn. Alle tegn i denne kodingen vises uten problemer.
Grunner til å skape
En gang i tiden, langt før fremveksten av et enhetlig system"Unicode", ble kodingen valgt ut fra forfatterens preferanser. Av denne grunn, ofte for å lese ett dokument, måtte du bruke forskjellige tabeller. Noen ganger måtte det gjøres flere ganger, noe som betydelig kompliserte livet til en vanlig bruker. Som allerede nevnt, ble løsningen på dette problemet i 1991 foreslått av non-profit organisasjonen Unicode Inc., som foreslo en ny type tegnkoding. Han ble kalt for å kombinere moralsk forældede og mangfoldige standarder. "Unicode" -kodning, som fikk det utrolige på den tiden: å lage et verktøy som støtter et stort antall tegn. Resultatet overgikk mange forventninger - dokumenter fremkom som samtidig inneholdt både engelsk og russisk tekst, latin og matematiske uttrykk.
Men skapelsen av en enkelt koding foregikkbehovet for å løse et antall problemer som oppstod på grunn av det store utvalget av standarder som allerede eksisterte på den tiden. De vanligste er:
- elfiske skrifter, eller "karkozyabry";
- begrenset tegnsett;
- problemet med koding av konvertering;
- duplisering av skrifter.
En kort historisk nedbrytning
Tenk deg at gården er 80-tallet. Datateknologi er ikke så utbredt og har et skjema som er forskjellig fra i dag. På det tidspunktet er hvert OS unikt på sin egen måte, og er ferdigstilt av hver entusiast for spesifikke behov. Behovet for informasjonsutveksling blir til en ytterligere revisjon av alt i verden. Forsøk på å lese et dokument opprettet under et annet operativsystem, viser ofte et uforståelig sett med tegn på skjermen, og spill med koding begynner. Det er ikke alltid mulig å gjøre dette raskt, og noen ganger kan det nødvendige dokumentet åpnes seks måneder senere, eller senere. Folk som ofte utveksler informasjon, oppretter konverteringstabeller for seg selv. Og her viser arbeid på dem en interessant detalj: de må opprettes i to retninger: "fra min til deg" og tilbake. For å gjøre en banal inversjon av beregninger kan ikke maskinen, for den i høyre kolonne, en kildekode og i den venstre kolonnen - resultere, men på noen måte tvert imot. Hvis det var behov for å bruke noen spesialtegn i dokumentet, måtte de først legges til, og deretter forklart også partneren hva han trengte å gjøre slik at disse tegnene ikke ble til "krakozyabry". Og la oss ikke glemme at for hver koding måtte vi utvikle eller implementere våre egne skrifter, noe som førte til etableringen av et stort antall duplikater i operativsystemet.
Tenk deg også at på siden av fonter duDu vil se 10 stykker av identiske Times New Roman med små notater: for utf-8, UTF-16, ANSI, UCS-2. Nå forstår du at utviklingen av en universell standard var en presserende nødvendighet?
"De grunnleggerne av skaperne av"
Opprinnelsen til opprettelsen av Unicode skal søges i 1987år, da Joe Becker fra Xerox, sammen med Lee Collins og Mark Davis of Apple, begynte å undersøke praktisk opprettelse av et universelt tegnesett. I august 1988 publiserte Joe Becker et utkast til forslag til et 16-biters internasjonalt flerspråklig kodingssystem.
Etter noen måneder, Unicode-arbeidsgruppenDet ble utvidet til å omfatte Ken Whistler og Mike Kernegan fra RLG, Glenn Wright fra Sun Microsystems, og flere andre spesialister, som gjorde det mulig å fullføre arbeidet med den foreløpige utformingen av en enkelt kodingsstandard.
Generell beskrivelse
Unicode er basert på forestillingen om et symbol. Denne definisjonen refererer til et abstrakt fenomen som eksisterer i en bestemt form for skriving og realiseres gjennom grafemer (dens "portretter"). Hver karakter er satt i "Unicode" med en unik kode som tilhører en bestemt blokk av standarden. For eksempel er grafem B i både engelsk og russisk alfabeter, men i Unicode er det 2 forskjellige symboler som svarer til det. De konverteres til små bokstaver, det vil si hver av dem er beskrevet av en databasetast, et sett med egenskaper og det fulle navnet.
Fordeler med Unicode
Fra resten av hans samtidige som koder for "Unicode"forskjellig et stort antall tegn for å "kryptere" tegn. Faktum er at hans forgjengere hadde 8 biter, det vil si at de støttet 28 tegn, men den nye utviklingen hadde allerede 216 tegn, noe som var et stort skritt fremover. Dette tillot å kode for nesten alle eksisterende og vanlige alfabeter.
Med adventen av "Unicode" behøves ikke lengerbruk konverteringstabeller: som en enkelt standard, ignorerte det bare deres behov. På samme måte har "sprekker" gått ned i glemsel - en enkelt standard gjorde dem umulige, samt eliminert behovet for å lage dupliserte fonter.
Unicode utvikling
Selvfølgelig står fremgangen ikke stille, og sidenDen første presentasjonen har gått 25 år. Imidlertid holder kodingen "Unicode" stædig sin posisjon i verden. På mange måter var dette mulig på grunn av det faktum at det ble lett implementert og ble utbredt, anerkjent av utviklere av proprietær (betalt) og åpen kildekode.
Det bør ikke antas at vi i dagDen samme Unicode-kodingen er tilgjengelig for et kvart århundre siden. For øyeblikket er versjonen endret til 5.xx, og antall kodede tegn har økt til 231. De nektet å bruke et større antall tegn for fortsatt å beholde støtte for Unicode-16 (kodinger der maksimumsnummeret var begrenset til 216). Siden introduksjonen til versjon 2.0.0 har Unicode Standard økt antall tegn som er inkludert i den, nesten 2 ganger. Vekstmuligheter fortsatte i de senere år. Ved versjon 4.0.0 var det allerede behov for å øke standarden selv, som ble gjort. Som et resultat har "Unicode" funnet den typen vi kjenner til i dag.
Hva er det i Unicode?
I tillegg til den enorme, stadig voksendeAntall tegn, "Unicode" -kodingstekstinformasjon har en annen nyttig funksjon. Dette er den såkalte normaliseringen. I stedet for å bla gjennom hele dokumentsymbolet med symbol og erstatte de tilsvarende ikonene fra korrespondansetabellen, brukes en av de eksisterende normaliseringsalgoritmene. Hva handler det om?
I stedet for å kaste bort beregningsressursermaskiner for jevnlig kontroll av samme karakter, som kan være like i forskjellige alfabeter, bruk en spesiell algoritme. Den lar deg lage lignende symboler i en egen kolonne på oppslagstabellen og se til dem, i stedet for å kontrollere alle data om og om igjen.
Det er fire slike algoritmer utviklet og implementert. I hver av dem foregår transformasjonen i henhold til et strengt definert prinsipp, som er forskjellig fra de andre, derfor er det ikke mulig å nevne noen av dem som den mest effektive. Hver ble designet for spesifikke behov, ble implementert og vellykket brukt.
Standardfordeling
Over 25 år av sin historie, kodingen "Unicode"mottatt sannsynligvis den vanligste i verden. Programmer og nettsider er også tilpasset denne standarden. Det faktum at Unicode i dag brukes av mer enn 60% av Internett-ressursene, kan snakke om bruksbredden.
Nå vet du når Unicode-standarden dukket opp. Hva er det, vet du også og vil kunne sette pris på den fulle verdien av oppfinnelsen, laget av en gruppe eksperter Unicode Inc. mer enn 25 år siden.