Von ASCII bis UTF-8 im Detail
ASCII
Kodierung eines Zeichensatzes aus 128 Zeichen
Je mehr Zeichen in den Zeichensatz aufgenommen werden, desto größer
werden die Zahlenwerte, die man zu ihrer Kodierung braucht. Gerade in
den Anfangszeiten der Computer musste noch um jedes Bit gefeilscht
werden. Daher beschloss man, nur Zahlenwerte zu verwenden, die mit
7 Bit dargestellt werden können. Mit 7 Bit lassen sich exakt 128
verschiedene Werte darstellen.
Für Mathe-Freunde: 27 = 128
Bereits in den 1960er Jahren etablierte sich unter dem Namen ASCII die bis heute populärste Zeichenkodierung für die ersten 128 Zeichen. Darin sind neben Zahlen, Buchstaben, Satz- und Sonderzeichen auch einige nicht darstellbare Steuerzeichen enthalten, die uns aber hier nicht interessieren.
Sind 128 Zeichen genug?
Technisch gesehen kann man mit einem 128 Zeichen langen Zeichensatz über die Runden kommen. Aber die Sprache ist ein zartes Pflänzlein und bestimmt unser Denken. Jede Abweichung führt unweigerlich zu Missverständnissen oder Kreativitätsverlust. Darüber kann man steiten, aber über eines nicht: Korrekt dargestellte Texte sehen netter aus (Stilfrage) und lesen sich besser (Effizienzfrage).
Denkt man darüber nach, welche Zeichen im ASCII nicht repräsentiert sind, fallen einem zunächst die Umlaute und das scharfe S ein. Das wurde früher grob und schlecht gelöst in dem man den Leuten ein Ae für ein Ä und ein ss für ein ß vormachte. Ae ist nicht Ä (Aerodynamik) und ein Doppel-S ist kein scharfes S (Maße haben keine Masse).
Selbst ein englischsprachiger Text kommt heute kaum mit dem Zeichensatz des ASCII aus: Währungssymbole sehen professioneller aus als Abkürzungen (£, ¥, €); ausländische Namen von Personen (Lech Wałęsa, Søren Kierkegaard), Städten (Haßfurt) und Firmen (Citroën) wollen richtig geschrieben werden; zu einem schönen Schriftbild gehören «diese» oder „jene” Anführungszeichen und man braucht vielleicht Zeichen wie das Copyright-Symbol (©).