Юникод
стандарт кодировки знаков, разработанный в 1991 организацией Unicode Consortium, который позволяет представить знаки в цифровой форме практически всех письменных языков. В документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита и кириллицы, при этом становятся ненужными кодовые страницы.
Коды в стандарте Unicode разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей (например, под символы кириллицы выделены коды от U+0400 до U+052F), знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. В Юникоде зарезервировано 1.114.112 (220+216) позиций символов, из которых сейчас используется около 90000. Первые 256 знакомест совпадают с кодовой таблицей ISO 8859-1 (Latin-1).
Юникод, подобно «таблице химических элементов Менделеева». Кодовое пространство разделено на 17 «плоскостей» по 65536 (216) символов: (0000–FFFF) Basic Multilingual Plane; (10000–1FFFF) Supplementary Multilingual Plane; (20000–2FFFF) Supplementary Ideographic Plane; плоскости 3-13 (30000–DFFFF) не используется; (E0000–EFFFF) Supplementary Special-purpose Plane; (F0000–FFFFF) зарезервировано для Private Use Area; (100000–10FFFF) зарезервировано для Private Use Area.
Основная многоязыковая плоскость «0» содержит символы практически для всех современных письменностей. Большая часть таблицы занята китайско-японско-корейскими иероглифами.
В Unicode 4.1 в этой плоскости представлены следующие символы:
Базовый латинский алфавит (0000—007F)
Международный фонетический алфавит (IPA) Extensions (0250—02AF)
Греческий и коптский алфавиты (0370—03FF)
Кириллица (0400—04FF), см. также Кириллица в Юникоде
Армянский алфавит (0530—058F)
Еврейский алфавит (0590—05FF)
Арабский алфавит (0600—06FF)
Сирийский алфавит (0700—074F)
Габули тана (0780—07BF)
Индийские письменности: деванагари, бенгали, гурмукхи, гуджарати, ория, тамили, телугу, каннада, малаяли, сингали (0900–0D7F)
Лао (0E80—0EFF)
Тибетская письменность (0F00—0FFF)
Бирманский алфавит (1000—109F)
Грузинский алфавит (10A0—10FF)
Амхарский язык (1200—137F)
Чероки (13A0—13FF)
Силлабарии аборигенов Канады (1400—167F)
Огам (1680—169F)
Международный фонетический алфавит (IPA) Extensions (0250—02AF)
Греческий и коптский алфавиты (0370—03FF)
Кириллица (0400—04FF), см. также Кириллица в Юникоде
Армянский алфавит (0530—058F)
Еврейский алфавит (0590—05FF)
Арабский алфавит (0600—06FF)
Сирийский алфавит (0700—074F)
Габули тана (0780—07BF)
Индийские письменности: деванагари, бенгали, гурмукхи, гуджарати, ория, тамили, телугу, каннада, малаяли, сингали (0900–0D7F)
Лао (0E80—0EFF)
Тибетская письменность (0F00—0FFF)
Бирманский алфавит (1000—109F)
Грузинский алфавит (10A0—10FF)
Амхарский язык (1200—137F)
Чероки (13A0—13FF)
Силлабарии аборигенов Канады (1400—167F)
Огам (1680—169F)
Руны (16A0—16FF)
Филиппинские письменности: тагалог, хануноо (мангьяна), бухид, тагбануа (1700–171F)
Кхмерский силлабарий (1780—17FF)
Монгольский алфавит (1800—18AF)
Лимбу (1900—194F)
Лы (1950—197F)
Тай-ныа (1980—19DF)
Буги (1A00—1A1F)
Математические операторы (2200—22FF)
Азбука Брайля (2800—28FF)
Глаголица (2C00—2C5F)
Коптский алфавит (2C80—2CFF)
Тифинаг (2D30—2D7F)
Хирагана (3040—309F)
Катакана (30A0—30FF)
Чжуинь (Бопомофо) (3100—312F)
Гексаграммы Ицзин (4DC0—4DFF)
Исское письмо (A000—A4 CF)
Силоти-нагри (A800—A82F)
Некоторые письменности будут добавлены в следующей версии Unicode. Эти письменности и предложенные диапазоны перечислены далее: Нко (мандиго) (07C0—07FF), Балийское (1B00—1B7F), Ронг-лепча (1C00—1C4F), Ол-Цемет (сантали) (2DE0—2DFF), Ваи (A500—A61F), Пагба (пассепа) (A840—A87F), Саураштри (AB00—AB5F)
Некоторые другие предложенные расширения: Авестийское и пехлеви (0800—085F), Чам (18B0—18FF), Батакское (1A20—1A5F), Ланна/юан, старое лы (1A80—1AEF), мейтхей/манипури (1C80—1CDF), Варанг-кшити (AA00—AA3F), Соранг-сомпенг (AA40—AA6F)