Конвертер Unicode нужен, когда строку надо увидеть не только как текст, но и как набор технических представлений: U+ code points, decimal, hex, HTML entity и JavaScript escape. Это удобно для отладки API, HTML-разметки, документации, тестовых данных и символов, которые плохо различимы глазами.
Инструмент работает в двух направлениях: переводит текст в Unicode-форматы и собирает строку обратно из технических токенов. Для каждого code point инспектор показывает glyph, U+ запись, HTML-формы, JavaScript escape, UTF-8 байты и UTF-16 представление.
Какие форматы поддерживаются
В режиме кодирования обычный текст, emoji и специальные символы раскладываются в несколько готовых форматов:
- U+ code points: U+0041 U+1F680
- Decimal: 65 128640
- Hex: 41 1F680
- HTML decimal entity: A 🚀
- HTML hex entity: A 🚀
- JavaScript escape: \u0041 и \u{1F680}
В режиме декодирования можно вставлять U+1F680, 128640, 0x1F680, HTML entity, именованные HTML entity вроде ©, а также JavaScript escape формата \u041F или \u{1F680}. Если токен распознан, он превращается обратно в читаемый текст.
UTF-8 и UTF-16 инспектор
Unicode задает универсальные code points для символов, но в коде и протоколах один и тот же символ может иметь разные представления. Поэтому инспектор отдельно показывает UTF-8 байты и UTF-16 code units. Например, обычная латинская буква занимает один UTF-16 unit, а многие emoji представлены суррогатной парой.
Такой разбор помогает отличить сам Unicode code point от байтовой записи в UTF-8 и от того, как строку хранит JavaScript. Это особенно полезно для emoji, управляющих символов, специальных пробелов и строк, где визуально один символ состоит из нескольких частей.
Ограничения и ошибки
Инструмент считает Unicode code points, а не grapheme clusters. Составной emoji, флаг или буква с комбинируемым знаком может выглядеть как один пользовательский символ, но состоять из нескольких code point.
Невалидные значения не исправляются автоматически. Суррогатные code points, значения вне диапазона U+0000 - U+10FFFF и нераспознанные escape-последовательности останавливают декодирование с явной ошибкой. Это честнее для технической проверки, чем молча заменять проблемный символ.
Все преобразования выполняются в браузере. Страница не является таблицей названий Unicode-символов и не определяет категории символов; ее задача - быстро показать рабочие кодовые формы строки и помочь проверить, что именно попадет в HTML, JavaScript или текстовый протокол.