Перейти к содержимому

Конвертер Unicode онлайн

Переводите текст и символы Unicode в U+ code points, decimal, hex, HTML entity и JavaScript escape. Инспектор показывает UTF-8 байты, UTF-16 code units и ограничения для невалидных токенов.

Инструмент загружается...

Конвертер Unicode нужен, когда строку надо увидеть не только как текст, но и как набор технических представлений: U+ code points, decimal, hex, HTML entity и JavaScript escape. Это удобно для отладки API, HTML-разметки, документации, тестовых данных и символов, которые плохо различимы глазами.

Инструмент работает в двух направлениях: переводит текст в Unicode-форматы и собирает строку обратно из технических токенов. Для каждого code point инспектор показывает glyph, U+ запись, HTML-формы, JavaScript escape, UTF-8 байты и UTF-16 представление.

Какие форматы поддерживаются

В режиме кодирования обычный текст, emoji и специальные символы раскладываются в несколько готовых форматов:

  • U+ code points: U+0041 U+1F680
  • Decimal: 65 128640
  • Hex: 41 1F680
  • HTML decimal entity: A 🚀
  • HTML hex entity: A 🚀
  • JavaScript escape: \u0041 и \u{1F680}

В режиме декодирования можно вставлять U+1F680, 128640, 0x1F680, HTML entity, именованные HTML entity вроде ©, а также JavaScript escape формата \u041F или \u{1F680}. Если токен распознан, он превращается обратно в читаемый текст.

UTF-8 и UTF-16 инспектор

Unicode задает универсальные code points для символов, но в коде и протоколах один и тот же символ может иметь разные представления. Поэтому инспектор отдельно показывает UTF-8 байты и UTF-16 code units. Например, обычная латинская буква занимает один UTF-16 unit, а многие emoji представлены суррогатной парой.

Такой разбор помогает отличить сам Unicode code point от байтовой записи в UTF-8 и от того, как строку хранит JavaScript. Это особенно полезно для emoji, управляющих символов, специальных пробелов и строк, где визуально один символ состоит из нескольких частей.

Ограничения и ошибки

Инструмент считает Unicode code points, а не grapheme clusters. Составной emoji, флаг или буква с комбинируемым знаком может выглядеть как один пользовательский символ, но состоять из нескольких code point.

Невалидные значения не исправляются автоматически. Суррогатные code points, значения вне диапазона U+0000 - U+10FFFF и нераспознанные escape-последовательности останавливают декодирование с явной ошибкой. Это честнее для технической проверки, чем молча заменять проблемный символ.

Все преобразования выполняются в браузере. Страница не является таблицей названий Unicode-символов и не определяет категории символов; ее задача - быстро показать рабочие кодовые формы строки и помочь проверить, что именно попадет в HTML, JavaScript или текстовый протокол.

Частые вопросы

Он переводит обычный текст и отдельные символы в U+ code points, decimal, hex, HTML entity и JavaScript escape, а также собирает строку обратно из этих технических форматов.

Поддерживаются записи вида U+1F600, 128512, 0x1F600, HTML decimal entity, HTML hex entity, именованные HTML entity и JavaScript escape, включая \u041F и \u{1F680}.

Да. Инспектор раскладывает строку по Unicode code point и для каждого элемента показывает glyph, code point, HTML-формы, JavaScript escape, UTF-8 байты и UTF-16 представление.

Инструмент считает Unicode code points, а не пользовательские символы-графемы. Составной emoji или буква с комбинируемым знаком может занимать несколько code point.

Инструмент не угадывает исправление. Он показывает ошибку для нераспознанного токена, суррогатного значения или code point вне диапазона Unicode.

Скопировано