UTF-8 - это кодировка символов, которая описывает каждую кодовую точку Unicode с использованием последовательности байтов от одного до четырех байтов. Он обратно совместим с ASCII, но при этом поддерживает представление всех кодовых точек Unicode.

UTF-8представляет собой character-encodingкоторый может описывать набор unicode в байтовых последовательностях от одного до четырех байтов.

UTF-8 является наиболее широко используемой кодировкой символов и рекомендуется для использования в Интернете. Это стандартная кодировка символов в linuxи других последних unixоперационных системах. Он был разработан для обеспечения обратной совместимости с ascii, при этом поддерживая представление всех кодовых точек Unicode.

Алгоритм кодирования кодовых точек в UTF-8 описан в RFC 3629.

Связанные теги

  • Тег character-encodingописывает общую концепцию кодировки наборов символов
  • unicodeможет быть представлена в различных кодировках, одним из которых является UTF-8
  • asciiнабор символов и его кодировка обобщают
  • Другие UTF: utf-16utf-32, редко используемые: utf-7utf-1utf-18utf-36utf8mb4