Unicode est une norme pour l'encodage, la représentation et la gestion du texte avec l'intention de prendre en charge tous les caractères requis pour le texte écrit intégrant tous les systèmes d'écriture, symboles techniques et ponctuation.

Unicode

Unicodeattribue à chaque caractère un point de code qui servira de référence unique:

  • U + 0041 A
  • U + 0042 B
  • U + 0043 C
  • ...
  • U + 039B Λ
  • U + 039C Μ

Formats de transformation Unicode

Les UTF décrivent comment coder les points de code sous forme de représentations d'octets. Les formes les plus courantes sont UTF-8 (qui code les points de code comme une séquence d'un, deux, trois ou quatre octets) et UTF-16 (qui code les points de code comme deux ou quatre octets).

Code Point          UTF-8           UTF-16 (big-endian)
U+0041              41              00 41
U+0042              42              00 42
U+0043              43              00 43
...
U+039B              CE 9B           03 9B
U+039C              CE 9C           03 9C

Spécification

Le consortium Unicode définit également des normes pour les algorithmes de tri, les règles de mise en majuscule, la normalisation des caractères et d'autres opérations de caractères sensibles aux paramètres régionaux.

Identification des personnages

Pour des informations plus générales, consultez l'article Unicode sur Wikipedia.