Outils pour utilisateurs

Outils du site


sysadmin:linux:encodage-des-caracteres

Ceci est une ancienne révision du document !


Encodage des caractères

Par son mode de fonctionnement, un ordinateur ne permet que de stocker des représentations binaires. Il n'y a donc pas de façon “naturelle” de représenter un caractère comme 'A', un guillemet ou un point-virgule. Un jeu de caractère est une table permettant d'établir un transcodage entre une valeur binaire et un symbole, un caractère. C'est donc un choix, une convention et plusieurs jeux de caractères existent comme US-ASCII, CP1252, ISO 8859-1 (Latin-1), ISO 8859-15 (Latin-9), UTF-8 etc.

Pour représenter un caractère à l’écran il faut donc:

  1. décoder le flux d'octets pour associer le code binaire à un symbole, c'est le rôle du jeu de caractères.
  2. Afficher un symbole, c'est à dire dessiner le glyphe correspondant au symbole c'est le rôle de la police de caractères.

Les éditeurs de textes permettent de définir quel jeu de caractères (charset) doit être utilisé pour l'édition et l'enregistrement d'un fichier texte.

Déterminer le charset d'un fichier

Plusieurs outils peuvent être utilisés: uchardet, file, enca

Conversion

toDo: iconv

Références

sysadmin/linux/encodage-des-caracteres.1605358277.txt.gz · Dernière modification : 2021/02/01 21:51 (modification externe)