UTF-8
UTF-8 (Format de Transformation Unicode 8 bits)
Un standard d'encodage de caractères qui peut représenter les 1 114 112 points de code du standard Unicode en utilisant des séquences de 1 à 4 octets, tout en étant compatible avec ASCII et constituant le standard dominant pour le texte sur le web.
Détail technique
UTF-8 encode les points de code Unicode en longueur variable : 1 octet pour U+0000–U+007F (ASCII identique), 2 octets pour U+0080–U+07FF (Latin, Grec, Cyrillique, Arabe), 3 octets pour U+0800–U+FFFF (CJK, la plupart des scripts), et 4 octets pour U+10000–U+10FFFF (emoji, scripts historiques). L'octet de tête indique la longueur : 0xxxxxxx (1 octet), 110xxxxx (2), 1110xxxx (3), 11110xxx (4), avec des octets de continuation 10xxxxxx. Propriété d'auto-synchronisation : on peut trouver les limites de caractères en partant de n'importe quelle position. UTF-8 est obligatoire en JSON (RFC 8259), recommandé en HTML5 et utilisé par 98%+ de toutes les pages web.
Exemple
```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
const data = e.target.result;
console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```