Normalisation Unicode

La normalisation Unicode est une normalisation de texte qui transforme des caractères ou séquences de caractères équivalents en représentation fondamentale afin que celle-ci puisse être facilement comparée.

La décomposition canonique peut être utilisée dans l’échange normalisé de textes. Elle permet d’effectuer une comparaison binaire tout en conservant une équivalence canonique avec le texte non normalisé d’origine.

NFD

Les caractères sont décomposés par équivalence canonique et réordonnés.

Exemples NFD
chaîne	caractères		caractères normalisés	chaîne normalisée
À	AU+0041 + ◌̀U+0300	=	AU+0041 + ◌̀U+0300	À
ẹ́	eU+0065 + ◌́U+0301 + ◌̣U+0323	→	eU+0065 + ◌̣U+0323 + ◌́U+0301	ẹ́
ñ	ñU+00F1	→	nU+006E + ◌̃U+0303	ñ
Ω (ohm)	ΩU+2126	→	ΩU+03A9	Ω (oméga)
ﬁ (ligature)	ﬁU+FB01	=	ﬁU+FB01	ﬁ (ligature)
² (exposant)	²U+00B2	=	²U+00B2	² (exposant)
한	한U+D55C	→	ᄒU+1112 + ᅡU+1161 + ᆫU+11AB	한
が	かU+304B + ◌゙U+3099	=	かU+304B + ◌゙U+3099	が
ئ	ئU+0626	→	يU+064A + ◌ٔU+0654	ئ
בּ	בּU+FB31	→	בU+05D1 + ◌ּU+05BC	בּ

NFC

Les caractères sont décomposés par équivalence canonique, réordonnés, et composés par équivalence canonique.

Exemples NFC
chaîne	caractères		caractères normalisés	chaîne normalisée
À	AU+0041 + ◌̀U+0300	→	ÀU+00C0	À
ẹ́	eU+0065 + ◌́U+0301 + ◌̣U+0323	→	ẹU+1EB9 + ◌́U+0301	ẹ́
ñ	ñU+00F1	=	ñU+00F1	ñ
Ω (ohm)	ΩU+2126	→	ΩU+03A9	Ω (oméga)
ﬁ (ligature)	ﬁU+FB01	=	ﬁU+FB01	ﬁ (ligature)
² (exposant)	²U+00B2	=	²U+00B2	² (exposant)
한	한U+D55C	=	한U+D55C	한
が	かU+304B + ◌゙U+3099	→	がU+304C	が
ئ	ئU+0626	=	ئU+0626	ئ
בּ	בּU+FB31	→	בU+05D1 + ◌ּU+05BC	בּ

NFKD

Les caractères sont décomposés par équivalence canonique et de compatibilité, et sont réordonnés.

Exemples NFKD
chaîne	caractères		caractères normalisés	chaîne normalisée
À	AU+0041 + ◌̀U+0300	=	AU+0041 + ◌̀U+0300	À
ẹ́	eU+0065 + ◌́U+0301 + ◌̣U+0323	→	eU+0065 + ◌̣U+0323 + ◌́U+0301	ẹ́
ñ	ñU+00F1	→	nU+006E + ◌̃U+0303	ñ
Ω (ohm)	ΩU+2126	→	ΩU+03A9	Ω (oméga)
ﬁ (ligature)	ﬁU+FB01	→	fU+0066 + iU+0069	fi
² (exposant)	²U+00B2	→	2U+0032	2
한	한U+D55C	→	ᄒU+1112 + ᅡU+1161 + ᆫU+11AB	한
が	かU+304B + ◌゙U+3099	=	かU+304B + ◌゙U+3099	が
ئ	ئU+0626	→	يU+064A + ◌ٔU+0654	ئ
בּ	בּU+FB31	→	בU+05D1 + ◌ּU+05BC	בּ

NFKC

Les caractères sont décomposés par équivalence canonique et de compatibilité, sont réordonnés et sont composés par équivalence canonique.

Exemples NFKC
chaîne	caractères		caractères normalisés	chaîne normalisée
À	AU+0041 + ◌̀U+0300	→	ÀU+00C0	À
ẹ́	eU+0065 + ◌́U+0301 + ◌̣U+0323	→	ẹU+1EB9 + ◌́U+0301	ẹ́
ñ	ñU+00F1	=	ñU+00F1	ñ
Ω (ohm)	ΩU+2126	→	ΩU+03A9	Ω (oméga)
ﬁ (ligature)	ﬁU+FB01	→	fU+0066 + iU+0069	fi
² (exposant)	²U+00B2	→	2U+0032	2
한	한U+D55C	=	한U+D55C	한
が	かU+304B + ◌゙U+3099	→	がU+304C	が
ئ	ئU+0626	=	ئU+0626	ئ
בּ	בּU+FB31	→	בU+05D1 + ◌ּU+05BC	בּ

Annexes

Articles connexes

Unicode
Équivalence Unicode
L’outil uconv (ICU) permet de normaliser du texte, par exemple « uconv -x '::nfkd;' » applique la normalisation NFKD.

Liens externes

Formes de normalisation