UTF-16 (16-bit Unicode Transformation Format) is a character encoding capable of encoding all 1,112,064 valid code points of Unicode (in fact this number of code points is dictated by the design of UTF-16). The encoding is variable-length, as code points are encoded with one or two 16-bit code units. UTF-16 arose from an earlier obsolete fixed-width 16-bit encoding, now known as UCS-2 (for 2-byte Universal Character Set), once it became clear that more than 216 (65,536) code points were needed.

  • UTF-16 és una forma de codificació de caràcters UCS i Unicode utilitzant símbols de longitud variable. Es troba oficialment definit en l'annex C de la norma ISO/IEC 10646:2003. També està descrita en l'estàndard Unicode (versió 3.0 o superior). És l'abreviara d'Unicode Transformation Format de 16-plans o més exactament , «UCS Transformation Format for 16 Plans of Group 00» segons la norma internacional . Te les característiques principals següents: * És capaç de representar qualsevol caràcter Unicode. * Utilitza símbols de longitud variable: 1 o 2 paraules de 16 bits per caràcter Unicode (2 o 4 bytes). La unitat d'informació és la paraula de 16 bits. * Està optimitzat per a representar caràcters al pla bàsic multilingüe o BMP, caràcters en el rang U+0000 a O+FFFF. El BMP conté la gran majoria de caràcters i sistemes d'escriptura en ús en l'actualitat. Quan es limita al pla bàsic multilingüe, UTF-16 pot ser considerat una forma de codificació amb símbols de mida fixa (16 bits). * No superposició: Els símbols d'una paraula (16 bits) utilitzen un subconjunt de valors que no es pot utilitzar en símbols de 2 paraules (32 bits). (ca)
  • يو تي اف-16 UTF-16 (تنسيق تحويل Unicode 16 بت) هو ترميز أحرف قادر على ترميز جميع نقاط الكود الصالحة البالغ عددها 1112.064 في الترميز الموحد (في الواقع، تم تحديد هذا العدد من نقاط الشفرة بواسطة تصميم UTF-16). يكون الترميز متغير الطول، حيث يتم ترميز نقاط الترميز بواحدة أو وحدتي رمز 16 بت. نشأ UTF-16 من ترميز 16 بت عرض ثابت قديم قديم، يُعرف الآن باسم UCS-2 (لمجموعة الأحرف العالمية 2 بايت)، بمجرد أن أصبح من الواضح أن هناك حاجة إلى أكثر من 216 (65536) نقطة رمز. يتم استخدام UTF-16 بواسطة أنظمة مثل Microsoft Windows API (والتي تدعم أيضًا صيغة التحويل الموحد-8) ولغة برمجة Java وجافا سكريبت / إي سي إم ايه سكريبت. كما يتم استخدامه أحيانًا للنص العادي وملفات بيانات معالجة الكلمات على مايكروسوفت ويندوز. نادرًا ما يتم استخدامه للملفات على أنظمة شبيهة بـ Unix. قبل حوالي مايو 2019، كانت مايكروسوفت تؤكد على UTF-16 على واجهة برمجة التطبيقات التي تدعم صيغة التحويل الموحد-8، ولكن توصيتها الآن هي «استخدام ترميز أحرف صيغة التحويل الموحد-8 لتقليل أخطاء الترجمة وتقليل نفقات الاختبار». * بوابة كتابة * بوابة علم الحاسوب (ar)
  • UTF-16 (anglicky 16-bit Unicode Transformation Format) je způsob kódování znaků ISO 10646/Unicode používající proměnnou délku kódu: pro kódování jednoho znaku se používají jedna nebo dvě 16bitové hodnoty. UTF-16 je rozšířením kódování staršího UCS-2; pro znaky v BMP (znaky v rozmezí U+0000–U+FFFF) se UTF-16 shoduje s UCS-2, tj. kóduje znaky přímo jako 16bitová čísla bez znaménka. Zatímco UCS-2 ostatní znaky (ty s kódy většími než 0xFFFF) kódovat neumožňuje vůbec, UTF-16 je kóduje pomocí dvojice šestnáctibitových hodnot (anglicky označované jako surrogate pair) z intervalu 0xD800 až 0xDFFF. (cs)
  • UTF-16 (englisch für Universal Multiple-Octet Coded Character Set (UCS) Transformation Format for 16 Planes of Group 00) ist eine Kodierung mit variabler Länge für Unicode-Zeichen. UTF-16 ist optimiert für die häufig gebrauchten Zeichen aus der Basic multilingual plane (BMP). Es ist das älteste der Unicode-Kodierungsformate. (de)
  • UTF-16 estas maniero prezenti unikodajn signonumerojn per sinsekvo da bajto-duoj, foje nomataj vortoj. Ĝi estas difinita en la apendico Q de la normo ISO/IEC 10646 kaj priskribita en la RFC 2781 de IETF kaj en la unikoda normo ekde ĝia versio 3.0. La nomo UTF-16 devenas de la anglalingva mallongigo Unicode Transformation Format (unikoda transforma aranĝo). La nombro "16" indikas la fakton, ke la signonumerojn oni transformas en 16-bitajn vortojn, kutime reprezentatajn kiel bajto-paroj. Ĉiu unikoda signo (kodopunkto) estas reprezentata aŭ per unu aŭ per du tiaj vortoj, do per 16 aŭ 32 bitoj. (eo)
  • UTF-16, que significa en ISO/IEC 10646:2003 “UCS Transformation Format for 16 Planes of Group 00”, es una forma de codificación de caracteres UCS y Unicode utilizando símbolos de longitud variable. Está oficialmente definida en el Anexo C de la norma ISO/IEC 10646:2003. También está descrita en el Estándar Unicode (versión 3.0 o superior), al igual que en la RFC 2781 de la IETF. Sus características principales son: * Es capaz de representar cualquier carácter Unicode. * Utiliza símbolos de longitud variable: 1 o 2 palabras de 16 bits por carácter Unicode (2 o 4 bytes). La unidad de información es la palabra de 16 bits. * Está optimizado para representar caracteres del plano básico multilingüe (BMP) y caracteres del rango U+0000 a U+FFFF. El BMP contiene la gran mayoría de caracteres y sistemas de escritura en uso en la actualidad. Cuando se limita al plano básico multilingüe, UTF-16 puede ser considerado una forma de codificación con símbolos de tamaño fijo (16 bits). * No superposición: Los símbolos de 1 palabra (16 bits) utilizan un subconjunto de valores que no puede utilizarse en símbolos de 2 palabras (32 bits). (es)
  • UTF-16 (16-bit Unicode Transformation Format) adalah suatu pengkodean karakter Unicode yang mampu mengkodekan 1,112,064 angka (disebut ) dalam jangkauan kode Unicode dari 0 sampai 0x10FFFF. Pengkodean ini adalah sebuah "variable-width encoding" karena code point itu dikodekan dengan satu atau dua code units 16-bit . UCS-2 (2-byte) mirip dengan pengkodean karakter yang sekarang digantikan oleh UTF-16 versi 2.0 sebagai standar Unicode pada bulan Juli 1996. Menghasilkan format dengan panjang tetap (fixed-length format) hanya menggunakan code point sebagai unit kode 16-bit dan membuahkan hasil yang tepat sama dengan UTF-16 untuk 97% (63.488; bukan 65.536) dari seluruh code point dalam jangkauan 0-0xFFFF, termasuk semua karakter yang telah diberi nilai saat itu. UTF-16 secara resmi didefinisikan dalam Annex Q dari standar internasional . Juga disebut sebagai "The Unicode Standard" versi 2.0 atau lebih tinggi, serta dalam IETF's RFC 2781. (in)
  • UTF-16 est un codage des caractères définis par Unicode où chaque caractère est codé sur une suite de un ou deux mots de 16 bits. Le codage était défini dans le rapport technique 17 à la norme Unicode. Depuis, cette annexe est devenue obsolète car UTF-16 fait partie intégrante de la norme Unicode, dans son chapitre 3 Conformance qui la définit de façon très stricte. L'UTF-16 ne doit pas être confondu avec l'UCS-2 qui est le codage, plus simple, de chaque caractère sur deux octets. Ces deux normes sont pourtant appelées toutes les deux Unicode, car le codage est le même tant que l'on n'utilise pas les plages U+D800 à U+DFFF (en principe réservées) et les plages après U+FFFF (peu utilisées en occident). (fr)
  • UTF-16 (UCS/Unicode Transformation Format 16) とは、UnicodeおよびISO/IEC 10646の、符号化フォームおよび符号化スキーム(文字符号化方式を参照)のひとつである。 UTF-16では、1文字が、16ビットの符号単位が1つまたは2つで符号化される。これが「-16」の名の由来である。基本多言語面(BMP)内の文字は、符号単位1つの16ビットで表される。BMP以外の文字は、符号単位2つの32ビットで表される。なお、UTF-16は2バイトコードだと誤解されることがあるが、このように4バイトのこともあるため間違いである。 Unicodeにおいては、厳密には、文字符号化フォーム(英: Character Encoding Form)の1つの名称であり、かつ、UTF-16符号化形式のための文字符号化スキーム(英: Character Encoding Scheme)の1つの名称でもある。UTF-16符号化フォームのための文字符号化スキームには、UTF-16の他にUTF-16BE、UTF-16LEがある。 (ja)
  • UTF-16 (16-bit Unicode Transformation Format) is a character encoding capable of encoding all 1,112,064 valid code points of Unicode (in fact this number of code points is dictated by the design of UTF-16). The encoding is variable-length, as code points are encoded with one or two 16-bit code units. UTF-16 arose from an earlier obsolete fixed-width 16-bit encoding, now known as UCS-2 (for 2-byte Universal Character Set), once it became clear that more than 216 (65,536) code points were needed. UTF-16 is used by systems such as the Microsoft Windows API, the Java programming language and JavaScript/ECMAScript. It is also sometimes used for plain text and word-processing data files on Microsoft Windows. It is rarely used for files on Unix-like systems. UTF-16 is often claimed to be more space-efficient than UTF-8 for East Asian languages, since it uses two bytes for characters that take 3 bytes in UTF-8. Since real text contains many spaces, numbers, punctuation, markup, and control characters, which take only one byte in UTF-8, this is only true for artificially constructed dense blocks of text. In addition GB 18030 (which supports all of Unicode as well) is always shorter than UTF-16. UTF-16 is the only web-encoding incompatible with ASCII and never gained popularity on the web, where it is declared by under 0.002% (little over 1 thousandth of 1 percent) of web pages, and even then UTF-8 is often used, even though UTF-16 is (also) specified (i.e. because of "contradictory character encoding specifications" and/or "incorrect character encoding defined"). UTF-8, by comparison, accounts for 98% of all web pages. The Web Hypertext Application Technology Working Group (WHATWG) considers UTF-8 "the mandatory encoding for all [text]" and that for security reasons browser applications should not use UTF-16. It is used by SMS (i.e. the variable-length UTF-16 needed to support all emoji characters, the SMS standard specifies its predecessor fixed-width UCS-2 which do not support most of them). (en)
  • UTF-16, 16-bit Unicode Transformation Format, is een tekencodering met een variabele lengte, die de gehele Unicode-tekenset ondersteunt. De codeerstandaard zet karakters om vanuit een Unicode-codepoint naar een reeks van 16-bitwoorden. Karakters uit het Basic Multilingual Plane (BMP) kunnen worden omgezet naar één woord van 16 bits. De karakters daarboven worden omgezet in twee woorden (een zogenoemd surrogaatpaar). Alle codepoints van U+0000 tot en met U+10FFFF (behalve de oneigenlijke codepoints U+D800–U+DFFF en codepoints voor toekomstig gebruik) kunnen worden omgezet naar UTF-16. Omdat veel computers rekenen in eenheden van bytes, zijn er drie gerelateerde encoding-schema's: UTF-16, UTF-16BE en UTF-16LE. Ze verschillen alleen in de byte order (bytevolgorde) om een 16-bit-eenheid voor te stellen. Alle schema's resulteren in óf een 2- óf een 4-bytereeks voor een karakter. UTF-16 is officieel gedefinieerd in bijlage Q van de internationale standaard -1. Het staat ook beschreven in de Unicode-standaard, versie 3.0 en hoger, alsmede in RFC 2781 van IETF. UCS-2 (2-byte ) is een incourante manier om karakters te coderen. UCS-2 is een voorloper van UTF-16. De UCS-2-standaard is bijna identiek aan UTF-16, behalve dat het geen surrogaatparen ondersteunt en daarom alleen de karakters in het BMP-bereik (van U+0000 t/m U+FFFF) kan coderen. De consequentie van deze vaste-lengtecodering is dat elk karakter een 16-bitwaarde voorstelt. UTF-16 kent drie gerelateerde codeerschema's (UCS-2, UCS-2BE, UCS-2LE) die alle karakters kunnen opleveren in een specifieke bytevolgorde. Vanwege de technische verwantschap en opwaartse compatibiliteit van UCS-2 naar UTF-16 worden de twee standaarden vaak foutief door elkaar gehaald en uitwisselbaar genoemd. Dat wil zeggen, er wordt gezegd dat tekenreeksen die zijn gecodeerd in UTF-16 soms foutief als UCS-2 worden herkend. Voor zowel UTF-16 als UCS-2 geldt dat alle 65.536 codepoints in BMP (vlak 0), met uitzondering van de 2048 speciale tekens, overeenkomen met dezelfde gecodeerde waardes. Dus codepoint U+0000 is gecodeerd als nummer 0 en U+FFFF is gecodeerd als 65.535 (dat is FFFF16 in hexadecimaal). (nl)
  • UTF-16 (Unicode Transformation Format, 16 bit) è una codifica di caratteri Unicode in sequenze di numeri a 16-bit. UTF-16 è definito ufficialmente nell'allegato Q dello standard ISO/IEC 10646, e viene descritto nella versione 3.0 e successive de "the Unicode standard", oltre che nel documento RFC 2781 della IETF. (it)
  • UTF-16(16-bit Unicode Transformation Format)은 유니코드 문자 인코딩 방식의 하나이다. 주로 사용되는 기본 다국어 평면 (BMP, Basic multilingual plane)에 속하는 문자들은 그대로 16비트 값으로 인코딩이 되고 그 이상의 문자는 특별히 정해진 방식으로 32비트로 인코딩이 된다. UTF-16은 유니코드 컨소시엄과 ISO/IEC 10646에 의해 정의되어 있다. 유니코드는 거기에 추가적인 내용을 정하고 있다. 정확한 차이점은 유니코드 4.0 표준의 부록편 C 부분이 자세히 기술되어 있다. ISO 표준은 UCS-2 인코딩도 정의하며 여기선 BMP의 16비트 표현만을 다룬다. 기본 다국어 평면은 U+0000에서 U+FFFF 에 놓인 문자를 담고 있다. 이 영역에는 우리가 쉽게 생각할 수 있는 문자들이 포함되며, 한글, 한자 등은 모두 여기에 포함되어 있다. 이 영역에는 서러게이트 문자(surrogate)들이 준비되어 있어 16비트 이상의 문자를 표현할 때를 대비해 놓았다. 기본 다국어 평면의 문자들은 곧바로 16비트 값으로 대응되어 인코딩되며, 이 경우에는 인코딩된 바이트 스트링의 엔디언만 조심하면 된다. UTF-16-문자 Bit|15 8|7 0|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+|y y y y y y y y|x x x x x x x x|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ UTF-16BE-코드 첫 번째 Byte 두 번째 Byte|7 0| |7 0|+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+|y y y y y y y y| |x x x x x x x x|+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ UTF-16LE-코드 첫째 Byte 두 번째 Byte|7 0| |7 0|+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+|x x x x x x x x| |y y y y y y y y|+-+-+-+-+-+-+-+-+ +-+-+-+-+-+-+-+-+ 기본 다국어 평면에 포함되지 않는 문자들, 즉 16비트로 값을 표현할 수 없는 문자들은 서러게이트(Surrogate) 문자 영역에 해당하는 두 개의 16비트 문자로 변환되어 이 한 쌍(즉 32비트)이 그 문자를 나타내게 된다. 그 자세한 방식은 다음 그림을 통해 설명한다. Bit31 24|23 16|15 8|7 0|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+|0 0 0 0 0 0 0 0|0 0 0 z z z z z|x x x x x x y y|y y y y y y y y|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ High-Surrogate (U+D800 ... U+DBFF) |15 8|7 0|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+|1 1 0 1 1 0 Z Z|Z Z x x x x x x|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ Low-Surrogate (U+DC00 ... U+DFFF) |15 8|7 0|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+|1 1 0 1 1 1 y y|y y y y y y y y|+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ 유니코드 문자 영역에서 상위 서러게이트는 U+D800에서 U+DBFF 까지의 값을 갖는다. 즉 최상위비트 6개의 값이 그림에서 보듯이 110110으로 일정하다. 마찬가지로 하위 서러게이트는 U+DC00에서 U+DFFF 까지의 값을 가지며 최상위비트 6개의 값은 110111 이 된다. 각 서러게이트 문자는 하위 10비트씩의 자유도를 갖는다. 따라서 주어진 문자를 10비트씩 두조각을 내서 상위 서러게이트와 하위 서러게이트에 배정한 것이다. 여기서 다음을 만족한다. ZZZZ=zzzzz-1. 이 방법으로 UTF-16 인코딩이 가능한 유니코드 문자의 범위가 나온다. zzzzz=00000 이라면, 문자는 16비트 이하로 표현이 가능하다. 즉, U+00xxxx 그대로 대응되는 값을 써주면 된다.그렇지 않다면, ZZZZ=0000..1111 이 되며,zzzzz=00001..10000 = U+01xxxx .. U+10xxxx 이 두 개의 서러게이트 문자는 상위 서러게이트, 하위 서러게이트로서 전송이 된다. 이 방법으로 U+10FFFF 까지의 문자를 인코딩 할 수 있다. (ko)
  • UTF-16 (ang. 16-bit Unicode Transformation Format) – jeden ze sposobów kodowania znaków standardu Unicode. Sposób ten wymaga użycia szesnastobitowych słów, przy czym dla znaków na pozycjach poniżej U+10000 (dziesiętnie 65536), a dokładnie w zakresach od U+0000 do U+D7FF i U+E000 do U+FFFF, używane jest jedno słowo, którego wartość odpowiada dokładnie pozycji znaku w standardzie. W systemach Windows kodowanie to jest najczęściej używane do wewnętrznego przechowywania komunikatów Unicode. (pl)
  • UTF-16 (16 bitars unicode transformationsformat) är inom datatekniken en längdvarierande teckenkodning som används för att representera Unicodetext som sekvenser av dubbel-oktetter (16-bitstal). Den är en utvidgning av UCS-2. UTF-16 är standardiserad inom Unicode och ISO/IEC 10646. Den är såtillvida kompatibel med UCS-2, att all UCS-2-data också är UTF-16-data. Vissa kodvärden har reserverats för att, i par, kunna referera till tecken vars kodpunkter är större än 65535 (U+FFFF), så kallade supplementära tecken. Ursprungligen planerades Unicode klara sig med 16 bitar och UCS-2 var Unicode utan transformation. Det finns dock så många kinesiska tecken om alla ovanliga räknas med, att fler bitar behövdes.[källa behövs] (sv)
  • Em computação, UTF-16 é um "Formato de Transformação Unicode" de 16-bits. Um formato de transformação Unicode é umacodificação de caracteres que provê uma maneira de representar os diversos caracteresabstratos, presentes no Unicode e no ISO/IEC 10646, como uma série de palavras (neste caso, de 16-bits), para então poder ser armazenados ou transmitidos por uma rede. A codificaçãoUTF-16 é oficialmente definida no Anexo Q do padrão ISO/IEC 10646-1. É também descrita em "The Unicode Standard", versões 3.0 e superiores, bem como no RFC 2781. (pt)
  • UTF-16 (англ. Unicode Transformation Format) в інформатиці — один із способів кодування символів із Unicode у вигляді послідовності 16-бітових слів. Символи з кодами менше 0x10000 (216) представляються як є, а символи з кодами 0x10000-0x10FFFF — у вигляді послідовності двох 16-бітових слів, перше з яких лежить в діапазоні 0xD800-0xDBFF, а друге — 0xDC00-0xDFFF. Зрозуміло, що є 210 * 210 = 220 таких комбінацій. Слід зазначити, що за стандартом ніякі символи не можуть мати коди власне з діапазону 0xD800-0xDFFF (їх 2048, вони відзначені рудим і блакитним кольорами на діаграмі), так що розшифровка кодування завжди однозначна. Певна частина текстів у UTF-16 є просто послідовністями символів з UCS-2 (BMP), тому що символи Unicode після коду 0x10000 використовуються не дуже часто. (uk)
  • UTF-16是Unicode字符编码五层次模型的第三层:字符编码表(Character Encoding Form,也称为"storage format")的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。 UTF是"Unicode/UCS Transformation Format"的首字母缩写,即把Unicode字符转换为某種格式之意。UTF-16正式定義於ISO/IEC 10646-1的附錄C,而RFC2781也定義了相似的做法。 (zh)
  • UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Юникода в виде последовательности 16-битных слов. Данная кодировка позволяет записывать символы Юникода в диапазонах U+0000..U+D7FF и U+E000..U+10FFFF (общим количеством 1 112 064). При этом каждый символ записывается одним или двумя словами (суррогатная пара). Кодировка UTF-16 описана в приложении Q к международному стандарту ISO/IEC 10646, а также ей посвящён IETF RFC 2781 «UTF-16, an encoding of ISO 10646». (ru)
