Inilah Jenis-jenis Pengkodean Karakter dalam Komputer

Assalamu‘alaikum wr. wb.

Hello guys! Dalam Komputer biasanya mengenal yang namanya Pengkodean atau Encoding, misalnya UTF-8, UTF-16, atau UTF-32. Memang, Komputer hanya mengenal Bilangan 0 dan 1, jadi semua Karakter atau Tulisan dikonversikan menjadi Karakter ASCII, dan untuk berbagai macam Aksara, dikonversikan lagi menjadi Unicode.

Sumber : Wikipedia.org

Pengkodean karakter adalah proses pemberian angka ke karakter grafis, terutama karakter tertulis dari bahasa manusia, yang memungkinkannya untuk disimpan, dikirim, dan diubah menggunakan komputer digital. Nilai numerik yang membentuk pengkodean karakter dikenal sebagai "titik kode" dan secara kolektif terdiri dari "ruang kode", "halaman kode", atau "peta karakter".

Kode karakter awal yang terkait dengan telegraf optik atau elektrik hanya dapat mewakili sebagian dari karakter yang digunakan dalam bahasa tertulis, terkadang terbatas pada huruf besar, angka, dan beberapa tanda baca saja. Biaya representasi digital data yang rendah dalam sistem komputer modern memungkinkan kode karakter yang lebih rumit (seperti Unicode) yang mewakili sebagian besar karakter yang digunakan dalam banyak bahasa tertulis. Pengkodean karakter menggunakan standar yang diterima secara internasional memungkinkan pertukaran teks di seluruh dunia dalam bentuk elektronik.


JENIS-JENIS PENGKODEAN KARAKTER DALAM KOMPUTER

1. ASCII

Tabel ASCII

Sumber : Wikipedia.org

ASCII singkatan dari American Standard Code for Information Interchange atau Kode Standar Amerika untuk Pertukaran Informasi (/ˈæski/ (simak) ass-kee), 6 adalah standar pengkodean karakter untuk alat komunikasi. Kode ASCII mewakili teks dalam komputer, peralatan telekomunikasi, dan perangkat lainnya. Kebanyakan skema pengkodean karakter modern didasarkan pada ASCII, meskipun mereka mendukung banyak karakter tambahan.

1. Sejarah

Kode Standar Amerika untuk Pertukaran Informasi (ASCII) dikembangkan di bawah naungan komite American Standards Association (ASA), yang disebut Komite X3, oleh Subkomite X3.2 (kemudian X3L2), dan kemudian oleh Subkomite X3. 2.4 kelompok kerja (sekarang INCITS). ASA menjadi Institut Standar Amerika Serikat (USASI) dan akhirnya Institut Standar Nasional Amerika (ANSI).

Dengan diisinya karakter khusus dan kode kontrol lainnya, ASCII diterbitkan sebagai ASA X3.4-1963, meninggalkan 28 posisi kode tanpa arti yang ditetapkan, dicadangkan untuk standarisasi di masa mendatang, dan satu kode kontrol yang belum ditetapkan. Ada beberapa perdebatan pada saat itu apakah harus ada lebih banyak karakter kontrol daripada alfabet huruf kecil. Meragu-ragukan itu tidak berlangsung lama: selama Mei 1963, Partai Kerja CCITT pada Alfabet Telegraf Baru mengusulkan untuk menetapkan karakter huruf kecil ke tongkat 6 dan 7, dan Organisasi Internasional untuk Standardisasi TC 97 SC 2 memilih pada bulan Oktober untuk memasukkan perubahan ke dalam rancangan standarnya. . Kelompok tugas X3.2.4 memilih persetujuannya untuk perubahan ke ASCII pada pertemuan Mei 1963. Penempatan huruf kecil di stik 6 dan 7 menyebabkan karakter berbeda dalam pola bit dari huruf besar satu bit, yang menyederhanakan pencocokan karakter case-insensitive dan konstruksi keyboard dan printer.

Panitia X3 melakukan perubahan lain, termasuk karakter baru lainnya (karakter kurung kurawal dan karakter batang vertikal), mengganti nama beberapa karakter kontrol (SOM menjadi awal header (SOH)) dan memindahkan atau menghapus yang lain (RU dihapus). ASCII kemudian diperbarui sebagai USAS X3.4-1967, kemudian USAS X3.4-1968, ANSI X3.4-1977, dan terakhir, ANSI X3.4-1986.

Revisi Standar ASCII :

  • ASA X3.4-1963
  • ASA X3.4-1965 (disetujui, tetapi tidak diterbitkan, namun digunakan oleh IBM 2260 & 2265 Display Stations dan IBM 2848 Display Control) : 423, 425–428, 435–439
  • USAS X3.4-1967
  • USAS X3.4-1968
  • ANSI X3.4-1977
  • ANSI X3.4-1986
  • ANSI X3.4-1986 (R1992)
  • ANSI X3.4-1986 (R1997)
  • ANSI INCITS 4-1986 (R2002)
  • ANSI INCITS 4-1986 (R2007)
  • (ANSI) INCITS 4-1986[R2012]
  • (ANSI) INCITS 4-1986[R2017]

Dalam standar X3.15, komite X3 juga membahas bagaimana ASCII harus ditransmisikan (paling tidak signifikan terlebih dahulu), dan bagaimana seharusnya direkam pada pita berlubang. Mereka mengusulkan standar 9-track untuk pita magnetik, dan berusaha untuk menangani beberapa format kartu berlubang.

2. Kegunaan

ASCII pertama kali digunakan secara komersial pada tahun 1963 sebagai kode teleprinter tujuh bit untuk jaringan TWX (TeletypeWriter eXchange) American Telephone & Telegraph. TWX awalnya menggunakan ITA2 lima-bit sebelumnya, yang juga digunakan oleh sistem teleprinter Telex yang bersaing. Bob Bemer memperkenalkan fitur seperti urutan pelarian. Koleganya dari Inggris, Hugh McGregor Ross membantu mempopulerkan karya ini – menurut Bemer, "sedemikian rupa sehingga kode yang akan menjadi ASCII pertama kali disebut Kode Bemer–Ross di Eropa". Karena karyanya yang luas di ASCII, Bemer disebut sebagai "bapak ASCII".

Pada tanggal 11 Maret 1968, Presiden AS Lyndon B. Johnson mengamanatkan bahwa semua komputer yang dibeli oleh Pemerintah Federal Amerika Serikat mendukung ASCII, dengan menyatakan :

Saya juga telah menyetujui rekomendasi dari Menteri Perdagangan [Luther H. Hodges] mengenai standar pencatatan Kode Standar untuk Pertukaran Informasi pada pita magnetik dan pita kertas ketika digunakan dalam operasi komputer. Semua komputer dan konfigurasi peralatan terkait yang dibawa ke inventaris Pemerintah Federal pada dan setelah 1 Juli 1969, harus memiliki kemampuan untuk menggunakan Kode Standar untuk Pertukaran Informasi dan format yang ditentukan oleh pita magnetik dan standar pita kertas ketika media ini digunakan.

ASCII adalah pengkodean karakter paling umum di World Wide Web hingga Desember 2007, ketika pengkodean UTF-8 melampauinya; UTF-8 kompatibel dengan ASCII.

3. Varian dan Turunan

Ketika teknologi komputer menyebar ke seluruh dunia, berbagai badan standar dan perusahaan mengembangkan banyak variasi ASCII untuk memfasilitasi ekspresi bahasa non-Inggris yang menggunakan alfabet berbasis Romawi. Seseorang dapat mengklasifikasikan beberapa variasi ini sebagai "ekstensi ASCII", meskipun beberapa menyalahgunakan istilah itu untuk mewakili semua varian, termasuk yang tidak mempertahankan peta karakter ASCII dalam rentang 7-bit. Selain itu, ekstensi ASCII juga telah disalahartikan sebagai ASCII.

a. Kode 7-bit

Sejak awal perkembangannya, ASCII dimaksudkan untuk menjadi salah satu dari beberapa varian nasional dari standar kode karakter internasional.

Badan standar internasional lainnya telah meratifikasi pengkodean karakter seperti ISO 646 (1967) yang identik atau hampir identik dengan ASCII, dengan ekstensi untuk karakter di luar alfabet Inggris dan simbol yang digunakan di luar Amerika Serikat, seperti simbol untuk pound sterling Inggris. (£); misalnya dengan kode halaman 1104. Hampir setiap negara membutuhkan versi adaptasi ASCII, karena ASCII hanya sesuai dengan kebutuhan AS dan beberapa negara lain. Misalnya, Kanada memiliki versinya sendiri yang mendukung karakter Prancis.

b. Kode 8-bit

Akhirnya, ketika komputer 8-, 16-, dan 32-bit (dan kemudian 64-bit) mulai menggantikan komputer 12-, 18-, dan 36-bit sebagai norma, menjadi umum untuk menggunakan byte 8-bit untuk menyimpan setiap karakter dalam memori, memberikan kesempatan untuk perluasan 8-bit kerabat ASCII. Dalam kebanyakan kasus, ini dikembangkan sebagai ekstensi ASCII yang sebenarnya, membiarkan pemetaan karakter asli tetap utuh, tetapi menambahkan definisi karakter tambahan setelah 128 karakter pertama (yaitu, 7-bit).

Pengkodean termasuk ISCII (India), VISCII (Vietnam). Meskipun pengkodean ini kadang-kadang disebut sebagai ASCII, ASCII yang sebenarnya hanya didefinisikan secara ketat oleh standar ANSI.

Sebagian besar sistem komputer rumah awal mengembangkan set karakter 8-bit mereka sendiri yang berisi gambar garis dan mesin terbang permainan, dan sering kali mengisi beberapa atau semua karakter kontrol dari 0 hingga 31 dengan lebih banyak grafik. Komputer Kaypro CP/M menggunakan 128 karakter "atas" untuk alfabet Yunani.

Kode PETSCII Commodore International yang digunakan untuk sistem 8-bit mereka mungkin unik di antara kode pasca 1970 karena didasarkan pada ASCII-1963, bukan ASCII-1967 yang lebih umum, seperti yang ditemukan pada komputer ZX Spectrum. Komputer Atari 8-bit dan komputer Galaksija juga menggunakan varian ASCII.

Halaman kode yang ditentukan PC IBM 437, yang menggantikan karakter kontrol dengan simbol grafis seperti wajah tersenyum, dan memetakan karakter grafis tambahan ke posisi 128 atas. Sistem operasi seperti DOS mendukung halaman kode ini, dan produsen PC IBM mendukungnya dalam perangkat keras. Digital Equipment Corporation mengembangkan Multinational Character Set (DEC-MCS) untuk digunakan di terminal VT220 yang populer sebagai salah satu ekstensi pertama yang dirancang lebih untuk bahasa internasional daripada untuk grafik blok. Macintosh mendefinisikan Mac OS Roman dan Postscript juga mendefinisikan satu set, keduanya berisi huruf internasional dan tanda baca tipografi alih-alih grafik, lebih seperti set karakter modern.

Standar ISO/IEC 8859 (berasal dari DEC-MCS) akhirnya memberikan standar yang disalin sebagian besar sistem (setidaknya seakurat mereka menyalin ASCII, tetapi dengan banyak penggantian). Ekstensi lebih lanjut populer yang dirancang oleh Microsoft, Windows-1252 (sering salah diberi label sebagai ISO-8859-1), menambahkan tanda baca tipografi yang diperlukan untuk pencetakan teks tradisional. ISO-8859-1, Windows-1252, dan ASCII 7-bit asli adalah pengkodean karakter paling umum hingga 2008 ketika UTF-8 menjadi lebih umum.

ISO/IEC 4873 memperkenalkan 32 kode kontrol tambahan yang didefinisikan dalam rentang heksadesimal 80-9F, sebagai bagian dari perluasan pengkodean ASCII 7-bit menjadi sistem 8-bit.

4. Contoh Konversi Karakter ASCII

Berikut inilah beberapa Contoh dari Karakter ASCII ke Biner dan Desimal :

a. ASCII ke Biner

b. Biner ke ASCII

Jika ingin melihat Tabel ASCII, silakan pada Tabel di bawah ini (Sumber : Utilities-online.info) :

DecHexOctBinaryHTMLCharDescription
00000000000000�NULNull
10100100000001SOHStart of Header
20200200000010STXStart of Text
30300300000011ETXEnd of Text
40400400000100EOTEnd of Transmission
50500500000101ENQEnquiry
60600600000110ACKAcknowledge
70700700000111BELBell
80801000001000BSBackspace
90901100001001	HTHorizontal Tab
100A01200001010
LFLine Feed
110B01300001011VTVertical Tab
120C01400001100FFForm Feed
130D01500001101
CRCarriage Return
140E01600001110SOShift Out
150F01700001111SIShift In
161002000010000DLEData Link Escape
171102100010001DC1Device Control 1
181202200010010DC2Device Control 2
191302300010011DC3Device Control 3
201402400010100DC4Device Control 4
211502500010101NAKNegative Acknowledge
221602600010110SYNSynchronize
231702700010111ETBEnd of Transmission Block
241803000011000CANCancel
251903100011001EMEnd of Medium
261A03200011010SUBSubstitute
271B03300011011ESCEscape
281C03400011100FSFile Separator
291D03500011101GSGroup Separator
301E03600011110RSRecord Separator
311F03700011111USUnit Separator
322004000100000 spaceSpace
332104100100001!!exclamation mark
342204200100010""double quote
352304300100011##number
362404400100100$$dollar
372504500100101%%percent
382604600100110&&ampersand
392704700100111''single quote
402805000101000((left parenthesis
412905100101001))right parenthesis
422A05200101010**asterisk
432B05300101011++plus
442C05400101100,,comma
452D05500101101--minus
462E05600101110..period
472F05700101111//slash
48300600011000000zero
49310610011000111one
50320620011001022two
51330630011001133three
52340640011010044four
53350650011010155five
54360660011011066six
55370670011011177seven
56380700011100088eight
57390710011100199nine
583A07200111010::colon
593B07300111011&#59;;semicolon
603C07400111100&#60;<less than
613D07500111101&#61;=equality sign
623E07600111110&#62;>greater than
633F07700111111&#63;?question mark
644010001000000&#64;@at sign
654110101000001&#65;A 
664210201000010&#66;B 
674310301000011&#67;C 
684410401000100&#68;D 
694510501000101&#69;E 
704610601000110&#70;F 
714710701000111&#71;G 
724811001001000&#72;H 
734911101001001&#73;I 
744A11201001010&#74;J 
754B11301001011&#75;K 
764C11401001100&#76;L 
774D11501001101&#77;M 
784E11601001110&#78;N 
794F11701001111&#79;O 
805012001010000&#80;P 
815112101010001&#81;Q 
825212201010010&#82;R 
835312301010011&#83;S 
845412401010100&#84;T 
855512501010101&#85;U 
865612601010110&#86;V 
875712701010111&#87;W 
885813001011000&#88;X 
895913101011001&#89;Y 
905A13201011010&#90;Z 
915B13301011011&#91;[left square bracket
925C13401011100&#92;\backslash
935D13501011101&#93;]right square bracket
945E13601011110&#94;^caret / circumflex
955F13701011111&#95;_underscore
966014001100000&#96;`grave / accent
976114101100001&#97;a 
986214201100010&#98;b 
996314301100011&#99;c 
1006414401100100&#100;d 
1016514501100101&#101;e 
1026614601100110&#102;f 
1036714701100111&#103;g 
1046815001101000&#104;h 
1056915101101001&#105;i 
1066A15201101010&#106;j 
1076B15301101011&#107;k 
1086C15401101100&#108;l 
1096D15501101101&#109;m 
1106E15601101110&#110;n 
1116F15701101111&#111;o 
1127016001110000&#112p 
1137116101110001&#113;q 
1147216201110010&#114;r 
1157316301110011&#115;s 
1167416401110100&#116;t 
1177516501110101&#117;u 
1187616601110110&#118;v 
1197716701110111&#119;w 
1207817001111000&#120;x 
1217917101111001&#121;y 
1227A17201111010&#122;z 
1237B17301111011&#123;{left curly bracket
1247C17401111100&#124;|vertical bar
1257D17501111101&#125;}right curly bracket
1267E17601111110&#126;~tilde
1277F17701111111&#127;DELdelete

Dan inilah Ekstensi (Lanjutan) dari Tabel ASCII :

DecHexOctBinaryHTMLChar
1288020010000000-
1298120110000001-
1308220210000010-
1318320310000011-ƒ
1328420410000100-
1338520510000101-
1348620610000110-
1358720710000111-
1368821010001000-ˆ
1378921110001001-
1388A21210001010-Š
1398B21310001011-
1408C21410001100-Œ
1418D21510001101-
1428E21610001110-Ž
1438F21710001111-
1449022010010000-
1459122110010001-
1469222210010010-
1479322310010011-
1489422410010100-
1499522510010101-
1509622610010110-
1519722710010111-
1529823010011000-˜
1539923110011001-
1549A23210011010-š
1559B23310011011-
1569C23410011100-œ
1579D23510011101-
1589E23610011110-ž
1599F23710011111-Ÿ
160A024010100000&#160; 
161A124110100001&#161;¡
162A224210100010&#162;¢
163A324310100011&#163;£
164A424410100100&#164;¤
165A524510100101&#165;¥
166A624610100110&#166;¦
167A724710100111&#167;§
168A825010101000&#168;¨
169A925110101001&#169;©
170AA25210101010&#170;ª
171AB25310101011&#171;«
172AC25410101100&#172;¬
173AD25510101101&#173;­
174AE25610101110&#174;®
175AF25710101111&#175;¯
176B026010110000&#176;°
177B126110110001&#177;±
178B226210110010&#178;²
179B326310110011&#179;³
180B426410110100&#180;´
181B526510110101&#181;µ
182B626610110110&#182;
183B726710110111&#183;·
184B827010111000&#184;¸
185B927110111001&#185;¹
186BA27210111010&#186;º
187BB27310111011&#187;»
188BC27410111100&#188;¼
189BD27510111101&#189;½
190BE27610111110&#190;¾
191BF27710111111&#191;¿
192C030011000000&#192;À
193C130111000001&#193;Á
194C230211000010&#194;Â
195C330311000011&#195;Ã
196C430411000100&#196;Ä
197C530511000101&#197;Å
198C630611000110&#198;Æ
199C730711000111&#199;Ç
200C831011001000&#200;È
201C931111001001&#201;É
202CA31211001010&#202;Ê
203CB31311001011&#203;Ë
204CC31411001100&#204;Ì
205CD31511001101&#205;Í
206CE31611001110&#206;Î
207CF31711001111&#207;Ï
208D032011010000&#208;Ð
209D132111010001&#209;Ñ
210D232211010010&#210;Ò
211D332311010011&#211;Ó
212D432411010100&#212;Ô
213D532511010101&#213;Õ
214D632611010110&#214;Ö
215D732711010111&#215;×
216D833011011000&#216;Ø
217D933111011001&#217;Ù
218DA33211011010&#218;Ú
219DB33311011011&#219;Û
220DC33411011100&#220;Ü
221DD33511011101&#221;Ý
222DE33611011110&#222;Þ
223DF33711011111&#223;ß
224E034011100000&#224;à
225E134111100001&#225;á
226E234211100010&#226;â
227E334311100011&#227;ã
228E434411100100&#228;ä
229E534511100101&#229;å
230E634611100110&#230;æ
231E734711100111&#231;ç
232E835011101000&#232;è
233E935111101001&#233;é
234EA35211101010&#234;ê
235EB35311101011&#235;ë
236EC35411101100&#236;ì
237ED35511101101&#237;í
238EE35611101110&#238;î
239EF35711101111&#239;ï
240F036011110000&#240;ð
241F136111110001&#241;ñ
242F236211110010&#242;ò
243F336311110011&#243;ó
244F436411110100&#244;ô
245F536511110101&#245;õ
246F636611110110&#246;ö
247F736711110111&#247;÷
248F837011111000&#248;ø
249F937111111001&#249;ù
250FA37211111010&#250;ú
251FB37311111011&#251;û
252FC37411111100&#252;ü
253FD37511111101&#253;ý
254FE37611111110&#254;þ
255FF37711111111&#255;ÿ

Video tentang ASCII :

2. Unicode

Sumber : Wikipedia.org (Unicode), en.Wikipedia.org (Unicode Symbols), dan en.Wikipedia.org (List of Unicode Characters) / Compart.com (Block)

Unicode adalah suatu standar teknis yang dirancang untuk mengizinkan teks dan simbol dari semua sistem tulisan di dunia untuk ditampilkan dan dimanipulasi secara konsisten oleh komputer. Dikembangkan secara tandem dengan standar Universal Character Set dan dipublikasikan dalam bentuk buku The Unicode Standard. Unicode mengandung suatu kumpulan karakter, suatu metodologi pengkodean dan kumpulan standar penyandian karakter, suatu kumpulan bagan kode untuk referensi visual, deskripsi sifat karakter seperti huruf besar dan huruf kecil, suatu kumpulan data referensi berkas komputer, serta aturan normalisasi, dekomposisi, pembandingan (collation), serta penggambaran (rendering).

Unicode Consortium, suatu organisasi nirlaba yang mengkoordinasikan pengembangan Unicode memiliki tujuan ambisius untuk dapat, pada akhirnya, menggantikan skema pengkodean karakter yang ada dengan Unicode dan skema Unicode Transformation Format (UTF) -nya, karena banyak skema yang ada sekarang memiliki keterbatasan ukuran dan lingkup dan takserasi dengan lingkungan multibahasa. Kesuksesan Unicode menyatukan set karakter telah membawa pada penggunaannya yang luas dan pradominan dalam internasionalisasi dan lokalisasi perangkat lunak komputer. Standar ini telah diterapkan pada teknologi-teknologi terkini, termasuk XML, bahasa pemrograman Java, dan sistem operasi modern.

Unicode dapat diimplementasikan dengan pengkodean karakter yang berbeda. Standar Unicode mendefinisikan Format Transformasi Unicode (UTF): UTF-8, UTF-16, dan UTF-32, dan beberapa pengkodean lainnya. Pengkodean yang paling umum digunakan adalah UTF-8, UTF-16, dan UCS-2 usang (pendahulu UTF-16 tanpa dukungan penuh untuk Unicode); GB18030, meskipun bukan standar Unicode resmi, distandarisasi di China dan menerapkan Unicode sepenuhnya.

UTF-8, pengkodean dominan di World Wide Web (digunakan di lebih dari 95% situs web pada tahun 2020, dan hingga 100% untuk beberapa bahasa) dan pada sebagian besar sistem operasi mirip Unix, menggunakan satu byte (8 bit) untuk 128 poin kode pertama, dan hingga 4 byte untuk karakter lain. 128 poin kode Unicode pertama mewakili karakter ASCII, yang berarti bahwa setiap teks ASCII juga merupakan teks UTF-8.

UCS-2 menggunakan dua byte (16 bit) untuk setiap karakter tetapi hanya dapat mengkodekan 65.536 poin kode pertama, yang disebut Basic Multilingual Plane (BMP). Dengan 1.112.064 kemungkinan titik kode Unicode yang sesuai dengan karakter (lihat di bawah) pada 17 bidang, dan dengan lebih dari 144.000 titik kode yang ditentukan pada versi 14.0, UCS-2 hanya dapat mewakili kurang dari setengah dari semua karakter Unicode yang disandikan. Oleh karena itu, UCS-2 sudah usang, meskipun masih digunakan dalam perangkat lunak. UTF-16 memperluas UCS-2, dengan menggunakan pengkodean 16-bit yang sama seperti UCS-2 untuk Bidang Multibahasa Dasar, dan pengkodean 4-byte untuk bidang lainnya. Selama tidak mengandung titik kode dalam rentang yang dicadangkan U+D800–U+DFFF, teks UCS-2 adalah teks UTF-16 yang valid.

UTF-32 (juga disebut sebagai UCS-4) menggunakan empat byte untuk mengkodekan setiap titik kode yang diberikan, tetapi tidak harus setiap karakter yang dirasakan pengguna (secara longgar, grafem), karena karakter yang dirasakan pengguna dapat diwakili oleh cluster grapheme (urutan beberapa titik kode). Seperti UCS-2, jumlah byte per titik kode tetap, memfasilitasi pengindeksan titik kode; tetapi tidak seperti UCS-2, UTF-32 mampu mengkodekan semua titik kode Unicode. Namun, karena setiap titik kode menggunakan empat byte, UTF-32 membutuhkan lebih banyak ruang daripada pengkodean lainnya, dan tidak digunakan secara luas. Meskipun UTF-32 memiliki ukuran tetap untuk setiap titik kode, ini juga memiliki panjang variabel sehubungan dengan karakter yang dirasakan pengguna. Contohnya termasuk : Devanagari kshi, yang dikodekan oleh 4 poin kode, dan emoji bendera nasional, yang terdiri dari dua poin kode. Semua urutan karakter yang digabungkan adalah grafem, tetapi ada urutan titik kode lain yang juga demikian, misalnya \r\n.

1. Asal dan Perkembangan

Unicode memiliki tujuan eksplisit untuk melampaui batasan pengkodean karakter tradisional, seperti yang didefinisikan oleh standar ISO/IEC 8859, yang digunakan secara luas di berbagai negara di dunia tetapi sebagian besar tetap tidak kompatibel satu sama lain. Banyak pengkodean karakter tradisional memiliki masalah umum yang memungkinkan pemrosesan komputer dwibahasa (biasanya menggunakan karakter Latin dan skrip lokal), tetapi tidak pemrosesan komputer multibahasa (pemrosesan komputer skrip arbitrer dicampur satu sama lain).

Unicode, dengan maksud, mengkodekan karakter yang mendasarinya—grafem dan unit mirip grafem—bukan varian mesin terbang (rendering) untuk karakter tersebut. Dalam kasus karakter Cina, hal ini terkadang menimbulkan kontroversi dalam membedakan karakter dasar dari varian mesin terbangnya (lihat penyatuan Han).

Dalam pemrosesan teks, Unicode berperan menyediakan titik kode unik—angka, bukan mesin terbang—untuk setiap karakter. Dengan kata lain, Unicode mewakili karakter secara abstrak dan meninggalkan rendering visual (ukuran, bentuk, font, atau gaya) ke perangkat lunak lain, seperti browser web atau pengolah kata. Namun, tujuan sederhana ini menjadi rumit karena konsesi yang dibuat oleh perancang Unicode dengan harapan mendorong adopsi Unicode yang lebih cepat.

256 Titik Kode pertama dibuat identik dengan isi ISO/IEC 8859-1 sehingga memudahkan untuk mengonversi teks barat yang ada. Banyak karakter yang pada dasarnya identik dikodekan beberapa kali pada titik kode yang berbeda untuk mempertahankan perbedaan yang digunakan oleh pengkodean lama dan oleh karena itu, memungkinkan konversi dari pengkodean tersebut ke Unicode (dan kembali) tanpa kehilangan informasi apa pun. Misalnya, bagian "bentuk lebar penuh" dari poin kode mencakup duplikat penuh abjad Latin karena font Tionghoa/China, Jepang, dan Korea (CJK) berisi dua versi huruf ini, "lebar penuh" yang cocok dengan lebar karakter CJK, dan lebar normal. Untuk contoh lain, lihat karakter duplikat di Unicode.

Penerima Unicode Bulldog Award termasuk banyak nama yang berpengaruh dalam pengembangan Unicode dan termasuk Tatsuo Kobayashi, Thomas Milo, Roozbeh Pournader, Ken Lunde, dan Michael Everson.

2. Arsitektur dan Terminologi

Karakter Abstrak

Kumpulan karakter grafis dan format yang ditentukan oleh Unicode tidak berhubungan langsung dengan repertoar karakter abstrak yang dapat direpresentasikan di bawah Unicode. Unicode mengkodekan karakter dengan mengasosiasikan karakter abstrak dengan titik kode tertentu. Namun, tidak semua karakter abstrak dikodekan sebagai karakter Unicode tunggal, dan beberapa karakter abstrak dapat direpresentasikan dalam Unicode dengan urutan dua karakter atau lebih. Misalnya, huruf kecil Latin "i" dengan ogonek, titik di atas, dan aksen lancip, yang diperlukan dalam bahasa Lituania, diwakili oleh urutan karakter U+012F, U+0307, ​​U+0301. Unicode memelihara daftar urutan karakter bernama unik untuk karakter abstrak yang tidak langsung dikodekan dalam Unicode.

Semua karakter grafis, format, dan penggunaan pribadi memiliki nama yang unik dan tidak dapat diubah yang dengannya mereka dapat diidentifikasi. Kekekalan ini telah dijamin sejak Unicode versi 2.0 oleh kebijakan Stabilitas Nama. Dalam kasus di mana nama tersebut sangat cacat dan menyesatkan, atau memiliki kesalahan ketik yang serius, alias formal dapat ditentukan, dan aplikasi didorong untuk menggunakan alias formal sebagai pengganti nama karakter resmi. Sebagai contoh, U+A015 ꀕ YI SYLLABLE WU memiliki alias formal YI SYLLABLE Iteration MARK, dan U+FE18 ︘ PRESENTATION FORM FOR VERTICAL RIGHT WHITE LENTICULAR BRAKCET (sic) memiliki alias formal PRESENTATION FORM FOR VERTICAL RIGHT WHITE LENTICULAR BRAKCET.

Karakter siap pakai versus karakter komposit

Unicode menyertakan mekanisme untuk memodifikasi karakter yang sangat memperluas repertoar mesin terbang yang didukung. Ini mencakup penggunaan kombinasi tanda diakritik yang mungkin ditambahkan setelah karakter dasar oleh pengguna. Beberapa kombinasi diakritik dapat diterapkan secara bersamaan pada karakter yang sama. Unicode juga berisi versi yang telah disusun sebelumnya dari sebagian besar kombinasi huruf/diakritik dalam penggunaan normal. Ini membuat konversi ke dan dari pengkodean lama menjadi lebih sederhana, dan memungkinkan aplikasi untuk menggunakan Unicode sebagai format teks internal tanpa harus mengimplementasikan kombinasi karakter. Misalnya, é dapat direpresentasikan dalam Unicode sebagai U+0065 (LATIN SMALL LETTER E) diikuti oleh U+0301 (COMBINING ACUTE ACCENT), tetapi juga dapat direpresentasikan sebagai karakter yang telah disusun sebelumnya U+00E9 (LATIN SMALL LETTER E WITH ACUTE). Jadi, dalam banyak kasus, pengguna memiliki banyak cara untuk mengkodekan karakter yang sama. Untuk mengatasi hal ini, Unicode menyediakan mekanisme kesetaraan kanonik.

Contoh dari hal ini muncul dengan Hangul, alfabet Korea. Unicode menyediakan mekanisme untuk menyusun suku kata Hangul dengan subkomponen masing-masing, yang dikenal sebagai Hangul Jamo. Namun, ia juga menyediakan 11.172 kombinasi suku kata yang telah disusun sebelumnya yang dibuat dari jamo yang paling umum.

Karakter CJK saat ini memiliki kode hanya untuk bentuk yang telah dibuat sebelumnya. Namun, sebagian besar karakter tersebut terdiri dari elemen yang lebih sederhana (disebut radikal), sehingga pada prinsipnya Unicode dapat menguraikannya seperti halnya dengan Hangul. Ini akan sangat mengurangi jumlah poin kode yang diperlukan, sementara memungkinkan tampilan hampir setiap karakter yang mungkin (yang mungkin menghilangkan beberapa masalah yang disebabkan oleh penyatuan Han). Ide serupa digunakan oleh beberapa metode input, seperti Cangjie dan Wubi. Namun, upaya untuk melakukan ini untuk pengkodean karakter telah tersandung pada fakta bahwa karakter Cina tidak terurai sesederhana atau sesering Hangul.

Satu set radikal disediakan di Unicode 3.0 (radikal CJK antara U+2E80 dan U+2EFF, radikal KangXi di U+2F00 hingga U+2FDF, dan karakter deskripsi ideografis dari U+2FF0 hingga U+2FFB), tetapi standar Unicode (Bab 12.2 dari Unicode 5.2) memperingatkan agar tidak menggunakan urutan deskripsi ideografik sebagai representasi alternatif untuk karakter yang dikodekan sebelumnya :

Proses ini berbeda dari penyandian formal ideograf. Tidak ada deskripsi kanonik dari ideograf yang tidak dikodekan; tidak ada semantik yang ditugaskan untuk ideograf yang dijelaskan; tidak ada kesetaraan yang didefinisikan untuk ideograf yang dijelaskan. Secara konseptual, deskripsi ideografik lebih mirip dengan frasa bahasa Inggris "an 'e' dengan aksen akut di atasnya" daripada urutan karakter <U+0065, U+0301>.

Ligatur

Banyak skrip, termasuk Arab dan Devanāgarī, memiliki aturan ortografi khusus yang memerlukan kombinasi bentuk huruf tertentu untuk digabungkan menjadi bentuk pengikat khusus. Aturan yang mengatur pembentukan ligatur bisa sangat rumit, membutuhkan teknologi pembentukan skrip khusus seperti ACE (Arabic Calligraphic Engine oleh DecoType pada 1980-an dan digunakan untuk menghasilkan semua contoh bahasa Arab dalam edisi cetak Standar Unicode), yang menjadi buktinya. konsep untuk OpenType (oleh Adobe dan Microsoft), Graphite (oleh SIL International), atau AAT (oleh Apple).

Instruksi juga disematkan dalam font untuk memberi tahu sistem operasi cara menampilkan urutan karakter yang berbeda dengan benar. Solusi sederhana untuk penempatan tanda kombinasi atau diakritik adalah dengan menetapkan lebar tanda nol dan menempatkan mesin terbang itu sendiri di kiri atau kanan sidebearing kiri (bergantung pada arah skrip yang akan digunakan). Tanda yang ditangani dengan cara ini akan muncul di atas karakter apa pun yang mendahuluinya, tetapi tidak akan menyesuaikan posisinya relatif terhadap lebar atau tinggi mesin terbang dasar; mungkin secara visual canggung dan mungkin tumpang tindih dengan beberapa mesin terbang. Penumpukan yang sebenarnya tidak mungkin, tetapi dapat diperkirakan dalam kasus-kasus tertentu (misalnya, vokal kombinasi teratas Thailand dan tanda nada bisa saja berada pada ketinggian yang berbeda untuk memulai). Umumnya pendekatan ini hanya efektif dalam font monospace, tetapi dapat digunakan sebagai metode rendering mundur ketika metode yang lebih kompleks gagal.

Himpunan Bagian Standar

Beberapa subset Unicode distandarisasi: Microsoft Windows sejak Windows NT 4.0 mendukung WGL-4 dengan 657 karakter, yang dianggap mendukung semua bahasa Eropa kontemporer menggunakan skrip Latin, Yunani, atau Sirilik. Subset standar Unicode lainnya termasuk Subset Eropa Multilingual :

MES-1 (hanya skrip Latin, 335 karakter), MES-2 (karakter Latin, Yunani, dan Sirilik 1062) dan MES-3A & MES-3B (dua himpunan bagian yang lebih besar, tidak ditampilkan di sini). Perhatikan bahwa MES-2 menyertakan setiap karakter dalam MES-1 dan WGL-4.

RowCellsRange(s)
0020–7EBasic Latin / Latin Standar (00–7F)
A0–FFLatin-1 Supplement (80–FF)
0100–13, 14–15, 16–2B, 2C–2D, 2E–4D, 4E–4F, 50–7E, 7FLatin Extended-A (00–7F)
8F, 92, B7, DE-EF, FA–FFLatin Extended-B (80–FF ...)
0218–1B, 1E–1FLatin Extended-B (... 00–4F)
59, 7C, 92IPA Extensions (50–AF)
BB–BD, C6, C7, C9, D6, D8–DB, DC, DD, DF, EESpacing Modifier Letters (B0–FF)
0374–75, 7A, 7E, 84–8A, 8C, 8E–A1, A3–CE, D7, DA–E1Greek / Yunani (70–FF)
0400–5F, 90–91, 92–C4, C7–C8, CB–CC, D0–EB, EE–F5, F8–F9Cyrillic / Silirik (00–FF)
1E02–03, 0A–0B, 1E–1F, 40–41, 56–57, 60–61, 6A–6B, 80–85, 9B, F2–F3Latin Extended Additional (00–FF)
1F00–15, 18–1D, 20–45, 48–4D, 50–57, 59, 5B, 5D, 5F–7D, 80–B4, B6–C4, C6–D3, D6–DB, DD–EF, F2–F4, F6–FEGreek Extended (00–FF)
2013–14, 15, 17, 18–19, 1A–1B, 1C–1D, 1E, 20–22, 26, 30, 32–33, 39–3A, 3C, 3E, 44, 4AGeneral Punctuation (00–6F)
7F, 82Superscripts and Subscripts (70–9F)
A3–A4, A7, AC, AFCurrency Symbols (A0–CF)
2105, 13, 16, 22, 26, 2ELetterlike Symbols (00–4F)
5B–5ENumber Forms (50–8F)
90–93, 94–95, A8Arrows (90–FF)
2200, 02, 03, 06, 08–09, 0F, 11–12, 15, 19–1A, 1E–1F, 27–28, 29, 2A, 2B, 48, 59, 60–61, 64–65, 82–83, 95, 97Mathematical Operators (00–FF)
2302, 0A, 20–21, 29–2AMiscellaneous Technical (00–FF)
2500, 02, 0C, 10, 14, 18, 1C, 24, 2C, 34, 3C, 50–6CBox Drawing (00–7F)
80, 84, 88, 8C, 90–93Block Elements (80–9F)
A0–A1, AA–AC, B2, BA, BC, C4, CA–CB, CF, D8–D9, E6Geometric Shapes (A0–FF)
263A–3C, 40, 42, 60, 63, 65–66, 6A, 6BMiscellaneous Symbols (00–FF)
F0(01–02)Private Use Area (00–FF ...)
FB01–02Alphabetic Presentation Forms (00–4F)
FFFDSpecials

Perenderan perangkat lunak yang tidak dapat memproses karakter Unicode dengan tepat sering kali menampilkannya sebagai persegi panjang terbuka, atau "karakter pengganti" Unicode (U+FFFD, �), untuk menunjukkan posisi karakter yang tidak dikenali. Beberapa sistem telah berusaha untuk memberikan lebih banyak informasi tentang karakter tersebut. Font Last Resort Apple akan menampilkan mesin terbang pengganti yang menunjukkan kisaran Unicode karakter, dan font Unicode Fallback SIL International akan menampilkan kotak yang menunjukkan nilai skalar Heksadesimal karakter.

3. Daftar karakter Unicode

Pada Unicode versi 14.0, ada 144.697 karakter dengan titik kode, mencakup 159 skrip modern dan historis, serta beberapa set simbol. Karena secara teknis tidak mungkin untuk mencantumkan semua karakter ini dalam satu halaman Wikipedia, daftar ini terbatas pada subset karakter terpenting untuk pembaca berbahasa Inggris, dengan tautan ke halaman lain yang mencantumkan karakter tambahan. Artikel ini menyertakan 1062 karakter dalam himpunan bagian Multilingual European Character Set 2 (MES-2), dan beberapa karakter tambahan yang terkait.

1.) Kode Kontrol (Code Controls)

Rentang Kode dari U+0000 sampai U+009F yang terdiri dari Kontrol Kode C0 [Dari U+0000 sampai U+001F] dan C1 [Dari U+0080 sampai U+009F].

2.) Alfabet Latin

Standar Unicode (Versi 14.0) mengklasifikasikan 1.475 Karakter sebagai milik Skrip Latin. Diantaranya yaitu :

3.) Alfabet Fonetik (Phonetic Alphabet)

Standar Unicode (Versi 14.0) mengklasifikasikan 1.475 Karakter sebagai milik Skrip Latin. Diantaranya yaitu :

4.) Menggabungkan Tanda

Menggabungkan Tanda adalah karakter yang dimaksudkan untuk memodifikasi karakter lain. Karakter gabungan yang paling umum dalam aksara Latin adalah tanda diakritik gabungan (termasuk aksen gabungan). [Dari U+0300 sampai U+FE2F]

5.) Alfabet Yunani dan Koptik

Yunani dan Koptik adalah blok Unicode untuk mewakili bahasa Yunani modern (monotonik). Ini awalnya digunakan untuk menulis Koptik, menggunakan huruf Yunani yang serupa, selain tambahan Koptik yang unik. Dimulai dengan versi 4.1 dari Standar Unicode, blok Koptik terpisah telah disertakan dalam Unicode, memungkinkan teks Yunani/Koptik campuran yang gayanya kontras, seperti konvensi dalam karya ilmiah. Menulis bahasa Yunani politonik membutuhkan penggunaan karakter gabungan atau karakter vokal + nada yang telah dikomposisi sebelumnya dalam blok karakter Perluasan Yunani.

Ada 144 poin kode; 135 karakter yang ditugaskan; 85 dalam subset MES-2 dalam karakter Yunani dan Koptik. [Dari U+0370 sampai U+03FF]

Adapun Karakter Ekstensi Yunani yang digunakan untuk ortografi politonik, yaitu 256 poin kode; 233 karakter yang ditetapkan, semuanya dalam subset MES-2 (#670 – 902). [Dari U+1F00 sampai U+1FFF]

6.) Alfabet Sirilik (Cyrillic Alphabet)

Karakter dalam rentang U+0400 sampai U+045F pada dasarnya adalah karakter dari ISO 8859-5 yang dipindahkan ke atas sebanyak 864 posisi. Karakter berikutnya dalam Blok Cyrillic, rentang U+0460 sampai U+0489, adalah huruf sejarah, beberapa masih digunakan untuk Slavonik Gereja. Karakter dalam rentang U+048A sampai U+04FF dan blok Suplemen Cyrillic lengkap (U+0500 - U+052F) adalah huruf tambahan untuk berbagai bahasa yang ditulis dengan skrip Cyrillic. Dua karakter di blok Ekstensi Fonetik melengkapi Alfabet Fonetik Uralik: U+1D2B  CYRILLIC LETTER SMALL CAPITAL EL dan U+1D78  MODIFIER LETTER CYRILLIC EN.

Suplemen Cyrillic :

7.) Alfabet Armenia

Armenia adalah blok Unicode yang berisi karakter untuk menulis bahasa Armenia, baik ortografi Armenia Barat tradisional maupun ortografi Armenia Timur yang direformasi. Lima Ligatur Armenia dikodekan dalam blok Bentuk Presentasi Abjad. [Dari U+0530 sampai U+058F]

8.) Abjad Semit (Timur Tengah)

Bahasa Semit adalah cabang dari keluarga bahasa Afroasiatik. Adapun Jenis-jenis Aksara Semit diantaranya :

9.) Thaana (Maldives Script)

Thaana adalah blok Unicode yang berisi karakter untuk aksara Thaana yang digunakan untuk menulis bahasa Dhivehi dan Arab di Maladewa. [Dari U+0780 sampai U+07BF]

10.) Aksara-aksara Brahmik (Indik)

Aksara Brahmik, juga dikenal sebagai aksara Indic, adalah keluarga dari sistem penulisan abugida. Mereka digunakan di seluruh anak benua India, Asia Tenggara dan sebagian Asia Timur. Mereka diturunkan dari aksara Brahmi India kuno dan digunakan oleh berbagai bahasa di beberapa rumpun bahasa di Asia Selatan, Timur dan Tenggara: Indo-Arya, Dravida, Tibeto-Burman, Mongolik, Austroasiatik, Austronesia, dan Tai. Adapun Jenis-jenis Aksara Brahmik diantaranya :

  • Devanagari (U+0900–U+097F), Devanagari Extended (U+A8E0–U+A8FF), Devanagari Extended-A (U+11B00–U+11B5F), dan Vedic Extensions (U+1CD0–U+1CFF).
  • Bengali [Dari U+0980 sampai U+09FF]
  • Gurumukhi [Dari U+0A00 sampai U+0A7F]
  • Gujarati [Dari U+0A80 sampai U+0AFF]
  • Oriya [Dari U+0B00 sampai U+0B7F]
  • Tamil [Dari U+0B80 sampai U+0BFF]
  • Telugu [Dari U+0C00 sampai U+0C7F]
  • Kannada [Dari U+0C80 sampai U+0CFF]
  • Malayalam [Dari U+0D00 sampai U+0D7F]
  • Sinhala [Dari U+0D80 sampai U+0DFF]

Aksara Brahmik dan Indik lainnya di Unicode meliputi :

  • Ahom [Dari U+11700 sampai U+1174F]
  • Bali [Dari U+1B00 sampai U+1B7F]
  • Batak [Dari U+1BC0 sampai U+1BFF]
  • Bhaiksuki [Dari U+11C00 sampai U+11C6F]
  • Buhid [Dari U+1740 sampai U+175F]
  • Bugis [Dari U+1A00 sampai U+1A1F]
  • Chakma [Dari U+11100 sampai U+1114F]
  • Cham [Dari U+AA00 sampai U+AA5F]
  • Common Indic Number Forms [Dari U+A830 sampai U+A83F]
  • Dives Akuru [Dari U+11900 sampai U+1195F]
  • Dogra [Dari U+11800 sampai U+1184F]
  • Grantha [Dari U+11300 sampai U+1137F]
  • Hanunoo [Dari U+1720 sampai U+173F]
  • Jawa [Dari U+A980 sampai U+A9DF]
  • Kaithi [Dari U+11080 sampai U+110CF]
  • Kawi [Dari U+11F00 sampai U+11F5F]
  • Khmer [Dari U+1780 sampai U+17FF]
  • Khmer Symbols [Dari U+19E0 sampai U+19FF]
  • Khojki [Dari U+11200 sampai U+1124F]
  • Khudawadi [Dari U+112B0 sampai U+112FF]
  • Lao [Dari U+0E80 sampai U+0EFF]
  • Lepcha [Dari U+1C00 sampai U+1C4F]
  • Limbu [Dari U+1900 sampai U+194F]
  • Mahajani [Dari U+11150 sampai U+1117F]
  • Makasar [Dari U+11EE0 sampai U+11EFF]
  • Marchen [Dari U+11C70 sampai U+11CBF]
  • Meetei Mayek [Dari U+ABC0 sampai U+ABFF]
  • Meetei Mayek Extensions [Dari U+AAE0 sampai U+AAFF]
  • Modi [Dari U+11600 sampai U+1165F]
  • Multani [Dari U+11280 sampai U+112AF]
  • Myanmar [Dari U+1000 sampai U+109F]
  • Myanmar Extended-A [Dari U+AA60 sampai U+AA7F]
  • Myanmar Extended-B [Dari U+A9E0 sampai U+A9FF]
  • New Tai Lue [Dari U+1980 sampai U+19DF]
  • Newa [Dari U+11400 sampai U+1147F]
  • Phags-pa [Dari U+A840 sampai U+A87F]
  • Rejang [Dari U+A930 sampai U+A95F]
  • Saurashtra [Dari U+A880 sampai U+A8DF]
  • Sharada [Dari U+11180 sampai U+111DF]
  • Siddham [Dari U+11580 sampai U+115FF]
  • Sunda [Dari U+1B80 sampai U+1BBF]
  • Sundanese Supplement [Dari U+1CC0 sampai U+1CCF]
  • Syloti Nagri [Dari U+A800 sampai U+A82F]
  • Tagalog [Dari U+1700 sampai U+171F]
  • Tagbanwa [Dari U+1760 sampai U+177F]
  • Tai Le [Dari U+1950 sampai U+197F]
  • Tai Tham [Dari U+1A20 sampai U+1AAF]
  • Tai Viet [Dari U+AA80 sampai U+AADF]
  • Takri [Dari U+11680 sampai U+116CF]
  • Thai [Dari U+0E00 sampai U+0E7F]
  • Tibetan [Dari U+0F00 sampai U+0FFF]
  • Tirhuta [Dari U+11480 sampai U+114DF]

11.) Sistem penulisan Asia Selatan, Tenggara, dan Tengah lainnya

Sistem penulisan Asia Selatan dan Tengah lainnya di Unicode meliputi :

  • Gunjala Gondi [Dari U+11D60 sampai U+11DAF]
  • Masaram Gondi [Dari U+11D00 sampai U+11D5F]
  • Mro [Dari U+16A40 sampai U+16A6F]
  • Nag Mundari [Dari U+1E4D0 sampai U+1E4FF]
  • Ol Chiki [Dari U+1C50 sampai U+1C7F]
  • Sora Sompeng [Dari U+110D0 sampai U+110FF]
  • Tangsa [Dari U+16A70 sampai U+16ACF]
  • Toto [Dari U+1E290 sampai U+1E2BF]
  • Warang Citi [Dari U+118A0 sampai U+118FF]

Sistem penulisan Asia Tenggara dalam Unicode meliputi :

  • Hanifi Rohingya [Dari U+10D00 sampai U+10D3F]
  • Kayah Li [Dari U+A900 sampai U+A92F]
  • Pahawh Hmong [Dari U+16B00 sampai U+16B8F]
  • Pau Cin Hau [Dari U+11AC0 sampai U+11AFF]

12.) Alfabet/Aksara Georgia

Georgian adalah blok Unicode yang berisi karakter Georgian Mkhedruli dan Asomtavruli yang digunakan untuk menulis bahasa Georgia Modern, Svan, dan Mingrelian. Huruf kecil lainnya, Nuskhuri, dikodekan dalam blok Tambahan Georgia yang terpisah, yang digunakan dengan Asomtavruli untuk menulis aksara Georgia Khutsuri Gerejawi. Huruf Kapital Mtavruli disertakan dalam blok Georgian Extended yang terpisah, tetapi huruf kapital tidak digunakan untuk selubung judul. [Dari U+10A0 sampai U+10FF]

13.) Aksara-aksara Afrika

Ethiopic telah diberi titik kode Unicode 3.0 antara U+1200 dan U+137F (desimal 4608–4991), berisi huruf konsonan untuk Geʽez, Amharik, dan Tigrinya, tanda baca, dan angka. Selain itu, di Unicode 4.1, ada rentang tambahan dari U+1380 hingga U+139F (desimal 4992–5023) yang berisi huruf untuk Taruhan Sebat dan tanda tonal, dan rentang yang diperluas antara U+2D80 dan U+2DDF (desimal 11648– 11743) berisi surat-surat yang diperlukan untuk menulis Sebat Bet, Meʼen dan Bilen. Di Unicode 6.0, ada rentang extended-A dari U+AB00 hingga U+AB2F (desimal 43776–43823) yang berisi huruf untuk Gamo-Gofa-Dawro, Basketo, dan Gumuz. Terakhir di Unicode 14.0, ada rentang extended-B dari U+1E7E0 hingga U+1E7FF (desimal 124896–124927) yang berisi huruf tambahan untuk bahasa Gurage.

Aksara Afrika lainnya di Unicode meliputi :

  • Adlam [Dari U+1E900 sampai U+1E95F]
  • Bamum [Dari U+A6A0 sampai U+A6FF]
  • Bamum Supplement [Dari U+16800 sampai U+16A3F]
  • Bassa Vah [Dari U+16AD0 sampai U+16AFF]
  • Medefaidrin [Dari U+16E40 sampai U+16E9F]
  • Mende Kikakui [Dari U+1E800 sampai U+1E8DF]
  • NKo [Dari U+07C0 sampai U+07FF]
  • Osmanya [Dari U+10480 sampai U+104AF]
  • Ottoman Siyaq Numbers [Dari U+1ED00 sampai U+1ED4F]
  • Tifinagh [Dari U+2D30 sampai U+2D7F]
  • Vai [Dari U+A500 sampai U+A63F]

14.) Aksara-aksara Amerika

Silabis Aborigin Kanada Terpadu adalah blok Unicode yang berisi karakter suku kata untuk menulis bahasa Inuktitut, Carrier, Cree (beserta beberapa karakter khusus dialeknya), Ojibwe, Blackfoot, dan bahasa Athabascan Kanada. Tambahan untuk beberapa dialek Cree, Ojibwe, dan Dene dapat ditemukan di blok Perpanjangan Silabus Aborigin Kanada Bersatu. [Dari U+1400 sampai U+167F]

Aksara Amerika lainnya di Unicode meliputi :

  • Cherokee [Dari U+13A0 sampai U+13FF]
  • Cherokee Supplement [Dari U+AB70 sampai U+ABBF]
  • Deseret [Dari U+10400 sampai U+1044F]
  • Kaktovik Numerals [Dari U+1D2C0 sampai U+1D2DF]
  • Osage [Dari U+104B0 sampai U+104FF]

15.) Aksara Mongolia

Aksara Mongolia adalah blok Unicode yang berisi karakter untuk dialek bahasa Mongolia, Manchu, dan Sibe. Biasanya ditulis dalam garis vertikal Arah teks Text direction TDright.svg Top-Down, tepat di seberang halaman, meskipun bagan kode Unicode mengutip karakter yang diputar ke orientasi horizontal karena ini adalah orientasi mesin terbang dalam font yang mendukung tata letak dalam orientasi vertikal.

16.) Simbol Unicode

Dalam komputasi, Simbol Unicode adalah karakter Unicode yang bukan merupakan bagian dari skrip yang digunakan untuk menulis bahasa alami, namun tersedia untuk digunakan sebagai bagian dari teks. [Dari U+2013 sampai U+204A]

17.) Tanda Baca Umum (General Punctuation)

Tanda Baca Umum adalah blok Unicode yang berisi tanda baca, spasi, dan pemformatan karakter untuk digunakan dengan semua skrip dan sistem penulisan. Termasuk adalah ruang dengan lebar yang ditentukan, format penggabungan, format arah, kutipan cerdas, tanda baca kuno dan baru seperti interrobang, dan operator matematika yang tidak terlihat. [Dari U+2000 sampai U+206F]

18.) Superskrip dan Subskrip

Superskrip dan Subskrip adalah blok Unicode yang berisi angka superskrip dan subskrip, operator matematika, dan huruf yang digunakan dalam matematika dan fonetik. Penggunaan subskrip dan superskrip di Unicode memungkinkan persamaan polinomial, kimia, dan persamaan tertentu lainnya direpresentasikan dalam teks biasa tanpa menggunakan bentuk markup apa pun seperti HTML atau TeX. Huruf superskrip lainnya dapat ditemukan di blok Spacing Modifier Letters, Phonetic Extensions, dan Fonetic Extensions Supplement, sedangkan superscript 1, 2, dan 3, yang diwarisi dari ISO 8859-1, dimasukkan dalam blok Latin-1 Supplement. [Dari U+2070 sampai U+209F]

19.) Simbol Mata Uang (Currency Symbols)

Simbol Mata Uang adalah blok Unicode yang berisi karakter untuk mewakili tanda moneter unik. Banyak tanda mata uang dapat ditemukan di blok Unicode lainnya, terutama jika simbol mata uang itu unik untuk negara yang menggunakan skrip yang umumnya tidak digunakan di luar negara tersebut.

Tampilan simbol mata uang Unicode di antara berbagai tipografi tidak konsisten, lebih dari karakter lain dalam repertoar. Tanda franc Prancis (U+20A3) biasanya ditampilkan sebagai F yang dicoret, tetapi berbagai versi Garamond menampilkannya sebagai ligatur Fr. Tanda peseta (U+20A7), diwarisi dari kode halaman 437, biasanya ditampilkan sebagai ligatur Pts, tetapi Roboto menampilkannya sebagai ligatur Pt dan Arial Unicode MS menampilkannya sebagai P yang dicoret sebagian. Tanda rupee (U+20A8) biasanya ditampilkan sebagai digraf Rs, tetapi Microsoft Sans Serif menggunakan digraf "Rp" dengan kuantitas netral sebagai gantinya. [Dari U+20A0 sampai U+20CF]

20.) Simbol seperti Huruf (Letterlike Symbols)

Simbol Seperti Huruf adalah blok Unicode yang berisi 80 karakter yang dibangun terutama dari mesin terbang dari satu atau lebih huruf. Selain blok ini, Unicode menyertakan alfabet matematika gaya penuh, meskipun Unicode tidak secara eksplisit mengkategorikan karakter ini sebagai "seperti huruf" atau "letterlike". [Dari U+2100 sampai U+214F]

21.) Bentuk Angka

Number Forms adalah blok Unicode yang berisi karakter kompatibilitas Unicode yang memiliki arti khusus sebagai angka, tetapi dibangun dari karakter lain. Mereka terutama terdiri dari pecahan vulgar dan angka Romawi. Selain karakter di blok Number Forms, tiga fraksi diwarisi dari ISO-8859-1, yang digabungkan secara keseluruhan sebagai blok Tambahan Latin-1. [Dari U+2150 sampai U+218F]

22.) Tanda Panah

Panah adalah blok Unicode yang berisi simbol garis, kurva, dan setengah lingkaran yang diakhiri dengan duri atau panah. [Dari U+2190 sampai U+21FF]

23.) Simbol Matematika

Standar Unicode mengkodekan hampir semua karakter standar yang digunakan dalam matematika. Laporan Teknis Unicode #25 memberikan informasi komprehensif tentang repertoar karakter, propertinya, dan pedoman penerapannya. Operator dan simbol matematika ada dalam beberapa blok Unicode. Beberapa dari blok ini didedikasikan untuk, atau terutama berisi, karakter matematika, sementara yang lain merupakan campuran karakter matematika dan non-matematis. Artikel ini membahas semua karakter Unicode dengan properti turunan "Matematika".

Operator Matematika adalah blok Unicode yang berisi karakter untuk notasi matematika, logika, dan himpunan. [Dari U+2200 sampai U+1D7FF]

Terutama absen adalah tanda tambah (+), lebih besar dari tanda (>) dan kurang dari tanda (<), karena sudah muncul di blok Basic Latin Unicode, dan tanda plus-atau-minus (±), tanda perkalian (×) dan obelus (÷), karena mereka sudah muncul di blok Suplemen Latin-1, meskipun tanda minus yang berbeda (−) disertakan, berbeda dari tanda hubung-minus Latin Dasar (-).

Terutama absen adalah tanda tambah (+), lebih besar dari tanda (>) dan kurang dari tanda (<), karena sudah muncul di blok Basic Latin Unicode, dan tanda plus-atau-minus (±), tanda perkalian (×) dan obelus (÷), karena mereka sudah muncul di blok Suplemen Latin-1, meskipun tanda minus yang berbeda (−) disertakan, berbeda dari tanda hubung-minus Latin Dasar (-).

Simbol Matematika lainnya di Unicode meliputi :

  • Operator Matematika Tambahan (Blok Unicode) [Dari U+2A00 sampai U+2AFF]
  • Miscellaneous Mathematical Symbols-A (Blok Unicode) [Dari U+27C0 sampai U+27EF]
  • Miscellaneous Mathematical Symbols-B (Blok Unicode) [Dari U+2980 sampai U+29FF]
  • Simbol Alfanumerik Matematika : Simbol Alfanumerik Matematika (Blok Unicode) [Dari U+1D400 sampai U+1D7FF]

24.) Teknis Lain-Lain (Miscellaneous Technical)

Miscellaneous Technical adalah blok Unicode mulai dari U+2300 hingga U+23FF, yang berisi berbagai simbol umum yang terkait dan digunakan dalam berbagai profesi teknis, bahasa pemrograman, dan akademik. Misalnya :

  • Simbol ⌂ (kode heksadesimal HTML adalah &#x2302;) melambangkan rumah atau rumah.
  • Simbol ⌘ (&#x2318;) adalah tanda "tempat menarik". Ini dapat digunakan untuk mewakili tombol Command pada keyboard Mac.
  • Simbol ⌚ (&#x231A;) adalah jam tangan (atau jam).
  • Simbol ⏏ (&#x23CF;) adalah simbol tombol "Keluarkan" yang terdapat pada peralatan elektronik.
  • Simbol ⏚ (&#x23DA;) adalah simbol "Earth Ground" yang terdapat pada manual listrik atau elektronik, tag dan peralatan.

Ini juga mencakup sebagian besar simbol yang tidak biasa digunakan oleh bahasa pemrograman APL.

25.) Kontrol Gambar

Gambar Kontrol adalah blok Unicode yang berisi karakter untuk secara grafis mewakili kode kontrol C0, dan karakter kontrol lainnya. Nama bloknya di Unicode 1.0 adalah Gambar untuk Kode Kontrol. [Dari U+2400 sampai U+243F]

26.) Pengenalan Karakter Optik (Optical Character Recognition)

Pengenalan Karakter Optik adalah blok Unicode yang berisi karakter sinyal untuk standar OCR dan MICR. [Dari U+2440 sampai U+245F]

27.) Alfanumerik Terlampir (Enclosed Alphanumerics)

Alfanumerik Terlampir adalah blok Unicode simbol tipografi alfanumerik di dalam lingkaran, tanda kurung, atau selungkup lain yang tidak tertutup, atau diakhiri dengan titik. [Dari U+2460 sampai U+24FF]

Saat ini dialokasikan sepenuhnya. Dalam Bidang Multibahasa Dasar, beberapa angka terlampir tambahan ada di Dingbats dan blok Surat dan Bulan CJK Terlampir. Ada juga blok dengan lebih banyak karakter ini di Bidang Multibahasa Tambahan bernama Suplemen Alfanumerik Terlampir (U+1F100–U+1F1FF), pada Unicode 6.0.

28.) Gambar Kotak (Box Drawing)

Gambar Kotak adalah blok Unicode yang berisi karakter untuk kompatibilitas dengan standar grafis lama yang berisi karakter untuk membuat bagan dan tabel yang dibatasi, yaitu karakter gambar kotak. Nama bloknya di Unicode 1.0 adalah Formulir dan Komponen Bagan. [Dari U+2500 sampai U+257F]

29.) Elemen Blok

Elemen Blok adalah blok Unicode yang berisi simbol blok persegi dengan berbagai isian dan bayangan. Digunakan bersama dengan elemen blok adalah karakter gambar kotak, karakter bayangan, dan karakter grafis terminal. Ini dapat digunakan untuk mengisi area layar dan menggambarkan drop shadow. Nama bloknya di Unicode 1.0 adalah Blocks. [Dari U+2580 sampai U+259F]

30.) Bentuk Geometris

Geometric Shapes adalah blok Unicode yang terdiri dari 96 simbol pada rentang titik kode U+25A0–25FF.

31.) Simbol Lain-lain (Miscellaneous Symbols)

Miscellaneous Symbols adalah blok Unicode (U+2600 sampai U+26FF) berisi glyph yang mewakili konsep dari berbagai kategori: astrologi, astronomi, catur, dadu, notasi musik, simbol politik, daur ulang, simbol agama, trigram, tanda peringatan, dan cuaca, antara lain.

32.) Simbol untuk Komputasi Lawas (Symbols for Legacy Computing)

Symbols for Legacy Computing adalah blok Unicode yang berisi karakter grafik yang digunakan untuk berbagai komputer rumah dari tahun 1970-an dan 1980-an dan dalam standar penyiaran Teleteks. Ini termasuk karakter dari Amstrad CPC, MSX, Mattel Aquarius, RISC OS, MouseText, Atari ST, TRS-80 Color Computer, Oric, Texas Instruments TI-99/4A, TRS-80, Minitel, Teletext, ATASCII, PETSCII, ZX80 , dan kumpulan karakter ZX81, serta karakter semigrafik. [Dari U+1FB00 sampai U+1FBFF]

33.) Dingbat

Dalam tipografi, Dingbat (kadang-kadang lebih dikenal sebagai ornamen pencetak atau karakter pencetak) adalah ornamen, khususnya, mesin terbang yang digunakan dalam penyusunan huruf, sering digunakan untuk membuat bingkai kotak, (mirip dengan karakter gambar kotak) atau sebagai dinkus (pembagi bagian). Beberapa simbol dingbat telah digunakan sebagai tanda tangan, digunakan dalam penjilidan buku untuk memesan bagian.

Dalam industri komputer, font Dingbat adalah font komputer yang memiliki simbol dan bentuk yang menggunakan kembali titik kode yang ditunjuk untuk karakter alfabet atau numerik. Praktik ini diharuskan oleh terbatasnya jumlah poin kode yang tersedia di sistem operasi abad ke-20. Sebagian besar font modern didasarkan pada Unicode, yang memiliki poin kode unik untuk mesin terbang dingbat. [Dari U+2700 sampai U+27BF]

34.) Sistem Penulisan Asia Timur

Simbol dan Tanda Baca CJK adalah blok Unicode yang berisi simbol dan tanda baca yang digunakan untuk menulis bahasa Tionghoa, Jepang, dan Korea. Ini juga berisi satu karakter Tionghoa.

Sistem Penulisan Asia Timur meliputi :

  • CJK Symbols and Punctuation [Dari U+3000 sampai U+303F]
  • Hiragana [Dari U+3000 sampai U+303F]
  • Katakana [Dari U+30A0 sampai U+30FF]
  • Kana Extended [Dari U+31F0 sampai U+1B16F]
  • Bopomofo [Dari U+31A0 sampai U+31BF]
  • Hangul Jamo and Compatibility Jamo [Dari U+1100 sampai U+D7FF]
  • Kanbun [Dari U+3190 sampai U+319F]
  • Enclosed CJK Letters and Months [Dari U+3200 sampai U+32FF]
  • CJK Compatibility [Dari U+3300 sampai U+33FF]
  • CJK Compatibility Forms [Dari U+FE30 sampai U+FE4F]
  • CJK Unified Ideographs [Dari U+4E00 sampai U+9FFF]
  • CJK Radicals [Dari U+2E80 sampai U+31EF]

Sistem penulisan Asia Timur lainnya meliputi :

  • Counting Rod Numerals [Dari U+1D360 sampai U+1D37F]
  • Halfwidth and Fullwidth Forms [Dari U+FF00 sampai U+FFEF]
  • Ideographic Description Characters [Dari U+2FF0 sampai U+2FFF]
  • Khitan Small Script [Dari U+18B00 sampai U+18CFF]
  • Lisu [Dari U+A4D0 sampai U+A4FF]
  • Lisu Supplement [Dari U+11FB0 sampai U+11FBF]
  • Miao [Dari U+16F00 sampai U+16F9F]
  • Modifier Tone Letters [Dari U+A700 sampai U+A71F]
  • Nushu [Dari U+1B170 sampai U+1B2FF]
  • Nyiakeng Puachue Hmong [Dari U+1E100 sampai U+1E14F]
  • Small Form Variants [Dari U+FE50 sampai U+FE6F]
  • Tai Xuan Jing Symbols [Dari U+1D300 sampai U+1D35F]
  • Tangut [Dari U+17000 sampai U+187FF]
  • Tangut Components [Dari U+18800 sampai U+18AFF]
  • Tangut Supplement [Dari U+18D00 sampai U+18D7F]
  • Vertical Forms [Dari U+FE10 sampai U+FE1F]
  • Wancho [Dari U+1E2C0 sampai U+1E2FF]
  • Yi Syllables [Dari U+A000 sampai U+A48F]
  • Yi Radicals [Dari U+A490 sampai U+A4CF]
  • Yijing Hexagram Symbols [Dari U+4DC0 sampai U+4DFF]

35.) Bentuk Presentasi Alfabet

Formulir Presentasi Alfabet adalah blok Unicode yang berisi ligatur standar untuk skrip Latin, Armenia, dan Ibrani. [Dari U+FB00 sampai U+FB4F]

36.) Aksara Kuno dan Bersejarah

Aksara Kuno dan Bersejarah, meliputi :

  • Aegean Numbers [Dari U+10100 sampai U+1013F]
  • Anatolian Hieroglyphs [Dari U+14400 sampai U+1467F]
  • Ancient Greek Numbers [Dari U+10140 sampai U+1018F]
  • Ancient Symbols [Dari U+10190 sampai U+101CF]
  • Avestan [Dari U+10B00 sampai U+10B3F]
  • Brahmi [Dari U+11000 sampai U+1107F]
  • Carian [Dari U+102A0 sampai U+102DF]
  • Caucasian Albanian [Dari U+10530 sampai U+1056F]
  • Chorasmian [Dari U+10FB0 sampai U+10FDF]
  • Cuneiform [Dari U+12000 sampai U+123FF]
  • Cuneiform Numbers and Punctuation [Dari U+12400 sampai U+1247F]
  • Cypriot Syllabary [Dari U+10800 sampai U+1083F]
  • Cypro-Minoan [Dari U+12F90 sampai U+12FFF]
  • Early Dynastic Cuneiform [Dari U+12480 sampai U+1254F]
  • Egyptian Hieroglyph Format Controls [Dari U+13430 sampai U+1345F]
  • Egyptian Hieroglyphs [Dari U+13000 sampai U+1342F]
  • Elbasan [Dari U+10500 sampai U+1052F]
  • Elymaic [Dari U+10FE0 sampai U+10FFF]
  • Glagolitic [Dari U+2C00 sampai U+2C5F]
  • Glagolitic Supplement [Dari U+1E000 sampai U+1E02F]
  • Gothic [Dari U+10330 sampai U+1034F]
  • Hatran [Dari U+108E0 sampai U+108FF]
  • Imperial Aramaic [Dari U+10840 sampai U+1085F]
  • Indic Siyaq Numbers [Dari U+1EC70 sampai U+1ECBF]
  • Inscriptional Pahlavi [Dari U+10B60 sampai U+10B7F]
  • Inscriptional Parthian [Dari U+10B40 sampai U+10B5F]
  • Kharoshthi [Dari U+10A00 sampai U+10A5F]
  • Linear A [Dari U+10600 sampai U+1077F]
  • Linear B Ideograms [Dari U+10080 sampai U+100FF]
  • Linear B Syllabary [Dari U+10000 sampai U+1007F]
  • Lycian [Dari U+10280 sampai U+1029F]
  • Lydian [Dari U+10920 sampai U+1093F]
  • Manichaean [Dari U+10AC0 sampai U+10AFF]
  • Mayan Numerals [Dari U+1D2E0 sampai U+1D2FF]
  • Meroitic Cursive [Dari U+109A0 sampai U+109FF]
  • Meroitic Hieroglyphs [Dari U+10980 sampai U+1099F]
  • Nabataean [Dari U+10880 sampai U+108AF]
  • Nandinagari [Dari U+119A0 sampai U+119FF]
  • Ogham [Dari U+1680 sampai U+169F]
  • Old Hungarian [Dari U+10C80 sampai U+10CFF]
  • Old Italic [Dari U+10300 sampai U+1032F]
  • Old North Arabian [Dari U+10A80 sampai U+10A9F]
  • Old Permic [Dari U+10A80 sampai U+10A9F]
  • Old Persian [Dari U+103A0 sampai U+103DF]
  • Old Sogdian [Dari U+10F00 sampai U+10F2F]
  • Old South Arabian [Dari  U+10A60 sampai U+10A7F]
  • Old Turkic [Dari U+10C00 sampai U+10C4F]
  • Old Uyghur [Dari U+10F70 sampai U+10FAF]
  • Palmyrene [Dari U+10860 sampai U+1087F]
  • Phaistos Disc [Dari U+101D0 sampai U+101FF]
  • Phoenician [Dari U+10900 sampai U+1091F]
  • Psalter Pahlavi [Dari U+10B80 sampai U+10BAF]
  • Runic [Dari U+16A0 sampai U+16FF]
  • Sogdian [Dari U+10F30 sampai U+10F6F]
  • Soyombo [Dari U+11A50 sampai U+11AAF]
  • Ugaritic [Dari U+10380 sampai U+1039F]
  • Vithkuqi [Dari U+10570 sampai U+105BF]
  • Yezidi [Dari U+10E80 sampai U+10EBF]
  • Zanabazar Square [Dari U+11A00 sampai U+11A4F]

37.) Alfabet Shavian

Shavian adalah blok Unicode yang berisi karakter alfabet Shavian (juga dikenal sebagai alfabet Shaw), sebuah ortografi yang diciptakan untuk menulis bahasa Inggris secara fonetis dan didanai oleh kehendak George Bernard Shaw. Blok Shavian berasal dari pengkodean penggunaan pribadi sebelumnya di ConScript Unicode Registry, seperti pengkodean Deseret dan Phaistos Disc. [Dari U+10450 sampai U+1047F]

38.) Sistem Notasi

Ada beberapa Jenis Sistem Notasi, diantaranya adalah :

Braille :

Musik :

Shorthand :

Sutton SignWriting :

39.) Emoji

Unicode 15.0 mewakili Emoji menggunakan 1.424 karakter yang tersebar di 24 blok, 26 di antaranya adalah simbol indikator Regional yang digabungkan berpasangan untuk membentuk emoji bendera, dan 12 (#, * dan 0–9) adalah karakter dasar untuk urutan emoji keycap :

637 dari 768 titik kode di blok Miscellaneous Symbols and Pictographs dianggap sebagai emoji. 242 dari 256 titik kode di blok Simbol dan Piktograf Tambahan dianggap sebagai emoji. Semua dari 107 poin kode di blok Symbols and Pictographs Extended-A dianggap sebagai emoji. Semua dari 80 poin kode di blok Emotikon dianggap sebagai emoji. 105 dari 118 titik kode di blok Transportasi dan Simbol Peta dianggap sebagai emoji. 83 dari 256 poin kode di blok Miscellaneous Symbols dianggap sebagai emoji. 33 dari 192 poin kode di blok Dingbats dianggap sebagai Emoji. [Dari U+00A9 sampai U+1FAF8]

40.) Simbol Alkimia (Alchemical Symbols)

Simbol Alkimia, awalnya dirancang sebagai bagian dari alkimia, digunakan untuk menunjukkan beberapa unsur dan beberapa senyawa hingga abad ke-18. Meskipun notasi sebagian dibakukan, gaya dan simbol bervariasi di antara alkemis. Lüdy-Tenger menerbitkan inventaris 3.695 simbol dan varian, dan itu tidak lengkap, menghilangkan misalnya banyak simbol yang digunakan oleh Isaac Newton. Oleh karena itu, halaman ini hanya mencantumkan simbol yang paling umum. [Dari U+1F700 sampai U+1F77F]

41.) Simbol dalam Permainan

Simbol dalam Permainan meliputi :

42.) Area Khusus dan Format Karakter

Area Penggunaan Pribadi (Private Use Areas), meliputi :

  • Area Penggunaan Pribadi (Private Use Area) [Dari U+E000..U+F8FF]
  • Supplementary Private Use Area-A [Dari U+F0000..U+FFFFF]
  • Supplementary Private Use Area-B [Dari U+100000..U+10FFFF]

Selanjutnya, ada Karakter Khusus (Special) adalah blok karakter Unicode pendek yang dialokasikan di bagian paling akhir Bidang Multibahasa Dasar, dari U+FFF0 sampai FFFF.

Pengganti (Surrogates), meliputi :

  • Low Surrogates [Dari U+DC00 sampai U+DFFF]
  • High Surrogates [Dari U+DB80 sampai U+DBFF]
  • High Private Use Surrogates [Dari U+DB80 sampai U+DBFF]

Tag adalah blok Unicode yang berisi Karakter Tag pemformatan. Blok ini dirancang untuk mencerminkan ASCII. Awalnya ditujukan untuk tag bahasa, tetapi sekarang telah digunakan kembali sebagai pengubah Emoji, khususnya untuk bendera wilayah. [Dari U+E0000..U+E007F]

Terakhir, Bentuk Varian (Variant Form) adalah mesin terbang yang berbeda untuk sebuah karakter, dikodekan dalam Unicode melalui mekanisme urutan variasi: urutan dalam Unicode yang terdiri dari karakter dasar diikuti oleh karakter pemilih variasi. Bentuk varian biasanya memiliki tampilan dan makna yang sangat mirip dengan bentuk dasarnya. Mekanisme ini ditujukan untuk bentuk varian yang pada umumnya jika bentuk varian tidak tersedia, menampilkan karakter dasar tidak mengubah makna teks, dan bahkan mungkin tidak terlihat oleh banyak pembaca. Bentuk Varian Terdiri dari :

Untuk lebih jelas apa itu Unicode dan ASCII, silakan lihat pada Video di bawah ini :


Nantikan pembahasan kami selanjutnya tentang Jenis-jenis Sistem Bilangan.

Terima Kasih 😄😘👌👍 :)

Wassalamu‘alaikum wr. wb.

Post a Comment

Previous Post Next Post