Inilah Jenis-jenis Pengkodean Karakter dalam Komputer

Assalamu‘alaikum wr. wb.

Hello guys! Dalam Komputer biasanya mengenal yang namanya Pengkodean atau Encoding, misalnya UTF-8, UTF-16, atau UTF-32. Memang, Komputer hanya mengenal Bilangan 0 dan 1, jadi semua Karakter atau Tulisan dikonversikan menjadi Karakter ASCII, dan untuk berbagai macam Aksara, dikonversikan lagi menjadi Unicode.

Sumber : Wikipedia.org

Pengkodean karakter adalah proses pemberian angka ke karakter grafis, terutama karakter tertulis dari bahasa manusia, yang memungkinkannya untuk disimpan, dikirim, dan diubah menggunakan komputer digital. Nilai numerik yang membentuk pengkodean karakter dikenal sebagai "titik kode" dan secara kolektif terdiri dari "ruang kode", "halaman kode", atau "peta karakter".

Kode karakter awal yang terkait dengan telegraf optik atau elektrik hanya dapat mewakili sebagian dari karakter yang digunakan dalam bahasa tertulis, terkadang terbatas pada huruf besar, angka, dan beberapa tanda baca saja. Biaya representasi digital data yang rendah dalam sistem komputer modern memungkinkan kode karakter yang lebih rumit (seperti Unicode) yang mewakili sebagian besar karakter yang digunakan dalam banyak bahasa tertulis. Pengkodean karakter menggunakan standar yang diterima secara internasional memungkinkan pertukaran teks di seluruh dunia dalam bentuk elektronik.

JENIS-JENIS PENGKODEAN KARAKTER DALAM KOMPUTER

1. ASCII

Tabel ASCII

Sumber : Wikip edia.org

ASCII singkatan dari American Standard Code for Information Interchange atau Kode Standar Amerika untuk Pertukaran Informasi (/ˈæski/ (simak) ass-kee), 6 adalah standar pengkodean karakter untuk alat komunikasi. Kode ASCII mewakili teks dalam komputer, peralatan telekomunikasi, dan perangkat lainnya. Kebanyakan skema pengkodean karakter modern didasarkan pada ASCII, meskipun mereka mendukung banyak karakter tambahan.

1. Sejarah

Kode Standar Amerika untuk Pertukaran Informasi (ASCII) dikembangkan di bawah naungan komite American Standards Association (ASA), yang disebut Komite X3, oleh Subkomite X3.2 (kemudian X3L2), dan kemudian oleh Subkomite X3. 2.4 kelompok kerja (sekarang INCITS). ASA menjadi Institut Standar Amerika Serikat (USASI) dan akhirnya Institut Standar Nasional Amerika (ANSI).

Dengan diisinya karakter khusus dan kode kontrol lainnya, ASCII diterbitkan sebagai ASA X3.4-1963, meninggalkan 28 posisi kode tanpa arti yang ditetapkan, dicadangkan untuk standarisasi di masa mendatang, dan satu kode kontrol yang belum ditetapkan. Ada beberapa perdebatan pada saat itu apakah harus ada lebih banyak karakter kontrol daripada alfabet huruf kecil. Meragu-ragukan itu tidak berlangsung lama: selama Mei 1963, Partai Kerja CCITT pada Alfabet Telegraf Baru mengusulkan untuk menetapkan karakter huruf kecil ke tongkat 6 dan 7, dan Organisasi Internasional untuk Standardisasi TC 97 SC 2 memilih pada bulan Oktober untuk memasukkan perubahan ke dalam rancangan standarnya. . Kelompok tugas X3.2.4 memilih persetujuannya untuk perubahan ke ASCII pada pertemuan Mei 1963. Penempatan huruf kecil di stik 6 dan 7 menyebabkan karakter berbeda dalam pola bit dari huruf besar satu bit, yang menyederhanakan pencocokan karakter case-insensitive dan konstruksi keyboard dan printer.

Panitia X3 melakukan perubahan lain, termasuk karakter baru lainnya (karakter kurung kurawal dan karakter batang vertikal), mengganti nama beberapa karakter kontrol (SOM menjadi awal header (SOH)) dan memindahkan atau menghapus yang lain (RU dihapus). ASCII kemudian diperbarui sebagai USAS X3.4-1967, kemudian USAS X3.4-1968, ANSI X3.4-1977, dan terakhir, ANSI X3.4-1986.

Revisi Standar ASCII :

ASA X3.4-1963
ASA X3.4-1965 (disetujui, tetapi tidak diterbitkan, namun digunakan oleh IBM 2260 & 2265 Display Stations dan IBM 2848 Display Control) : 423, 425–428, 435–439
USAS X3.4-1967
USAS X3.4-1968
ANSI X3.4-1977
ANSI X3.4-1986
ANSI X3.4-1986 (R1992)
ANSI X3.4-1986 (R1997)
ANSI INCITS 4-1986 (R2002)
ANSI INCITS 4-1986 (R2007)
(ANSI) INCITS 4-1986[R2012]
(ANSI) INCITS 4-1986[R2017]

Dalam standar X3.15, komite X3 juga membahas bagaimana ASCII harus ditransmisikan (paling tidak signifikan terlebih dahulu), dan bagaimana seharusnya direkam pada pita berlubang. Mereka mengusulkan standar 9-track untuk pita magnetik, dan berusaha untuk menangani beberapa format kartu berlubang.

2. Kegunaan

ASCII pertama kali digunakan secara komersial pada tahun 1963 sebagai kode teleprinter tujuh bit untuk jaringan TWX (TeletypeWriter eXchange) American Telephone & Telegraph. TWX awalnya menggunakan ITA2 lima-bit sebelumnya, yang juga digunakan oleh sistem teleprinter Telex yang bersaing. Bob Bemer memperkenalkan fitur seperti urutan pelarian. Koleganya dari Inggris, Hugh McGregor Ross membantu mempopulerkan karya ini – menurut Bemer, "sedemikian rupa sehingga kode yang akan menjadi ASCII pertama kali disebut Kode Bemer–Ross di Eropa". Karena karyanya yang luas di ASCII, Bemer disebut sebagai "bapak ASCII".

Pada tanggal 11 Maret 1968, Presiden AS Lyndon B. Johnson mengamanatkan bahwa semua komputer yang dibeli oleh Pemerintah Federal Amerika Serikat mendukung ASCII, dengan menyatakan :

Saya juga telah menyetujui rekomendasi dari Menteri Perdagangan [Luther H. Hodges] mengenai standar pencatatan Kode Standar untuk Pertukaran Informasi pada pita magnetik dan pita kertas ketika digunakan dalam operasi komputer. Semua komputer dan konfigurasi peralatan terkait yang dibawa ke inventaris Pemerintah Federal pada dan setelah 1 Juli 1969, harus memiliki kemampuan untuk menggunakan Kode Standar untuk Pertukaran Informasi dan format yang ditentukan oleh pita magnetik dan standar pita kertas ketika media ini digunakan.

ASCII adalah pengkodean karakter paling umum di World Wide Web hingga Desember 2007, ketika pengkodean UTF-8 melampauinya; UTF-8 kompatibel dengan ASCII.

3. Varian dan Turunan

Ketika teknologi komputer menyebar ke seluruh dunia, berbagai badan standar dan perusahaan mengembangkan banyak variasi ASCII untuk memfasilitasi ekspresi bahasa non-Inggris yang menggunakan alfabet berbasis Romawi. Seseorang dapat mengklasifikasikan beberapa variasi ini sebagai "ekstensi ASCII", meskipun beberapa menyalahgunakan istilah itu untuk mewakili semua varian, termasuk yang tidak mempertahankan peta karakter ASCII dalam rentang 7-bit. Selain itu, ekstensi ASCII juga telah disalahartikan sebagai ASCII.

a. Kode 7-bit

Sejak awal perkembangannya, ASCII dimaksudkan untuk menjadi salah satu dari beberapa varian nasional dari standar kode karakter internasional.

Badan standar internasional lainnya telah meratifikasi pengkodean karakter seperti ISO 646 (1967) yang identik atau hampir identik dengan ASCII, dengan ekstensi untuk karakter di luar alfabet Inggris dan simbol yang digunakan di luar Amerika Serikat, seperti simbol untuk pound sterling Inggris. (£); misalnya dengan kode halaman 1104. Hampir setiap negara membutuhkan versi adaptasi ASCII, karena ASCII hanya sesuai dengan kebutuhan AS dan beberapa negara lain. Misalnya, Kanada memiliki versinya sendiri yang mendukung karakter Prancis.

b. Kode 8-bit

Akhirnya, ketika komputer 8-, 16-, dan 32-bit (dan kemudian 64-bit) mulai menggantikan komputer 12-, 18-, dan 36-bit sebagai norma, menjadi umum untuk menggunakan byte 8-bit untuk menyimpan setiap karakter dalam memori, memberikan kesempatan untuk perluasan 8-bit kerabat ASCII. Dalam kebanyakan kasus, ini dikembangkan sebagai ekstensi ASCII yang sebenarnya, membiarkan pemetaan karakter asli tetap utuh, tetapi menambahkan definisi karakter tambahan setelah 128 karakter pertama (yaitu, 7-bit).

Pengkodean termasuk ISCII (India), VISCII (Vietnam). Meskipun pengkodean ini kadang-kadang disebut sebagai ASCII, ASCII yang sebenarnya hanya didefinisikan secara ketat oleh standar ANSI.

Sebagian besar sistem komputer rumah awal mengembangkan set karakter 8-bit mereka sendiri yang berisi gambar garis dan mesin terbang permainan, dan sering kali mengisi beberapa atau semua karakter kontrol dari 0 hingga 31 dengan lebih banyak grafik. Komputer Kaypro CP/M menggunakan 128 karakter "atas" untuk alfabet Yunani.

Kode PETSCII Commodore International yang digunakan untuk sistem 8-bit mereka mungkin unik di antara kode pasca 1970 karena didasarkan pada ASCII-1963, bukan ASCII-1967 yang lebih umum, seperti yang ditemukan pada komputer ZX Spectrum. Komputer Atari 8-bit dan komputer Galaksija juga menggunakan varian ASCII.

Halaman kode yang ditentukan PC IBM 437, yang menggantikan karakter kontrol dengan simbol grafis seperti wajah tersenyum, dan memetakan karakter grafis tambahan ke posisi 128 atas. Sistem operasi seperti DOS mendukung halaman kode ini, dan produsen PC IBM mendukungnya dalam perangkat keras. Digital Equipment Corporation mengembangkan Multinational Character Set (DEC-MCS) untuk digunakan di terminal VT220 yang populer sebagai salah satu ekstensi pertama yang dirancang lebih untuk bahasa internasional daripada untuk grafik blok. Macintosh mendefinisikan Mac OS Roman dan Postscript juga mendefinisikan satu set, keduanya berisi huruf internasional dan tanda baca tipografi alih-alih grafik, lebih seperti set karakter modern.

Standar ISO/IEC 8859 (berasal dari DEC-MCS) akhirnya memberikan standar yang disalin sebagian besar sistem (setidaknya seakurat mereka menyalin ASCII, tetapi dengan banyak penggantian). Ekstensi lebih lanjut populer yang dirancang oleh Microsoft, Windows-1252 (sering salah diberi label sebagai ISO-8859-1), menambahkan tanda baca tipografi yang diperlukan untuk pencetakan teks tradisional. ISO-8859-1, Windows-1252, dan ASCII 7-bit asli adalah pengkodean karakter paling umum hingga 2008 ketika UTF-8 menjadi lebih umum.

ISO/IEC 4873 memperkenalkan 32 kode kontrol tambahan yang didefinisikan dalam rentang heksadesimal 80-9F, sebagai bagian dari perluasan pengkodean ASCII 7-bit menjadi sistem 8-bit.

4. Contoh Konversi Karakter ASCII

Berikut inilah beberapa Contoh dari Karakter ASCII ke Biner dan Desimal :

a. ASCII ke Biner

b. Biner ke ASCII

Jika ingin melihat Tabel ASCII, silakan pada Tabel di bawah ini (Sumber : Utilities-online.info) :

Dec	Hex	Oct	Binary	HTML	Char	Description
0	00	000	00000000		NUL	Null
1	01	001	00000001		SOH	Start of Header
2	02	002	00000010		STX	Start of Text
3	03	003	00000011		ETX	End of Text
4	04	004	00000100		EOT	End of Transmission
5	05	005	00000101		ENQ	Enquiry
6	06	006	00000110		ACK	Acknowledge
7	07	007	00000111		BEL	Bell
8	08	010	00001000		BS	Backspace
9	09	011	00001001		HT	Horizontal Tab
10	0A	012	00001010		LF	Line Feed
11	0B	013	00001011		VT	Vertical Tab
12	0C	014	00001100		FF	Form Feed
13	0D	015	00001101		CR	Carriage Return
14	0E	016	00001110		SO	Shift Out
15	0F	017	00001111		SI	Shift In
16	10	020	00010000		DLE	Data Link Escape
17	11	021	00010001		DC1	Device Control 1
18	12	022	00010010		DC2	Device Control 2
19	13	023	00010011		DC3	Device Control 3
20	14	024	00010100		DC4	Device Control 4
21	15	025	00010101		NAK	Negative Acknowledge
22	16	026	00010110		SYN	Synchronize
23	17	027	00010111		ETB	End of Transmission Block
24	18	030	00011000		CAN	Cancel
25	19	031	00011001		EM	End of Medium
26	1A	032	00011010		SUB	Substitute
27	1B	033	00011011		ESC	Escape
28	1C	034	00011100		FS	File Separator
29	1D	035	00011101		GS	Group Separator
30	1E	036	00011110		RS	Record Separator
31	1F	037	00011111		US	Unit Separator
32	20	040	00100000		space	Space
33	21	041	00100001	!	!	exclamation mark
34	22	042	00100010	"	"	double quote
35	23	043	00100011	#	#	number
36	24	044	00100100	$	$	dollar
37	25	045	00100101	%	%	percent
38	26	046	00100110	&	&	ampersand
39	27	047	00100111	'	'	single quote
40	28	050	00101000	(	(	left parenthesis
41	29	051	00101001	)	)	right parenthesis
42	2A	052	00101010	*	*	asterisk
43	2B	053	00101011	+	+	plus
44	2C	054	00101100	,	,	comma
45	2D	055	00101101	-	-	minus
46	2E	056	00101110	.	.	period
47	2F	057	00101111	/	/	slash
48	30	060	00110000	0	0	zero
49	31	061	00110001	1	1	one
50	32	062	00110010	2	2	two
51	33	063	00110011	3	3	three
52	34	064	00110100	4	4	four
53	35	065	00110101	5	5	five
54	36	066	00110110	6	6	six
55	37	067	00110111	7	7	seven
56	38	070	00111000	8	8	eight
57	39	071	00111001	9	9	nine
58	3A	072	00111010	:	:	colon
59	3B	073	00111011	;	;	semicolon
60	3C	074	00111100	<	<	less than
61	3D	075	00111101	=	=	equality sign
62	3E	076	00111110	>	>	greater than
63	3F	077	00111111	?	?	question mark
64	40	100	01000000	@	@	at sign
65	41	101	01000001	A	A
66	42	102	01000010	B	B
67	43	103	01000011	C	C
68	44	104	01000100	D	D
69	45	105	01000101	E	E
70	46	106	01000110	F	F
71	47	107	01000111	G	G
72	48	110	01001000	H	H
73	49	111	01001001	I	I
74	4A	112	01001010	J	J
75	4B	113	01001011	K	K
76	4C	114	01001100	L	L
77	4D	115	01001101	M	M
78	4E	116	01001110	N	N
79	4F	117	01001111	O	O
80	50	120	01010000	P	P
81	51	121	01010001	Q	Q
82	52	122	01010010	R	R
83	53	123	01010011	S	S
84	54	124	01010100	T	T
85	55	125	01010101	U	U
86	56	126	01010110	V	V
87	57	127	01010111	W	W
88	58	130	01011000	X	X
89	59	131	01011001	Y	Y
90	5A	132	01011010	Z	Z
91	5B	133	01011011	[	[	left square bracket
92	5C	134	01011100	\	\	backslash
93	5D	135	01011101	]	]	right square bracket
94	5E	136	01011110	^	^	caret / circumflex
95	5F	137	01011111	_	_	underscore
96	60	140	01100000	`	`	grave / accent
97	61	141	01100001	a	a
98	62	142	01100010	b	b
99	63	143	01100011	c	c
100	64	144	01100100	d	d
101	65	145	01100101	e	e
102	66	146	01100110	f	f
103	67	147	01100111	g	g
104	68	150	01101000	h	h
105	69	151	01101001	i	i
106	6A	152	01101010	j	j
107	6B	153	01101011	k	k
108	6C	154	01101100	l	l
109	6D	155	01101101	m	m
110	6E	156	01101110	n	n
111	6F	157	01101111	o	o
112	70	160	01110000	&#112	p
113	71	161	01110001	q	q
114	72	162	01110010	r	r
115	73	163	01110011	s	s
116	74	164	01110100	t	t
117	75	165	01110101	u	u
118	76	166	01110110	v	v
119	77	167	01110111	w	w
120	78	170	01111000	x	x
121	79	171	01111001	y	y
122	7A	172	01111010	z	z
123	7B	173	01111011	{	{	left curly bracket
124	7C	174	01111100	\|	\|	vertical bar
125	7D	175	01111101	}	}	right curly bracket
126	7E	176	01111110	~	~	tilde
127	7F	177	01111111		DEL	delete

Dan inilah Ekstensi (Lanjutan) dari Tabel ASCII :

Dec	Hex	Oct	Binary	HTML	Char
128	80	200	10000000	-	€
129	81	201	10000001	-
130	82	202	10000010	-	‚
131	83	203	10000011	-	ƒ
132	84	204	10000100	-	„
133	85	205	10000101	-	…
134	86	206	10000110	-	†
135	87	207	10000111	-	‡
136	88	210	10001000	-	ˆ
137	89	211	10001001	-	‰
138	8A	212	10001010	-	Š
139	8B	213	10001011	-	‹
140	8C	214	10001100	-	Œ
141	8D	215	10001101	-
142	8E	216	10001110	-	Ž
143	8F	217	10001111	-
144	90	220	10010000	-
145	91	221	10010001	-	‘
146	92	222	10010010	-	’
147	93	223	10010011	-	“
148	94	224	10010100	-	”
149	95	225	10010101	-	•
150	96	226	10010110	-	–
151	97	227	10010111	-	—
152	98	230	10011000	-	˜
153	99	231	10011001	-	™
154	9A	232	10011010	-	š
155	9B	233	10011011	-	›
156	9C	234	10011100	-	œ
157	9D	235	10011101	-
158	9E	236	10011110	-	ž
159	9F	237	10011111	-	Ÿ
160	A0	240	10100000
161	A1	241	10100001	¡	¡
162	A2	242	10100010	¢	¢
163	A3	243	10100011	£	£
164	A4	244	10100100	¤	¤
165	A5	245	10100101	¥	¥
166	A6	246	10100110	¦	¦
167	A7	247	10100111	§	§
168	A8	250	10101000	¨	¨
169	A9	251	10101001	©	©
170	AA	252	10101010	ª	ª
171	AB	253	10101011	«	«
172	AC	254	10101100	¬	¬
173	AD	255	10101101
174	AE	256	10101110	®	®
175	AF	257	10101111	¯	¯
176	B0	260	10110000	°	°
177	B1	261	10110001	±	±
178	B2	262	10110010	²	²
179	B3	263	10110011	³	³
180	B4	264	10110100	´	´
181	B5	265	10110101	µ	µ
182	B6	266	10110110	¶	¶
183	B7	267	10110111	·	·
184	B8	270	10111000	¸	¸
185	B9	271	10111001	¹	¹
186	BA	272	10111010	º	º
187	BB	273	10111011	»	»
188	BC	274	10111100	¼	¼
189	BD	275	10111101	½	½
190	BE	276	10111110	¾	¾
191	BF	277	10111111	¿	¿
192	C0	300	11000000	À	À
193	C1	301	11000001	Á	Á
194	C2	302	11000010	Â	Â
195	C3	303	11000011	Ã	Ã
196	C4	304	11000100	Ä	Ä
197	C5	305	11000101	Å	Å
198	C6	306	11000110	Æ	Æ
199	C7	307	11000111	Ç	Ç
200	C8	310	11001000	È	È
201	C9	311	11001001	É	É
202	CA	312	11001010	Ê	Ê
203	CB	313	11001011	Ë	Ë
204	CC	314	11001100	Ì	Ì
205	CD	315	11001101	Í	Í
206	CE	316	11001110	Î	Î
207	CF	317	11001111	Ï	Ï
208	D0	320	11010000	Ð	Ð
209	D1	321	11010001	Ñ	Ñ
210	D2	322	11010010	Ò	Ò
211	D3	323	11010011	Ó	Ó
212	D4	324	11010100	Ô	Ô
213	D5	325	11010101	Õ	Õ
214	D6	326	11010110	Ö	Ö
215	D7	327	11010111	×	×
216	D8	330	11011000	Ø	Ø
217	D9	331	11011001	Ù	Ù
218	DA	332	11011010	Ú	Ú
219	DB	333	11011011	Û	Û
220	DC	334	11011100	Ü	Ü
221	DD	335	11011101	Ý	Ý
222	DE	336	11011110	Þ	Þ
223	DF	337	11011111	ß	ß
224	E0	340	11100000	à	à
225	E1	341	11100001	á	á
226	E2	342	11100010	â	â
227	E3	343	11100011	ã	ã
228	E4	344	11100100	ä	ä
229	E5	345	11100101	å	å
230	E6	346	11100110	æ	æ
231	E7	347	11100111	ç	ç
232	E8	350	11101000	è	è
233	E9	351	11101001	é	é
234	EA	352	11101010	ê	ê
235	EB	353	11101011	ë	ë
236	EC	354	11101100	ì	ì
237	ED	355	11101101	í	í
238	EE	356	11101110	î	î
239	EF	357	11101111	ï	ï
240	F0	360	11110000	ð	ð
241	F1	361	11110001	ñ	ñ
242	F2	362	11110010	ò	ò
243	F3	363	11110011	ó	ó
244	F4	364	11110100	ô	ô
245	F5	365	11110101	õ	õ
246	F6	366	11110110	ö	ö
247	F7	367	11110111	÷	÷
248	F8	370	11111000	ø	ø
249	F9	371	11111001	ù	ù
250	FA	372	11111010	ú	ú
251	FB	373	11111011	û	û
252	FC	374	11111100	ü	ü
253	FD	375	11111101	ý	ý
254	FE	376	11111110	þ	þ
255	FF	377	11111111	ÿ	ÿ

Video tentang ASCII :

2. Unicode

Sumber : Wikip edia.org (Unicode), en.Wikipedia.org (Unicode Symbols), dan en.Wikipedia.org (List of Unicode Characters) / Compart.com (Block)

Unicode adalah suatu standar teknis yang dirancang untuk mengizinkan teks dan simbol dari semua sistem tulisan di dunia untuk ditampilkan dan dimanipulasi secara konsisten oleh komputer. Dikembangkan secara tandem dengan standar Universal Character Set dan dipublikasikan dalam bentuk buku The Unicode Standard. Unicode mengandung suatu kumpulan karakter, suatu metodologi pengkodean dan kumpulan standar penyandian karakter, suatu kumpulan bagan kode untuk referensi visual, deskripsi sifat karakter seperti huruf besar dan huruf kecil, suatu kumpulan data referensi berkas komputer, serta aturan normalisasi, dekomposisi, pembandingan (collation), serta penggambaran (rendering).

Unicode Consortium, suatu organisasi nirlaba yang mengkoordinasikan pengembangan Unicode memiliki tujuan ambisius untuk dapat, pada akhirnya, menggantikan skema pengkodean karakter yang ada dengan Unicode dan skema Unicode Transformation Format (UTF) -nya, karena banyak skema yang ada sekarang memiliki keterbatasan ukuran dan lingkup dan takserasi dengan lingkungan multibahasa. Kesuksesan Unicode menyatukan set karakter telah membawa pada penggunaannya yang luas dan pradominan dalam internasionalisasi dan lokalisasi perangkat lunak komputer. Standar ini telah diterapkan pada teknologi-teknologi terkini, termasuk XML, bahasa pemrograman Java, dan sistem operasi modern.

Unicode dapat diimplementasikan dengan pengkodean karakter yang berbeda. Standar Unicode mendefinisikan Format Transformasi Unicode (UTF): UTF-8, UTF-16, dan UTF-32, dan beberapa pengkodean lainnya. Pengkodean yang paling umum digunakan adalah UTF-8, UTF-16, dan UCS-2 usang (pendahulu UTF-16 tanpa dukungan penuh untuk Unicode); GB18030, meskipun bukan standar Unicode resmi, distandarisasi di China dan menerapkan Unicode sepenuhnya.

UTF-8, pengkodean dominan di World Wide Web (digunakan di lebih dari 95% situs web pada tahun 2020, dan hingga 100% untuk beberapa bahasa) dan pada sebagian besar sistem operasi mirip Unix, menggunakan satu byte (8 bit) untuk 128 poin kode pertama, dan hingga 4 byte untuk karakter lain. 128 poin kode Unicode pertama mewakili karakter ASCII, yang berarti bahwa setiap teks ASCII juga merupakan teks UTF-8.

UCS-2 menggunakan dua byte (16 bit) untuk setiap karakter tetapi hanya dapat mengkodekan 65.536 poin kode pertama, yang disebut Basic Multilingual Plane (BMP). Dengan 1.112.064 kemungkinan titik kode Unicode yang sesuai dengan karakter (lihat di bawah) pada 17 bidang, dan dengan lebih dari 144.000 titik kode yang ditentukan pada versi 14.0, UCS-2 hanya dapat mewakili kurang dari setengah dari semua karakter Unicode yang disandikan. Oleh karena itu, UCS-2 sudah usang, meskipun masih digunakan dalam perangkat lunak. UTF-16 memperluas UCS-2, dengan menggunakan pengkodean 16-bit yang sama seperti UCS-2 untuk Bidang Multibahasa Dasar, dan pengkodean 4-byte untuk bidang lainnya. Selama tidak mengandung titik kode dalam rentang yang dicadangkan U+D800–U+DFFF, teks UCS-2 adalah teks UTF-16 yang valid.

UTF-32 (juga disebut sebagai UCS-4) menggunakan empat byte untuk mengkodekan setiap titik kode yang diberikan, tetapi tidak harus setiap karakter yang dirasakan pengguna (secara longgar, grafem), karena karakter yang dirasakan pengguna dapat diwakili oleh cluster grapheme (urutan beberapa titik kode). Seperti UCS-2, jumlah byte per titik kode tetap, memfasilitasi pengindeksan titik kode; tetapi tidak seperti UCS-2, UTF-32 mampu mengkodekan semua titik kode Unicode. Namun, karena setiap titik kode menggunakan empat byte, UTF-32 membutuhkan lebih banyak ruang daripada pengkodean lainnya, dan tidak digunakan secara luas. Meskipun UTF-32 memiliki ukuran tetap untuk setiap titik kode, ini juga memiliki panjang variabel sehubungan dengan karakter yang dirasakan pengguna. Contohnya termasuk : Devanagari kshi, yang dikodekan oleh 4 poin kode, dan emoji bendera nasional, yang terdiri dari dua poin kode. Semua urutan karakter yang digabungkan adalah grafem, tetapi ada urutan titik kode lain yang juga demikian, misalnya \r\n.

1. Asal dan Perkembangan

Unicode memiliki tujuan eksplisit untuk melampaui batasan pengkodean karakter tradisional, seperti yang didefinisikan oleh standar ISO/IEC 8859, yang digunakan secara luas di berbagai negara di dunia tetapi sebagian besar tetap tidak kompatibel satu sama lain. Banyak pengkodean karakter tradisional memiliki masalah umum yang memungkinkan pemrosesan komputer dwibahasa (biasanya menggunakan karakter Latin dan skrip lokal), tetapi tidak pemrosesan komputer multibahasa (pemrosesan komputer skrip arbitrer dicampur satu sama lain).

Unicode, dengan maksud, mengkodekan karakter yang mendasarinya—grafem dan unit mirip grafem—bukan varian mesin terbang (rendering) untuk karakter tersebut. Dalam kasus karakter Cina, hal ini terkadang menimbulkan kontroversi dalam membedakan karakter dasar dari varian mesin terbangnya (lihat penyatuan Han).

Dalam pemrosesan teks, Unicode berperan menyediakan titik kode unik—angka, bukan mesin terbang—untuk setiap karakter. Dengan kata lain, Unicode mewakili karakter secara abstrak dan meninggalkan rendering visual (ukuran, bentuk, font, atau gaya) ke perangkat lunak lain, seperti browser web atau pengolah kata. Namun, tujuan sederhana ini menjadi rumit karena konsesi yang dibuat oleh perancang Unicode dengan harapan mendorong adopsi Unicode yang lebih cepat.

256 Titik Kode pertama dibuat identik dengan isi ISO/IEC 8859-1 sehingga memudahkan untuk mengonversi teks barat yang ada. Banyak karakter yang pada dasarnya identik dikodekan beberapa kali pada titik kode yang berbeda untuk mempertahankan perbedaan yang digunakan oleh pengkodean lama dan oleh karena itu, memungkinkan konversi dari pengkodean tersebut ke Unicode (dan kembali) tanpa kehilangan informasi apa pun. Misalnya, bagian "bentuk lebar penuh" dari poin kode mencakup duplikat penuh abjad Latin karena font Tionghoa/China, Jepang, dan Korea (CJK) berisi dua versi huruf ini, "lebar penuh" yang cocok dengan lebar karakter CJK, dan lebar normal. Untuk contoh lain, lihat karakter duplikat di Unicode.

Penerima Unicode Bulldog Award termasuk banyak nama yang berpengaruh dalam pengembangan Unicode dan termasuk Tatsuo Kobayashi, Thomas Milo, Roozbeh Pournader, Ken Lunde, dan Michael Everson.

2. Arsitektur dan Terminologi

Karakter Abstrak

Kumpulan karakter grafis dan format yang ditentukan oleh Unicode tidak berhubungan langsung dengan repertoar karakter abstrak yang dapat direpresentasikan di bawah Unicode. Unicode mengkodekan karakter dengan mengasosiasikan karakter abstrak dengan titik kode tertentu. Namun, tidak semua karakter abstrak dikodekan sebagai karakter Unicode tunggal, dan beberapa karakter abstrak dapat direpresentasikan dalam Unicode dengan urutan dua karakter atau lebih. Misalnya, huruf kecil Latin "i" dengan ogonek, titik di atas, dan aksen lancip, yang diperlukan dalam bahasa Lituania, diwakili oleh urutan karakter U+012F, U+0307, U+0301. Unicode memelihara daftar urutan karakter bernama unik untuk karakter abstrak yang tidak langsung dikodekan dalam Unicode.

Semua karakter grafis, format, dan penggunaan pribadi memiliki nama yang unik dan tidak dapat diubah yang dengannya mereka dapat diidentifikasi. Kekekalan ini telah dijamin sejak Unicode versi 2.0 oleh kebijakan Stabilitas Nama. Dalam kasus di mana nama tersebut sangat cacat dan menyesatkan, atau memiliki kesalahan ketik yang serius, alias formal dapat ditentukan, dan aplikasi didorong untuk menggunakan alias formal sebagai pengganti nama karakter resmi. Sebagai contoh, U+A015 ꀕ YI SYLLABLE WU memiliki alias formal YI SYLLABLE Iteration MARK, dan U+FE18 ︘ PRESENTATION FORM FOR VERTICAL RIGHT WHITE LENTICULAR BRAKCET (sic) memiliki alias formal PRESENTATION FORM FOR VERTICAL RIGHT WHITE LENTICULAR BRAKCET.

Karakter siap pakai versus karakter komposit

Unicode menyertakan mekanisme untuk memodifikasi karakter yang sangat memperluas repertoar mesin terbang yang didukung. Ini mencakup penggunaan kombinasi tanda diakritik yang mungkin ditambahkan setelah karakter dasar oleh pengguna. Beberapa kombinasi diakritik dapat diterapkan secara bersamaan pada karakter yang sama. Unicode juga berisi versi yang telah disusun sebelumnya dari sebagian besar kombinasi huruf/diakritik dalam penggunaan normal. Ini membuat konversi ke dan dari pengkodean lama menjadi lebih sederhana, dan memungkinkan aplikasi untuk menggunakan Unicode sebagai format teks internal tanpa harus mengimplementasikan kombinasi karakter. Misalnya, é dapat direpresentasikan dalam Unicode sebagai U+0065 (LATIN SMALL LETTER E) diikuti oleh U+0301 (COMBINING ACUTE ACCENT), tetapi juga dapat direpresentasikan sebagai karakter yang telah disusun sebelumnya U+00E9 (LATIN SMALL LETTER E WITH ACUTE). Jadi, dalam banyak kasus, pengguna memiliki banyak cara untuk mengkodekan karakter yang sama. Untuk mengatasi hal ini, Unicode menyediakan mekanisme kesetaraan kanonik.

Contoh dari hal ini muncul dengan Hangul, alfabet Korea. Unicode menyediakan mekanisme untuk menyusun suku kata Hangul dengan subkomponen masing-masing, yang dikenal sebagai Hangul Jamo. Namun, ia juga menyediakan 11.172 kombinasi suku kata yang telah disusun sebelumnya yang dibuat dari jamo yang paling umum.

Karakter CJK saat ini memiliki kode hanya untuk bentuk yang telah dibuat sebelumnya. Namun, sebagian besar karakter tersebut terdiri dari elemen yang lebih sederhana (disebut radikal), sehingga pada prinsipnya Unicode dapat menguraikannya seperti halnya dengan Hangul. Ini akan sangat mengurangi jumlah poin kode yang diperlukan, sementara memungkinkan tampilan hampir setiap karakter yang mungkin (yang mungkin menghilangkan beberapa masalah yang disebabkan oleh penyatuan Han). Ide serupa digunakan oleh beberapa metode input, seperti Cangjie dan Wubi. Namun, upaya untuk melakukan ini untuk pengkodean karakter telah tersandung pada fakta bahwa karakter Cina tidak terurai sesederhana atau sesering Hangul.

Satu set radikal disediakan di Unicode 3.0 (radikal CJK antara U+2E80 dan U+2EFF, radikal KangXi di U+2F00 hingga U+2FDF, dan karakter deskripsi ideografis dari U+2FF0 hingga U+2FFB), tetapi standar Unicode (Bab 12.2 dari Unicode 5.2) memperingatkan agar tidak menggunakan urutan deskripsi ideografik sebagai representasi alternatif untuk karakter yang dikodekan sebelumnya :

Proses ini berbeda dari penyandian formal ideograf. Tidak ada deskripsi kanonik dari ideograf yang tidak dikodekan; tidak ada semantik yang ditugaskan untuk ideograf yang dijelaskan; tidak ada kesetaraan yang didefinisikan untuk ideograf yang dijelaskan. Secara konseptual, deskripsi ideografik lebih mirip dengan frasa bahasa Inggris "an 'e' dengan aksen akut di atasnya" daripada urutan karakter <U+0065, U+0301>.

Ligatur

Banyak skrip, termasuk Arab dan Devanāgarī, memiliki aturan ortografi khusus yang memerlukan kombinasi bentuk huruf tertentu untuk digabungkan menjadi bentuk pengikat khusus. Aturan yang mengatur pembentukan ligatur bisa sangat rumit, membutuhkan teknologi pembentukan skrip khusus seperti ACE (Arabic Calligraphic Engine oleh DecoType pada 1980-an dan digunakan untuk menghasilkan semua contoh bahasa Arab dalam edisi cetak Standar Unicode), yang menjadi buktinya. konsep untuk OpenType (oleh Adobe dan Microsoft), Graphite (oleh SIL International), atau AAT (oleh Apple).

Instruksi juga disematkan dalam font untuk memberi tahu sistem operasi cara menampilkan urutan karakter yang berbeda dengan benar. Solusi sederhana untuk penempatan tanda kombinasi atau diakritik adalah dengan menetapkan lebar tanda nol dan menempatkan mesin terbang itu sendiri di kiri atau kanan sidebearing kiri (bergantung pada arah skrip yang akan digunakan). Tanda yang ditangani dengan cara ini akan muncul di atas karakter apa pun yang mendahuluinya, tetapi tidak akan menyesuaikan posisinya relatif terhadap lebar atau tinggi mesin terbang dasar; mungkin secara visual canggung dan mungkin tumpang tindih dengan beberapa mesin terbang. Penumpukan yang sebenarnya tidak mungkin, tetapi dapat diperkirakan dalam kasus-kasus tertentu (misalnya, vokal kombinasi teratas Thailand dan tanda nada bisa saja berada pada ketinggian yang berbeda untuk memulai). Umumnya pendekatan ini hanya efektif dalam font monospace, tetapi dapat digunakan sebagai metode rendering mundur ketika metode yang lebih kompleks gagal.

Himpunan Bagian Standar

Beberapa subset Unicode distandarisasi: Microsoft Windows sejak Windows NT 4.0 mendukung WGL-4 dengan 657 karakter, yang dianggap mendukung semua bahasa Eropa kontemporer menggunakan skrip Latin, Yunani, atau Sirilik. Subset standar Unicode lainnya termasuk Subset Eropa Multilingual :

MES-1 (hanya skrip Latin, 335 karakter), MES-2 (karakter Latin, Yunani, dan Sirilik 1062) dan MES-3A & MES-3B (dua himpunan bagian yang lebih besar, tidak ditampilkan di sini). Perhatikan bahwa MES-2 menyertakan setiap karakter dalam MES-1 dan WGL-4.

Row	Cells	Range(s)
00	20–7E	Basic Latin / Latin Standar (00–7F)
00	A0–FF	Latin-1 Supplement (80–FF)
01	00–13, 14–15, 16–2B, 2C–2D, 2E–4D, 4E–4F, 50–7E, 7F	Latin Extended-A (00–7F)
01	8F, 92, B7, DE-EF, FA–FF	Latin Extended-B (80–FF ...)
02	18–1B, 1E–1F	Latin Extended-B (... 00–4F)
	59, 7C, 92	IPA Extensions (50–AF)
	BB–BD, *C6, C7,* C9, D6, D8–DB, DC, DD,** DF, EE	Spacing Modifier Letters (B0–FF)
03	74–75, 7A, 7E, 84–8A, 8C, 8E–A1, A3–CE, D7, DA–E1	Greek / Yunani (70–FF)
04	00–5F, 90–91, 92–C4, C7–C8, CB–CC, D0–EB, EE–F5, F8–F9	Cyrillic / Silirik (00–FF)
1E	02–03, 0A–0B, 1E–1F, 40–41, 56–57, 60–61, 6A–6B, 80–85, 9B, F2–F3	Latin Extended Additional (00–FF)
1F	00–15, 18–1D, 20–45, 48–4D, 50–57, 59, 5B, 5D, 5F–7D, 80–B4, B6–C4, C6–D3, D6–DB, DD–EF, F2–F4, F6–FE	Greek Extended (00–FF)
20	*13–14, 15,* 17, 18–19, 1A–1B, 1C–1D, 1E, 20–22, 26, 30, 32–33, 39–3A, 3C, 3E, 44,** 4A	General Punctuation (00–6F)
	7F, 82	Superscripts and Subscripts (70–9F)
	A3–A4, A7, AC, AF	Currency Symbols (A0–CF)
21	*05, 13, 16, 22, 26,* 2E**	Letterlike Symbols (00–4F)
	5B–5E	Number Forms (50–8F)
	90–93, 94–95, A8	Arrows (90–FF)
22	00, 02, 03, 06, 08–09, 0F, 11–12, 15, 19–1A, 1E–1F, 27–28, 29, 2A, 2B, 48, 59, 60–61, 64–65, 82–83, 95, 97	Mathematical Operators (00–FF)
23	02, 0A, 20–21, 29–2A	Miscellaneous Technical (00–FF)
25	00, 02, 0C, 10, 14, 18, 1C, 24, 2C, 34, 3C, 50–6C	Box Drawing (00–7F)
	80, 84, 88, 8C, 90–93	Block Elements (80–9F)
	A0–A1, AA–AC, B2, BA, BC, C4, CA–CB, CF, D8–D9, E6	Geometric Shapes (A0–FF)
26	*3A–3C, 40, 42, 60, 63, 65–66, 6A,* 6B**	Miscellaneous Symbols (00–FF)
F0	(01–02)	Private Use Area (00–FF ...)
FB	01–02	Alphabetic Presentation Forms (00–4F)
FF	FD	Specials

Perenderan perangkat lunak yang tidak dapat memproses karakter Unicode dengan tepat sering kali menampilkannya sebagai persegi panjang terbuka, atau "karakter pengganti" Unicode (U+FFFD, �), untuk menunjukkan posisi karakter yang tidak dikenali. Beberapa sistem telah berusaha untuk memberikan lebih banyak informasi tentang karakter tersebut. Font Last Resort Apple akan menampilkan mesin terbang pengganti yang menunjukkan kisaran Unicode karakter, dan font Unicode Fallback SIL International akan menampilkan kotak yang menunjukkan nilai skalar Heksadesimal karakter.

3. Daftar karakter Unicode

Pada Unicode versi 14.0, ada 144.697 karakter dengan titik kode, mencakup 159 skrip modern dan historis, serta beberapa set simbol. Karena secara teknis tidak mungkin untuk mencantumkan semua karakter ini dalam satu halaman Wikipedia, daftar ini terbatas pada subset karakter terpenting untuk pembaca berbahasa Inggris, dengan tautan ke halaman lain yang mencantumkan karakter tambahan. Artikel ini menyertakan 1062 karakter dalam himpunan bagian Multilingual European Character Set 2 (MES-2), dan beberapa karakter tambahan yang terkait.

1.) Kode Kontrol (Code Controls)

Rentang Kode dari U+0000 sampai U+009F yang terdiri dari Kontrol Kode C0 [Dari U+0000 sampai U+001F] dan C1 [Dari U+0080 sampai U+009F].

2.) Alfabet Latin

Standar Unicode (Versi 14.0) mengklasifikasikan 1.475 Karakter sebagai milik Skrip Latin. Diantaranya yaitu :

Basic Latin (Karakter ASCII, Huruf Latin Dasar) [Dari U+0020 sampai U+007E]
Latin Supplement 1 [Dari U+00A0 sampai U+00FF]
Latin Extended-A [Dari U+0100 sampai U+017F]
Latin Extended-B [Dari U+0180 sampai U+024F]
Ekstensi Latin Tambahan [Dari U+1E00 sampai U+1EFF]
Ekstensi Latin Lainnya / Additional Latin Extended (C, D, E, F, G) [Dari U+2C60 sampai U+1DFFF]

3.) Alfabet Fonetik (Phonetic Alphabet)

Standar Unicode (Versi 14.0) mengklasifikasikan 1.475 Karakter sebagai milik Skrip Latin. Diantaranya yaitu :

Ekstensi IPA (Alfabet Fonetik) [Dari U+0250 sampai U+02AF]
Spasi Huruf Pengubah [Dari U+02B0 sampai U+02FF]
Ekstensi Fonetik / Phonetic Extensions [Dari U+1D00 sampai U+1DBF]

4.) Menggabungkan Tanda

Menggabungkan Tanda adalah karakter yang dimaksudkan untuk memodifikasi karakter lain. Karakter gabungan yang paling umum dalam aksara Latin adalah tanda diakritik gabungan (termasuk aksen gabungan). [Dari U+0300 sampai U+FE2F]

5.) Alfabet Yunani dan Koptik

Yunani dan Koptik adalah blok Unicode untuk mewakili bahasa Yunani modern (monotonik). Ini awalnya digunakan untuk menulis Koptik, menggunakan huruf Yunani yang serupa, selain tambahan Koptik yang unik. Dimulai dengan versi 4.1 dari Standar Unicode, blok Koptik terpisah telah disertakan dalam Unicode, memungkinkan teks Yunani/Koptik campuran yang gayanya kontras, seperti konvensi dalam karya ilmiah. Menulis bahasa Yunani politonik membutuhkan penggunaan karakter gabungan atau karakter vokal + nada yang telah dikomposisi sebelumnya dalam blok karakter Perluasan Yunani.

Ada 144 poin kode; 135 karakter yang ditugaskan; 85 dalam subset MES-2 dalam karakter Yunani dan Koptik. [Dari U+0370 sampai U+03FF]

Adapun Karakter Ekstensi Yunani yang digunakan untuk ortografi politonik, yaitu 256 poin kode; 233 karakter yang ditetapkan, semuanya dalam subset MES-2 (#670 – 902). [Dari U+1F00 sampai U+1FFF]

6.) Alfabet Sirilik (Cyrillic Alphabet)

Karakter dalam rentang U+0400 sampai U+045F pada dasarnya adalah karakter dari ISO 8859-5 yang dipindahkan ke atas sebanyak 864 posisi. Karakter berikutnya dalam Blok Cyrillic, rentang U+0460 sampai U+0489, adalah huruf sejarah, beberapa masih digunakan untuk Slavonik Gereja. Karakter dalam rentang U+048A sampai U+04FF dan blok Suplemen Cyrillic lengkap (U+0500 - U+052F) adalah huruf tambahan untuk berbagai bahasa yang ditulis dengan skrip Cyrillic. Dua karakter di blok Ekstensi Fonetik melengkapi Alfabet Fonetik Uralik: U+1D2B ᴫ CYRILLIC LETTER SMALL CAPITAL EL dan U+1D78 ᵸ MODIFIER LETTER CYRILLIC EN.

Suplemen Cyrillic :

Cyrillic Supplement (Unicode block) [Dari U+0500 sampai U+052F]
Cyrillic Extended-A (Unicode block) [Dari U+2DE0 sampai U+2DFF]
Cyrillic Extended-B (Unicode block) [Dari U+A640 sampai U+A69F]
Cyrillic Extended-C (Unicode block) [Dari U+1C80 sampai U+1C8F]
Cyrillic Extended-D (Unicode block) [Dari U+1E030..U+1E08F]

7.) Alfabet Armenia

Armenia adalah blok Unicode yang berisi karakter untuk menulis bahasa Armenia, baik ortografi Armenia Barat tradisional maupun ortografi Armenia Timur yang direformasi. Lima Ligatur Armenia dikodekan dalam blok Bentuk Presentasi Abjad. [Dari U+0530 sampai U+058F]

8.) Abjad Semit (Timur Tengah)

Bahasa Semit adalah cabang dari keluarga bahasa Afroasiatik. Adapun Jenis-jenis Aksara Semit diantaranya :

Arab (Seluruh Bahasa yang menggunakan Tulisan Arab) [Dari U+0600 sampai U+1EEFF]
Ibrani [Dari U+0590 sampai U+05FF]
Suryani (Syriac) [Dari U+0700 sampai U+074F]
Mandaic [Dari U+0840 sampai U+085F]
Samaritan [Dari U+0800 sampai U+083F]

9.) Thaana (Maldives Script)

Thaana adalah blok Unicode yang berisi karakter untuk aksara Thaana yang digunakan untuk menulis bahasa Dhivehi dan Arab di Maladewa. [Dari U+0780 sampai U+07BF]

10.) Aksara-aksara Brahmik (Indik)

Aksara Brahmik, juga dikenal sebagai aksara Indic, adalah keluarga dari sistem penulisan abugida. Mereka digunakan di seluruh anak benua India, Asia Tenggara dan sebagian Asia Timur. Mereka diturunkan dari aksara Brahmi India kuno dan digunakan oleh berbagai bahasa di beberapa rumpun bahasa di Asia Selatan, Timur dan Tenggara: Indo-Arya, Dravida, Tibeto-Burman, Mongolik, Austroasiatik, Austronesia, dan Tai. Adapun Jenis-jenis Aksara Brahmik diantaranya :

Devanagari (U+0900–U+097F), Devanagari Extended (U+A8E0–U+A8FF), Devanagari Extended-A (U+11B00–U+11B5F), dan Vedic Extensions (U+1CD0–U+1CFF).
Bengali [Dari U+0980 sampai U+09FF]
Gurumukhi [Dari U+0A00 sampai U+0A7F]
Gujarati [Dari U+0A80 sampai U+0AFF]
Oriya [Dari U+0B00 sampai U+0B7F]
Tamil [Dari U+0B80 sampai U+0BFF]
Telugu [Dari U+0C00 sampai U+0C7F]
Kannada [Dari U+0C80 sampai U+0CFF]
Malayalam [Dari U+0D00 sampai U+0D7F]
Sinhala [Dari U+0D80 sampai U+0DFF]

Aksara Brahmik dan Indik lainnya di Unicode meliputi :

Ahom [Dari U+11700 sampai U+1174F]
Bali [Dari U+1B00 sampai U+1B7F]
Batak [Dari U+1BC0 sampai U+1BFF]
Bhaiksuki [Dari U+11C00 sampai U+11C6F]
Buhid [Dari U+1740 sampai U+175F]
Bugis [Dari U+1A00 sampai U+1A1F]
Chakma [Dari U+11100 sampai U+1114F]
Cham [Dari U+AA00 sampai U+AA5F]
Common Indic Number Forms [Dari U+A830 sampai U+A83F]
Dives Akuru [Dari U+11900 sampai U+1195F]
Dogra [Dari U+11800 sampai U+1184F]
Grantha [Dari U+11300 sampai U+1137F]
Hanunoo [Dari U+1720 sampai U+173F]
Jawa [Dari U+A980 sampai U+A9DF]
Kaithi [Dari U+11080 sampai U+110CF]
Kawi [Dari U+11F00 sampai U+11F5F]
Khmer [Dari U+1780 sampai U+17FF]
Khmer Symbols [Dari U+19E0 sampai U+19FF]
Khojki [Dari U+11200 sampai U+1124F]
Khudawadi [Dari U+112B0 sampai U+112FF]
Lao [Dari U+0E80 sampai U+0EFF]
Lepcha [Dari U+1C00 sampai U+1C4F]
Limbu [Dari U+1900 sampai U+194F]
Mahajani [Dari U+11150 sampai U+1117F]
Makasar [Dari U+11EE0 sampai U+11EFF]
Marchen [Dari U+11C70 sampai U+11CBF]
Meetei Mayek [Dari U+ABC0 sampai U+ABFF]
Meetei Mayek Extensions [Dari U+AAE0 sampai U+AAFF]
Modi [Dari U+11600 sampai U+1165F]
Multani [Dari U+11280 sampai U+112AF]
Myanmar [Dari U+1000 sampai U+109F]
Myanmar Extended-A [Dari U+AA60 sampai U+AA7F]
Myanmar Extended-B [Dari U+A9E0 sampai U+A9FF]
New Tai Lue [Dari U+1980 sampai U+19DF]
Newa [Dari U+11400 sampai U+1147F]
Phags-pa [Dari U+A840 sampai U+A87F]
Rejang [Dari U+A930 sampai U+A95F]
Saurashtra [Dari U+A880 sampai U+A8DF]
Sharada [Dari U+11180 sampai U+111DF]
Siddham [Dari U+11580 sampai U+115FF]
Sunda [Dari U+1B80 sampai U+1BBF]
Sundanese Supplement [Dari U+1CC0 sampai U+1CCF]
Syloti Nagri [Dari U+A800 sampai U+A82F]
Tagalog [Dari U+1700 sampai U+171F]
Tagbanwa [Dari U+1760 sampai U+177F]
Tai Le [Dari U+1950 sampai U+197F]
Tai Tham [Dari U+1A20 sampai U+1AAF]
Tai Viet [Dari U+AA80 sampai U+AADF]
Takri [Dari U+11680 sampai U+116CF]
Thai [Dari U+0E00 sampai U+0E7F]
Tibetan [Dari U+0F00 sampai U+0FFF]
Tirhuta [Dari U+11480 sampai U+114DF]

11.) Sistem penulisan Asia Selatan, Tenggara, dan Tengah lainnya

Sistem penulisan Asia Selatan dan Tengah lainnya di Unicode meliputi :

Gunjala Gondi [Dari U+11D60 sampai U+11DAF]
Masaram Gondi [Dari U+11D00 sampai U+11D5F]
Mro [Dari U+16A40 sampai U+16A6F]
Nag Mundari [Dari U+1E4D0 sampai U+1E4FF]
Ol Chiki [Dari U+1C50 sampai U+1C7F]
Sora Sompeng [Dari U+110D0 sampai U+110FF]
Tangsa [Dari U+16A70 sampai U+16ACF]
Toto [Dari U+1E290 sampai U+1E2BF]
Warang Citi [Dari U+118A0 sampai U+118FF]

Sistem penulisan Asia Tenggara dalam Unicode meliputi :

Hanifi Rohingya [Dari U+10D00 sampai U+10D3F]
Kayah Li [Dari U+A900 sampai U+A92F]
Pahawh Hmong [Dari U+16B00 sampai U+16B8F]
Pau Cin Hau [Dari U+11AC0 sampai U+11AFF]

12.) Alfabet/Aksara Georgia

Georgian adalah blok Unicode yang berisi karakter Georgian Mkhedruli dan Asomtavruli yang digunakan untuk menulis bahasa Georgia Modern, Svan, dan Mingrelian. Huruf kecil lainnya, Nuskhuri, dikodekan dalam blok Tambahan Georgia yang terpisah, yang digunakan dengan Asomtavruli untuk menulis aksara Georgia Khutsuri Gerejawi. Huruf Kapital Mtavruli disertakan dalam blok Georgian Extended yang terpisah, tetapi huruf kapital tidak digunakan untuk selubung judul. [Dari U+10A0 sampai U+10FF]

13.) Aksara-aksara Afrika

Ethiopic telah diberi titik kode Unicode 3.0 antara U+1200 dan U+137F (desimal 4608–4991), berisi huruf konsonan untuk Geʽez, Amharik, dan Tigrinya, tanda baca, dan angka. Selain itu, di Unicode 4.1, ada rentang tambahan dari U+1380 hingga U+139F (desimal 4992–5023) yang berisi huruf untuk Taruhan Sebat dan tanda tonal, dan rentang yang diperluas antara U+2D80 dan U+2DDF (desimal 11648– 11743) berisi surat-surat yang diperlukan untuk menulis Sebat Bet, Meʼen dan Bilen. Di Unicode 6.0, ada rentang extended-A dari U+AB00 hingga U+AB2F (desimal 43776–43823) yang berisi huruf untuk Gamo-Gofa-Dawro, Basketo, dan Gumuz. Terakhir di Unicode 14.0, ada rentang extended-B dari U+1E7E0 hingga U+1E7FF (desimal 124896–124927) yang berisi huruf tambahan untuk bahasa Gurage.

Aksara Afrika lainnya di Unicode meliputi :

Adlam [Dari U+1E900 sampai U+1E95F]
Bamum [Dari U+A6A0 sampai U+A6FF]
Bamum Supplement [Dari U+16800 sampai U+16A3F]
Bassa Vah [Dari U+16AD0 sampai U+16AFF]
Medefaidrin [Dari U+16E40 sampai U+16E9F]
Mende Kikakui [Dari U+1E800 sampai U+1E8DF]
NKo [Dari U+07C0 sampai U+07FF]
Osmanya [Dari U+10480 sampai U+104AF]
Ottoman Siyaq Numbers [Dari U+1ED00 sampai U+1ED4F]
Tifinagh [Dari U+2D30 sampai U+2D7F]
Vai [Dari U+A500 sampai U+A63F]

14.) Aksara-aksara Amerika

Silabis Aborigin Kanada Terpadu adalah blok Unicode yang berisi karakter suku kata untuk menulis bahasa Inuktitut, Carrier, Cree (beserta beberapa karakter khusus dialeknya), Ojibwe, Blackfoot, dan bahasa Athabascan Kanada. Tambahan untuk beberapa dialek Cree, Ojibwe, dan Dene dapat ditemukan di blok Perpanjangan Silabus Aborigin Kanada Bersatu. [Dari U+1400 sampai U+167F]

Aksara Amerika lainnya di Unicode meliputi :

Cherokee [Dari U+13A0 sampai U+13FF]
Cherokee Supplement [Dari U+AB70 sampai U+ABBF]
Deseret [Dari U+10400 sampai U+1044F]
Kaktovik Numerals [Dari U+1D2C0 sampai U+1D2DF]
Osage [Dari U+104B0 sampai U+104FF]

15.) Aksara Mongolia

Aksara Mongolia adalah blok Unicode yang berisi karakter untuk dialek bahasa Mongolia, Manchu, dan Sibe. Biasanya ditulis dalam garis vertikal Arah teks Top-Down, tepat di seberang halaman, meskipun bagan kode Unicode mengutip karakter yang diputar ke orientasi horizontal karena ini adalah orientasi mesin terbang dalam font yang mendukung tata letak dalam orientasi vertikal.

16.) Simbol Unicode

Dalam komputasi, Simbol Unicode adalah karakter Unicode yang bukan merupakan bagian dari skrip yang digunakan untuk menulis bahasa alami, namun tersedia untuk digunakan sebagai bagian dari teks. [Dari U+2013 sampai U+204A]

17.) Tanda Baca Umum (General Punctuation)

Tanda Baca Umum adalah blok Unicode yang berisi tanda baca, spasi, dan pemformatan karakter untuk digunakan dengan semua skrip dan sistem penulisan. Termasuk adalah ruang dengan lebar yang ditentukan, format penggabungan, format arah, kutipan cerdas, tanda baca kuno dan baru seperti interrobang, dan operator matematika yang tidak terlihat. [Dari U+2000 sampai U+206F]

18.) Superskrip dan Subskrip

Superskrip dan Subskrip adalah blok Unicode yang berisi angka superskrip dan subskrip, operator matematika, dan huruf yang digunakan dalam matematika dan fonetik. Penggunaan subskrip dan superskrip di Unicode memungkinkan persamaan polinomial, kimia, dan persamaan tertentu lainnya direpresentasikan dalam teks biasa tanpa menggunakan bentuk markup apa pun seperti HTML atau TeX. Huruf superskrip lainnya dapat ditemukan di blok Spacing Modifier Letters, Phonetic Extensions, dan Fonetic Extensions Supplement, sedangkan superscript 1, 2, dan 3, yang diwarisi dari ISO 8859-1, dimasukkan dalam blok Latin-1 Supplement. [Dari U+2070 sampai U+209F]

19.) Simbol Mata Uang (Currency Symbols)

Simbol Mata Uang adalah blok Unicode yang berisi karakter untuk mewakili tanda moneter unik. Banyak tanda mata uang dapat ditemukan di blok Unicode lainnya, terutama jika simbol mata uang itu unik untuk negara yang menggunakan skrip yang umumnya tidak digunakan di luar negara tersebut.

Tampilan simbol mata uang Unicode di antara berbagai tipografi tidak konsisten, lebih dari karakter lain dalam repertoar. Tanda franc Prancis (U+20A3) biasanya ditampilkan sebagai F yang dicoret, tetapi berbagai versi Garamond menampilkannya sebagai ligatur Fr. Tanda peseta (U+20A7), diwarisi dari kode halaman 437, biasanya ditampilkan sebagai ligatur Pts, tetapi Roboto menampilkannya sebagai ligatur Pt dan Arial Unicode MS menampilkannya sebagai P yang dicoret sebagian. Tanda rupee (U+20A8) biasanya ditampilkan sebagai digraf Rs, tetapi Microsoft Sans Serif menggunakan digraf "Rp" dengan kuantitas netral sebagai gantinya. [Dari U+20A0 sampai U+20CF]

20.) Simbol seperti Huruf (Letterlike Symbols)

Simbol Seperti Huruf adalah blok Unicode yang berisi 80 karakter yang dibangun terutama dari mesin terbang dari satu atau lebih huruf. Selain blok ini, Unicode menyertakan alfabet matematika gaya penuh, meskipun Unicode tidak secara eksplisit mengkategorikan karakter ini sebagai "seperti huruf" atau "letterlike". [Dari U+2100 sampai U+214F]

21.) Bentuk Angka

Number Forms adalah blok Unicode yang berisi karakter kompatibilitas Unicode yang memiliki arti khusus sebagai angka, tetapi dibangun dari karakter lain. Mereka terutama terdiri dari pecahan vulgar dan angka Romawi. Selain karakter di blok Number Forms, tiga fraksi diwarisi dari ISO-8859-1, yang digabungkan secara keseluruhan sebagai blok Tambahan Latin-1. [Dari U+2150 sampai U+218F]

22.) Tanda Panah

Panah adalah blok Unicode yang berisi simbol garis, kurva, dan setengah lingkaran yang diakhiri dengan duri atau panah. [Dari U+2190 sampai U+21FF]

23.) Simbol Matematika

Standar Unicode mengkodekan hampir semua karakter standar yang digunakan dalam matematika. Laporan Teknis Unicode #25 memberikan informasi komprehensif tentang repertoar karakter, propertinya, dan pedoman penerapannya. Operator dan simbol matematika ada dalam beberapa blok Unicode. Beberapa dari blok ini didedikasikan untuk, atau terutama berisi, karakter matematika, sementara yang lain merupakan campuran karakter matematika dan non-matematis. Artikel ini membahas semua karakter Unicode dengan properti turunan "Matematika".

Operator Matematika adalah blok Unicode yang berisi karakter untuk notasi matematika, logika, dan himpunan. [Dari U+2200 sampai U+1D7FF]

Terutama absen adalah tanda tambah (+), lebih besar dari tanda (>) dan kurang dari tanda (<), karena sudah muncul di blok Basic Latin Unicode, dan tanda plus-atau-minus (±), tanda perkalian (×) dan obelus (÷), karena mereka sudah muncul di blok Suplemen Latin-1, meskipun tanda minus yang berbeda (−) disertakan, berbeda dari tanda hubung-minus Latin Dasar (-).

Simbol Matematika lainnya di Unicode meliputi :

Operator Matematika Tambahan (Blok Unicode) [Dari U+2A00 sampai U+2AFF]
Miscellaneous Mathematical Symbols-A (Blok Unicode) [Dari U+27C0 sampai U+27EF]
Miscellaneous Mathematical Symbols-B (Blok Unicode) [Dari U+2980 sampai U+29FF]
Simbol Alfanumerik Matematika : Simbol Alfanumerik Matematika (Blok Unicode) [Dari U+1D400 sampai U+1D7FF]

24.) Teknis Lain-Lain (Miscellaneous Technical)

Miscellaneous Technical adalah blok Unicode mulai dari U+2300 hingga U+23FF, yang berisi berbagai simbol umum yang terkait dan digunakan dalam berbagai profesi teknis, bahasa pemrograman, dan akademik. Misalnya :

Simbol ⌂ (kode heksadesimal HTML adalah ⌂) melambangkan rumah atau rumah.
Simbol ⌘ (⌘) adalah tanda "tempat menarik". Ini dapat digunakan untuk mewakili tombol Command pada keyboard Mac.
Simbol ⌚ (⌚) adalah jam tangan (atau jam).
Simbol ⏏ (⏏) adalah simbol tombol "Keluarkan" yang terdapat pada peralatan elektronik.
Simbol ⏚ (⏚) adalah simbol "Earth Ground" yang terdapat pada manual listrik atau elektronik, tag dan peralatan.

Ini juga mencakup sebagian besar simbol yang tidak biasa digunakan oleh bahasa pemrograman APL.

25.) Kontrol Gambar

Gambar Kontrol adalah blok Unicode yang berisi karakter untuk secara grafis mewakili kode kontrol C0, dan karakter kontrol lainnya. Nama bloknya di Unicode 1.0 adalah Gambar untuk Kode Kontrol. [Dari U+2400 sampai U+243F]

26.) Pengenalan Karakter Optik (Optical Character Recognition)

Pengenalan Karakter Optik adalah blok Unicode yang berisi karakter sinyal untuk standar OCR dan MICR. [Dari U+2440 sampai U+245F]

27.) Alfanumerik Terlampir (Enclosed Alphanumerics)

Alfanumerik Terlampir adalah blok Unicode simbol tipografi alfanumerik di dalam lingkaran, tanda kurung, atau selungkup lain yang tidak tertutup, atau diakhiri dengan titik. [Dari U+2460 sampai U+24FF]

Saat ini dialokasikan sepenuhnya. Dalam Bidang Multibahasa Dasar, beberapa angka terlampir tambahan ada di Dingbats dan blok Surat dan Bulan CJK Terlampir. Ada juga blok dengan lebih banyak karakter ini di Bidang Multibahasa Tambahan bernama Suplemen Alfanumerik Terlampir (U+1F100–U+1F1FF), pada Unicode 6.0.

28.) Gambar Kotak (Box Drawing)

Gambar Kotak adalah blok Unicode yang berisi karakter untuk kompatibilitas dengan standar grafis lama yang berisi karakter untuk membuat bagan dan tabel yang dibatasi, yaitu karakter gambar kotak. Nama bloknya di Unicode 1.0 adalah Formulir dan Komponen Bagan. [Dari U+2500 sampai U+257F]

29.) Elemen Blok

Elemen Blok adalah blok Unicode yang berisi simbol blok persegi dengan berbagai isian dan bayangan. Digunakan bersama dengan elemen blok adalah karakter gambar kotak, karakter bayangan, dan karakter grafis terminal. Ini dapat digunakan untuk mengisi area layar dan menggambarkan drop shadow. Nama bloknya di Unicode 1.0 adalah Blocks. [Dari U+2580 sampai U+259F]

30.) Bentuk Geometris

Geometric Shapes adalah blok Unicode yang terdiri dari 96 simbol pada rentang titik kode U+25A0–25FF.

31.) Simbol Lain-lain (Miscellaneous Symbols)

Miscellaneous Symbols adalah blok Unicode (U+2600 sampai U+26FF) berisi glyph yang mewakili konsep dari berbagai kategori: astrologi, astronomi, catur, dadu, notasi musik, simbol politik, daur ulang, simbol agama, trigram, tanda peringatan, dan cuaca, antara lain.

32.) Simbol untuk Komputasi Lawas (Symbols for Legacy Computing)

Symbols for Legacy Computing adalah blok Unicode yang berisi karakter grafik yang digunakan untuk berbagai komputer rumah dari tahun 1970-an dan 1980-an dan dalam standar penyiaran Teleteks. Ini termasuk karakter dari Amstrad CPC, MSX, Mattel Aquarius, RISC OS, MouseText, Atari ST, TRS-80 Color Computer, Oric, Texas Instruments TI-99/4A, TRS-80, Minitel, Teletext, ATASCII, PETSCII, ZX80 , dan kumpulan karakter ZX81, serta karakter semigrafik. [Dari U+1FB00 sampai U+1FBFF]

33.) Dingbat

Dalam tipografi, Dingbat (kadang-kadang lebih dikenal sebagai ornamen pencetak atau karakter pencetak) adalah ornamen, khususnya, mesin terbang yang digunakan dalam penyusunan huruf, sering digunakan untuk membuat bingkai kotak, (mirip dengan karakter gambar kotak) atau sebagai dinkus (pembagi bagian). Beberapa simbol dingbat telah digunakan sebagai tanda tangan, digunakan dalam penjilidan buku untuk memesan bagian.

Dalam industri komputer, font Dingbat adalah font komputer yang memiliki simbol dan bentuk yang menggunakan kembali titik kode yang ditunjuk untuk karakter alfabet atau numerik. Praktik ini diharuskan oleh terbatasnya jumlah poin kode yang tersedia di sistem operasi abad ke-20. Sebagian besar font modern didasarkan pada Unicode, yang memiliki poin kode unik untuk mesin terbang dingbat. [Dari U+2700 sampai U+27BF]

34.) Sistem Penulisan Asia Timur

Simbol dan Tanda Baca CJK adalah blok Unicode yang berisi simbol dan tanda baca yang digunakan untuk menulis bahasa Tionghoa, Jepang, dan Korea. Ini juga berisi satu karakter Tionghoa.

Sistem Penulisan Asia Timur meliputi :

CJK Symbols and Punctuation [Dari U+3000 sampai U+303F]
Hiragana [Dari U+3000 sampai U+303F]
Katakana [Dari U+30A0 sampai U+30FF]
Kana Extended [Dari U+31F0 sampai U+1B16F]
Bopomofo [Dari U+31A0 sampai U+31BF]
Hangul Jamo and Compatibility Jamo [Dari U+1100 sampai U+D7FF]
Kanbun [Dari U+3190 sampai U+319F]
Enclosed CJK Letters and Months [Dari U+3200 sampai U+32FF]
CJK Compatibility [Dari U+3300 sampai U+33FF]
CJK Compatibility Forms [Dari U+FE30 sampai U+FE4F]
CJK Unified Ideographs [Dari U+4E00 sampai U+9FFF]
CJK Radicals [Dari U+2E80 sampai U+31EF]

Sistem penulisan Asia Timur lainnya meliputi :

Counting Rod Numerals [Dari U+1D360 sampai U+1D37F]
Halfwidth and Fullwidth Forms [Dari U+FF00 sampai U+FFEF]
Ideographic Description Characters [Dari U+2FF0 sampai U+2FFF]
Khitan Small Script [Dari U+18B00 sampai U+18CFF]
Lisu [Dari U+A4D0 sampai U+A4FF]
Lisu Supplement [Dari U+11FB0 sampai U+11FBF]
Miao [Dari U+16F00 sampai U+16F9F]
Modifier Tone Letters [Dari U+A700 sampai U+A71F]
Nushu [Dari U+1B170 sampai U+1B2FF]
Nyiakeng Puachue Hmong [Dari U+1E100 sampai U+1E14F]
Small Form Variants [Dari U+FE50 sampai U+FE6F]
Tai Xuan Jing Symbols [Dari U+1D300 sampai U+1D35F]
Tangut [Dari U+17000 sampai U+187FF]
Tangut Components [Dari U+18800 sampai U+18AFF]
Tangut Supplement [Dari U+18D00 sampai U+18D7F]
Vertical Forms [Dari U+FE10 sampai U+FE1F]
Wancho [Dari U+1E2C0 sampai U+1E2FF]
Yi Syllables [Dari U+A000 sampai U+A48F]
Yi Radicals [Dari U+A490 sampai U+A4CF]
Yijing Hexagram Symbols [Dari U+4DC0 sampai U+4DFF]

35.) Bentuk Presentasi Alfabet

Formulir Presentasi Alfabet adalah blok Unicode yang berisi ligatur standar untuk skrip Latin, Armenia, dan Ibrani. [Dari U+FB00 sampai U+FB4F]

36.) Aksara Kuno dan Bersejarah

Aksara Kuno dan Bersejarah, meliputi :

Aegean Numbers [Dari U+10100 sampai U+1013F]
Anatolian Hieroglyphs [Dari U+14400 sampai U+1467F]
Ancient Greek Numbers [Dari U+10140 sampai U+1018F]
Ancient Symbols [Dari U+10190 sampai U+101CF]
Avestan [Dari U+10B00 sampai U+10B3F]
Brahmi [Dari U+11000 sampai U+1107F]
Carian [Dari U+102A0 sampai U+102DF]
Caucasian Albanian [Dari U+10530 sampai U+1056F]
Chorasmian [Dari U+10FB0 sampai U+10FDF]
Cuneiform [Dari U+12000 sampai U+123FF]
Cuneiform Numbers and Punctuation [Dari U+12400 sampai U+1247F]
Cypriot Syllabary [Dari U+10800 sampai U+1083F]
Cypro-Minoan [Dari U+12F90 sampai U+12FFF]
Early Dynastic Cuneiform [Dari U+12480 sampai U+1254F]
Egyptian Hieroglyph Format Controls [Dari U+13430 sampai U+1345F]
Egyptian Hieroglyphs [Dari U+13000 sampai U+1342F]
Elbasan [Dari U+10500 sampai U+1052F]
Elymaic [Dari U+10FE0 sampai U+10FFF]
Glagolitic [Dari U+2C00 sampai U+2C5F]
Glagolitic Supplement [Dari U+1E000 sampai U+1E02F]
Gothic [Dari U+10330 sampai U+1034F]
Hatran [Dari U+108E0 sampai U+108FF]
Imperial Aramaic [Dari U+10840 sampai U+1085F]
Indic Siyaq Numbers [Dari U+1EC70 sampai U+1ECBF]
Inscriptional Pahlavi [Dari U+10B60 sampai U+10B7F]
Inscriptional Parthian [Dari U+10B40 sampai U+10B5F]
Kharoshthi [Dari U+10A00 sampai U+10A5F]
Linear A [Dari U+10600 sampai U+1077F]
Linear B Ideograms [Dari U+10080 sampai U+100FF]
Linear B Syllabary [Dari U+10000 sampai U+1007F]
Lycian [Dari U+10280 sampai U+1029F]
Lydian [Dari U+10920 sampai U+1093F]
Manichaean [Dari U+10AC0 sampai U+10AFF]
Mayan Numerals [Dari U+1D2E0 sampai U+1D2FF]
Meroitic Cursive [Dari U+109A0 sampai U+109FF]
Meroitic Hieroglyphs [Dari U+10980 sampai U+1099F]
Nabataean [Dari U+10880 sampai U+108AF]
Nandinagari [Dari U+119A0 sampai U+119FF]
Ogham [Dari U+1680 sampai U+169F]
Old Hungarian [Dari U+10C80 sampai U+10CFF]
Old Italic [Dari U+10300 sampai U+1032F]
Old North Arabian [Dari U+10A80 sampai U+10A9F]
Old Permic [Dari U+10A80 sampai U+10A9F]
Old Persian [Dari U+103A0 sampai U+103DF]
Old Sogdian [Dari U+10F00 sampai U+10F2F]
Old South Arabian [Dari U+10A60 sampai U+10A7F]
Old Turkic [Dari U+10C00 sampai U+10C4F]
Old Uyghur [Dari U+10F70 sampai U+10FAF]
Palmyrene [Dari U+10860 sampai U+1087F]
Phaistos Disc [Dari U+101D0 sampai U+101FF]
Phoenician [Dari U+10900 sampai U+1091F]
Psalter Pahlavi [Dari U+10B80 sampai U+10BAF]
Runic [Dari U+16A0 sampai U+16FF]
Sogdian [Dari U+10F30 sampai U+10F6F]
Soyombo [Dari U+11A50 sampai U+11AAF]
Ugaritic [Dari U+10380 sampai U+1039F]
Vithkuqi [Dari U+10570 sampai U+105BF]
Yezidi [Dari U+10E80 sampai U+10EBF]
Zanabazar Square [Dari U+11A00 sampai U+11A4F]

37.) Alfabet Shavian

Shavian adalah blok Unicode yang berisi karakter alfabet Shavian (juga dikenal sebagai alfabet Shaw), sebuah ortografi yang diciptakan untuk menulis bahasa Inggris secara fonetis dan didanai oleh kehendak George Bernard Shaw. Blok Shavian berasal dari pengkodean penggunaan pribadi sebelumnya di ConScript Unicode Registry, seperti pengkodean Deseret dan Phaistos Disc. [Dari U+10450 sampai U+1047F]

38.) Sistem Notasi

Ada beberapa Jenis Sistem Notasi, diantaranya adalah :

Braille :

Pola Braille (Unicode block) [Dari U+2800 sampai U+28FF]

Musik :

Simbol Musik Barat (Unicode block) [Dari U+1D100 sampai U+1D1FF]
Simbol Musik Bizantium (Unicode block) [Dari U+1D000 sampai U+1D0FF]
Notasi Musik Yunani Kuno (Unicode block) [Dari 1D200 sampai U+1D24F]
Notasi Musik Znamenny (Unicode block) [Dari U+1CF00 sampai U+1CFCF]

Shorthand :

Duployan (Unicode block) [Dari U+1BC00 sampai U+1BC9F]
Kontrol Format Singkatan (Unicode block) [Dari U+1BCA0 sampai U+1BCAF]

Sutton SignWriting :

Sutton SignWriting (Unicode block) [Dari U+1D800 sampai U+1DAAF]

39.) Emoji

Unicode 15.0 mewakili Emoji menggunakan 1.424 karakter yang tersebar di 24 blok, 26 di antaranya adalah simbol indikator Regional yang digabungkan berpasangan untuk membentuk emoji bendera, dan 12 (#, * dan 0–9) adalah karakter dasar untuk urutan emoji keycap :

637 dari 768 titik kode di blok Miscellaneous Symbols and Pictographs dianggap sebagai emoji. 242 dari 256 titik kode di blok Simbol dan Piktograf Tambahan dianggap sebagai emoji. Semua dari 107 poin kode di blok Symbols and Pictographs Extended-A dianggap sebagai emoji. Semua dari 80 poin kode di blok Emotikon dianggap sebagai emoji. 105 dari 118 titik kode di blok Transportasi dan Simbol Peta dianggap sebagai emoji. 83 dari 256 poin kode di blok Miscellaneous Symbols dianggap sebagai emoji. 33 dari 192 poin kode di blok Dingbats dianggap sebagai Emoji. [Dari U+00A9 sampai U+1FAF8]

40.) Simbol Alkimia (Alchemical Symbols)

Simbol Alkimia, awalnya dirancang sebagai bagian dari alkimia, digunakan untuk menunjukkan beberapa unsur dan beberapa senyawa hingga abad ke-18. Meskipun notasi sebagian dibakukan, gaya dan simbol bervariasi di antara alkemis. Lüdy-Tenger menerbitkan inventaris 3.695 simbol dan varian, dan itu tidak lengkap, menghilangkan misalnya banyak simbol yang digunakan oleh Isaac Newton. Oleh karena itu, halaman ini hanya mencantumkan simbol yang paling umum. [Dari U+1F700 sampai U+1F77F]

41.) Simbol dalam Permainan

Simbol dalam Permainan meliputi :

Mahjong Tiles [Dari U+1F000 sampai U+1F02F]
Domino Tiles [Dari U+1F030 sampai U+1F09F]
Permainan Kartu [Dari U+1F0A0 sampai U+1F0FF]
Simbol Catur [Dari U+1FA00 sampai U+1FA6F]

42.) Area Khusus dan Format Karakter

Area Penggunaan Pribadi (Private Use Areas), meliputi :

Area Penggunaan Pribadi (Private Use Area) [Dari U+E000..U+F8FF]
Supplementary Private Use Area-A [Dari U+F0000..U+FFFFF]
Supplementary Private Use Area-B [Dari U+100000..U+10FFFF]

Selanjutnya, ada Karakter Khusus (Special) adalah blok karakter Unicode pendek yang dialokasikan di bagian paling akhir Bidang Multibahasa Dasar, dari U+FFF0 sampai FFFF.

Pengganti (Surrogates), meliputi :

Low Surrogates [Dari U+DC00 sampai U+DFFF]
High Surrogates [Dari U+DB80 sampai U+DBFF]
High Private Use Surrogates [Dari U+DB80 sampai U+DBFF]

Tag adalah blok Unicode yang berisi Karakter Tag pemformatan. Blok ini dirancang untuk mencerminkan ASCII. Awalnya ditujukan untuk tag bahasa, tetapi sekarang telah digunakan kembali sebagai pengubah Emoji, khususnya untuk bendera wilayah. [Dari U+E0000..U+E007F]

Terakhir, Bentuk Varian (Variant Form) adalah mesin terbang yang berbeda untuk sebuah karakter, dikodekan dalam Unicode melalui mekanisme urutan variasi: urutan dalam Unicode yang terdiri dari karakter dasar diikuti oleh karakter pemilih variasi. Bentuk varian biasanya memiliki tampilan dan makna yang sangat mirip dengan bentuk dasarnya. Mekanisme ini ditujukan untuk bentuk varian yang pada umumnya jika bentuk varian tidak tersedia, menampilkan karakter dasar tidak mengubah makna teks, dan bahkan mungkin tidak terlihat oleh banyak pembaca. Bentuk Varian Terdiri dari :

Variation Selectors (Unicode block) [Dari U+FE00 sampai U+FE0F]
Variation Selectors Supplement (Unicode block) [Dari U+E0100 sampai U+E01EF]

Untuk lebih jelas apa itu Unicode dan ASCII, silakan lihat pada Video di bawah ini :

Nantikan pembahasan kami selanjutnya tentang Jenis-jenis Sistem Bilangan.

Terima Kasih 😄😘👌👍 :)

Wassalamu‘alaikum wr. wb.

Inilah Jenis-jenis Pengkodean Karakter dalam Komputer

JENIS-JENIS PENGKODEAN KARAKTER DALAM KOMPUTER

1. ASCII

2. Unicode

Post a Comment

Apa itu Decision Tree Algorithm? Inilah Pengertian, Jenis-jenis, hingga Penerapannya dalam Machine Learning

🦀 Mengenal Apa Itu OpenClaw, Asisten AI Open Source Secara Gratis

Categories

Main Tags

Contact Form

Popular Posts

🦀 Mengenal Apa Itu OpenClaw, Asisten AI Open Source Secara Gratis

Apa itu Coretax? Inilah Pengertian, Manfaat, dan Fitur Pentingnya

[TUTORIAL] Cara Menggunakan Publish or Perish Untuk Mencari Referensi Penelitian

Contact Form