Apa itu Optical Character Recognition (OCR)?

Assalamu‘alaikum wr. wb.

Hello guys! Kali ini kita akan membahas mengenai apa itu Optical Character Recognition (OCR) dalam AI dan Machine Learning, yaitu Teknik untuk mengenal Karakter dengan metode Optik.

Apa itu Optical Character Recognition (OCR)?

Sumber Artikel : Spiceworks.comAWS.Amazon.comPackagex.io (Blog)Affinda.com (Blog)Mekari.com (Blog), dan Sipas.id (Blog)


Digitalisasi memungkinkan akses terhadap data yang sebelumnya hanya tersimpan dalam sistem berbasis kertas, sehingga dapat digunakan untuk analisis dan pengambilan keputusan berbasis data. Namun, ada dua tantangan utama dalam penerapan digitalisasi di organisasi.

Pertama, data harus dikonversi menjadi teks dan angka agar bisa dianalisis. Sekadar memindai dokumen seperti formulir atau faktur tidak cukup karena hanya menghasilkan kumpulan gambar yang tidak dapat diolah oleh alat analitik bisnis.

Kedua, proses memasukkan data secara manual dari dokumen fisik atau hasil pemindaian memakan waktu, mahal, dan kurang efisien. Sebagai contoh, data dari faktur kertas mungkin baru bisa dianalisis setelah beberapa minggu, sehingga tidak mendukung pengambilan keputusan secara instan.

Untuk mengatasi tantangan ini, teknologi Machine Learning OCR menjadi solusi yang efektif. Optical Character Recognition (OCR) adalah teknologi yang secara otomatis mengekstrak teks dari gambar dokumen dan mengubahnya menjadi format yang dapat diproses oleh mesin. Dengan mengintegrasikan OCR modern ke dalam sistem analitik, perusahaan dapat memperoleh wawasan bisnis secara real-time.

A. Pengertian OCR

Pengenalan Karakter Optik atau Optical Character Recognition (OCR) adalah teknologi yang memungkinkan komputer mendeteksi dan mengonversi teks dari gambar, dokumen cetak, atau objek visual lainnya menjadi teks digital yang dapat diproses lebih lanjut.

Secara sederhana, OCR berfungsi untuk mengenali dan membaca teks dalam berbagai format tanpa memerlukan input manual, sehingga mempercepat pengolahan data dan meningkatkan efisiensi kerja.

Sebagai contoh, jika Anda memiliki dokumen penting yang dipindai dalam format gambar (JPG, PNG), teks dalam dokumen tersebut tidak dapat diedit atau dicari secara langsung di komputer. Namun, dengan teknologi OCR, teks dari gambar tersebut dapat diekstraksi dan dikonversi menjadi format digital seperti DOC, TXT, CSV, atau XLSX untuk memudahkan pengolahan lebih lanjut.

Dalam perangkat lunak, setiap gambar terdiri dari sekumpulan piksel dengan berbagai warna, skala abu-abu, dan atribut lainnya. Alat OCR berbasis pembelajaran mesin harus mampu mengidentifikasi kelompok piksel yang membentuk huruf dalam alfabet Latin. Tantangan ini semakin kompleks karena beberapa faktor, seperti :

  • Variasi ukuran dan bentuk font
  • Tulisan tangan dengan berbagai gaya tulisan
  • Gambar buram atau berkualitas rendah
  • Beberapa blok teks yang tersebar di berbagai bagian gambar

Namun, teknologi OCR berbasis pembelajaran mesin mengatasi tantangan ini dengan menggunakan model yang telah dilatih sebelumnya untuk memindai gambar dan mengenali pola serta fitur tertentu. Para ilmuwan data melatih model ini dengan sejumlah besar data berlabel, yaitu kumpulan gambar yang sudah memiliki jawaban yang diketahui.

Model ini menerapkan teknik statistik untuk menghubungkan kelompok piksel tertentu dengan teks yang sesuai. Dengan demikian, sistem dapat mengenali pola dan fitur dalam gambar baru serta "memprediksi" teks dengan tingkat akurasi yang tinggi.

Mengapa OCR Penting?

Sebagian besar proses bisnis melibatkan penerimaan informasi dalam bentuk dokumen cetak, seperti formulir kertas, tagihan, dokumen hukum yang dipindai, dan kontrak tertulis. Dokumen dalam jumlah besar ini memerlukan banyak waktu dan ruang untuk disimpan serta dikelola. Meskipun sistem manajemen dokumen digital dapat menjadi solusi, pemindaian dokumen menjadi gambar justru menghadirkan tantangan baru. Proses ini sering kali membutuhkan campur tangan manusia, yang dapat membuatnya membosankan dan lambat.

Selain itu, ketika dokumen dipindai menjadi gambar, teks yang ada di dalamnya menjadi tidak dapat diakses oleh perangkat lunak pengolah kata seperti halnya dokumen teks biasa. Teknologi OCR hadir sebagai solusi dengan mengonversi teks dalam gambar menjadi data teks yang dapat dibaca dan dianalisis oleh perangkat lunak bisnis lainnya. Dengan data ini, perusahaan dapat melakukan analisis, menyederhanakan alur kerja, mengotomatiskan proses, dan meningkatkan produktivitas secara keseluruhan.

B. Sejarah OCR

Teknologi Optical Character Recognition (OCR) pertama kali muncul pada awal abad ke-20 sebagai konsep yang memungkinkan konversi teks tulisan tangan atau cetak menjadi teks digital.

Pada tahun 1950, David Hammon Shepard menciptakan mesin OCR pertama yang dikenal sebagai "Reader." Mesin ini mampu membaca karakter dengan ukuran font yang cukup besar.

Kemudian, pada tahun 1960, perusahaan seperti IBM dan RCA mulai mengembangkan teknologi OCR yang lebih maju, yang memungkinkan pengenalan teks dengan ukuran lebih kecil dan lebih beragam.

Di antara tahun 1970 hingga 1980-an, OCR mulai banyak digunakan dalam sektor perbankan dan administrasi untuk membaca cek serta formulir secara otomatis.

Seiring waktu, OCR mengalami perkembangan pesat dalam hal kecepatan dan akurasi pengenalan karakter.

Memasuki abad ke-21, teknologi OCR semakin canggih dan terintegrasi dengan berbagai perangkat dan aplikasi, termasuk smartphone, kamera digital, serta layanan berbasis cloud.

Hingga kini, kemajuan dalam pemrosesan citra, kecerdasan buatan (AI), dan jaringan saraf tiruan telah meningkatkan kemampuan OCR, bahkan dalam kondisi yang lebih kompleks, seperti membaca tulisan tangan.

C. Cara Kerja OCR

Mesin OCR atau perangkat lunak OCR bekerja dengan menggunakan langkah-langkah berikut :

1. Akuisisi Citra Gambar (Image Acquisition)

Dokumen atau gambar akan diproses dengan cara dipindai dan dikonversi menjadi data biner. Teknologi OCR kemudian menganalisis hasil pemindaian tersebut dengan mengidentifikasi area gelap sebagai teks dan area terang sebagai latar belakang.

Namun, jika dokumen yang diunggah atau dipindai memiliki kualitas rendah, atau jika tulisan tangan sulit terbaca, hasil ekstraksi data bisa menjadi kurang akurat dalam beberapa kasus.

2. Pra-pemrosesan (Pre-processing)

Sebelum mengekstrak teks, OCR melakukan serangkaian langkah pra-pemrosesan untuk memastikan gambar siap dibaca dengan baik.

Teknik perbaikan yang diterapkan meliputi perataan sudut dokumen (deskewing), penghapusan bintik atau noise digital (despeckling), serta pembersihan garis atau elemen tambahan dalam gambar.

Proses ini bertujuan untuk menyamakan kualitas teks dan font sehingga sistem OCR dapat mengenali karakter dengan lebih akurat dan konsisten.

3. Pengenalan Teks (Text Recognition)

Terdapat dua metode utama dalam OCR untuk mengenali teks, yaitu pencocokan pola (pattern matching) dan ekstraksi fitur (feature extraction).

Pencocokan pola bekerja dengan membandingkan karakter dalam gambar dengan template huruf yang telah tersimpan dalam database, sedangkan metode ekstraksi fitur menganalisis bentuk karakter dengan memecahnya menjadi elemen-elemen kecil seperti garis dan lengkungan.

4. Pasca-pemrosesan (Post-processing)

Setelah proses pengenalan selesai, sistem OCR mengubah teks yang telah diekstrak menjadi format digital seperti DOC, TXT, CSV, atau XLSX agar dapat digunakan lebih lanjut.

Beberapa sistem OCR juga memungkinkan pembuatan file PDF dengan anotasi yang menyertakan versi asli dan versi hasil konversi dari dokumen yang dipindai.

D. Keunggulan OCR

Berikut adalah beberapa manfaat teknologi Optical Character Recognition (OCR) :

1. Memudahkan Pencarian Teks

Teknologi OCR memungkinkan pengarsipan dokumen yang berisi informasi penting perusahaan menjadi lebih praktis dan terorganisir, sehingga mempermudah pencarian data saat dibutuhkan.

2. Meningkatkan Efisiensi Operasional

Menggunakan OCR dalam pengelolaan dokumen dapat menghemat waktu dan meningkatkan efisiensi operasional perusahaan. Proses seperti pemindaian formulir, pencarian dokumen, serta konversi catatan menjadi lebih cepat dan sistematis.

3. Tingkat Akurasi yang Tinggi

OCR modern memiliki kemampuan pengenalan teks yang sangat akurat, bahkan dalam kondisi kompleks seperti tulisan tangan, berbagai jenis font, serta bahasa yang berbeda.

4. Meningkatkan Aksesibilitas

Dengan OCR, teks dari dokumen fisik dapat diubah menjadi format digital yang lebih mudah diakses, termasuk bagi individu dengan kebutuhan khusus atau disabilitas, sehingga meningkatkan inklusivitas dalam penggunaan informasi.

E. Jenis-jenis OCR

Teknologi OCR (Optical Character Recognition) terdiri dari beberapa jenis yang disesuaikan dengan format dan karakter teks yang berbeda, di antaranya :

1. Simple OCR

Simple OCR merupakan jenis OCR yang paling umum digunakan. Teknologi ini dirancang untuk mengenali karakter yang diketik secara individu. Simple OCR bekerja dengan baik pada dokumen yang memiliki kualitas pemindaian tinggi serta menggunakan jenis huruf standar yang mudah dikenali.

2. Intelligent Character Recognition (ICR)

Berbeda dari Simple OCR, ICR dikembangkan khusus untuk mengenali tulisan tangan, baik dalam bentuk cetak maupun kursif. Teknologi ini memanfaatkan kecerdasan buatan (AI) untuk menganalisis pola dan bentuk tulisan tangan, sehingga lebih efektif dalam membaca dokumen dengan tulisan tangan yang jelas dan rapi.

3. Intelligent Word Recognition (IWR)

IWR digunakan untuk mengatasi tantangan dalam bahasa tertentu di mana kata-kata tidak selalu dipisahkan oleh spasi. Teknologi ini bekerja dengan menganalisis keseluruhan gambar kata untuk mengenali karakter di dalamnya. IWR umumnya diterapkan pada bahasa yang tidak menggunakan sistem alfabet konvensional.

4. Optical Mark Recognition (OMR)

OMR tidak berfokus pada pengenalan karakter, melainkan pada identifikasi tanda atau simbol khusus seperti logo, watermark, atau elemen grafis lainnya dalam dokumen. Salah satu aplikasi umum OMR adalah dalam pengolahan lembar jawaban ujian pilihan ganda, di mana sistem mengenali tanda yang dibuat dengan pensil atau alat khusus.

F. Jenis Algoritma OCR dalam Deep/Machine Learning

OCR berbasis deep learning merupakan tahap lanjutan dalam pengembangan teknologi OCR berbasis machine learning. Teknologi ini melampaui metode berbasis template dan aturan sederhana, dengan menghadirkan solusi kecerdasan buatan (AI) yang mampu menganalisis dokumen yang dipindai dengan cara yang menyerupai cara manusia membaca dan memahami teks.

Teknologi ini memanfaatkan jaringan saraf tiruan (neural networks), yaitu kumpulan ratusan ribu node perangkat lunak yang saling terhubung dan berkomunikasi saat memproses data.

Setiap node dalam jaringan saraf menyelesaikan sebagian kecil dari masalah sebelum meneruskan data ke node berikutnya. Dengan cara ini, seluruh jaringan bekerja secara bersamaan untuk meningkatkan akurasi dan kapabilitas OCR.

Jaringan saraf yang kompleks disebut "deep" karena memiliki beberapa lapisan tersembunyi (hidden layers) yang memproses data secara berulang seiring waktu. Para ilmuwan data melatih jaringan ini menggunakan berbagai kumpulan data agar dapat mengenali dan mengekstrak pola teks yang kompleks dari berbagai jenis gambar.

Secara lebih spesifik, OCR berbasis deep learning menggunakan dua jenis utama jaringan saraf tiruan untuk tugas yang berbeda, yaitu:

  • Convolutional Neural Networks (CNN) untuk tugas pengenalan gambar dan komputer vision.
  • Recurrent Neural Networks (RNN) untuk tugas pemrosesan bahasa alami (Natural Language Processing/NLP).

1. Convoluted Neural Networks (CNN)

CNN terdiri dari lapisan konvolusional yang mentransformasikan data masukan sebelum diteruskan ke lapisan berikutnya. Istilah "konvolusi" berasal dari matematika, yang mengacu pada proses penggabungan data. Dalam konteks ini, konvolusi dilakukan menggunakan matriks, yang bertindak sebagai filter dalam dunia matematika.

Meskipun perhitungan dalam proses konvolusi cukup kompleks, konsep dasarnya mirip dengan jendela geser yang menganalisis potongan kecil gambar untuk mengekstrak informasi penting.

Sebagai contoh, suatu filter mungkin dirancang untuk mengenali tepi, lengkungan, atau tekstur dalam gambar. Setiap filter belajar mengenali aspek berbeda dari gambar, dan dengan menggabungkan hasil dari berbagai filter, jaringan dapat memahami gambar secara lebih mendalam.

2. Recurrent Neural Networks (RNN)

RNN adalah jaringan saraf yang memiliki komponen memori, memungkinkan setiap node untuk mengingat informasi sebelumnya saat memproses masukan baru.

RNN menganalisis teks satu karakter pada satu waktu, dengan mempertimbangkan karakter di sekitarnya untuk membuat prediksi atau mengisi informasi yang hilang. Teknologi ini memungkinkan RNN memahami konteks teks, seperti hubungan antara karakter dan kata dalam sebuah kalimat.

Sebagai contoh, dalam OCR, RNN dapat :

  • Memprediksi karakter berikutnya dalam suatu kata berdasarkan karakter yang telah diproses sebelumnya.
  • Mengidentifikasi kata atau frasa tertentu berdasarkan konteks teks sebelumnya.

Kemampuan ini sangat berguna dalam mengenali teks tulisan tangan, yang sering kali memiliki variasi gaya tulisan, huruf yang saling terhubung, atau bahkan kesalahan penulisan.

Dengan melatih RNN menggunakan sejumlah besar data berlabel, jaringan ini dapat mengenali pola yang kompleks dan membuat prediksi yang lebih akurat dalam mengonversi teks dari gambar menjadi data digital.



























Itulah Penjelasan mengenai Optical Character Recognition (OCR). Semoga Bermanfaat!

Terima Kasih 😄😘👌👍 :)

Wassalamu‘alaikum wr. wb.

Post a Comment

Previous Post Next Post