Rekomendasi Tools API Text-to-Speech (TTS) Gratis dan Open Source

Assalamu‘alaikum wr. wb.

Halo guys! Sebenarnya, dari beberapa Platform Layanan Cloud seperti Google Cloud (Google TTS), Microsoft Azure (Speech Service), dan AWS (Amazon Polly) sudah ada API Text to Speech, namun mereka mengenai Biaya dan menggunakan Sistem Pay as you Go (Kena Biaya Charge). Kali ini kita akan membahas mengenai Rekomendasi Tools API Text-to-Speech (TTS) Gratis dan Open Source, untuk kalian yang ingin mengembangkan Aplikasi AI berbasis Machine/Deep Learning apapun.

Rekomendasi Tools API Text-to-Speech (TTS) Gratis dan Open Source

Sumber Artikel : Bentoml.com (Blog)Edenai.co, Datacamp.com (Blog), Modal.com (Blog), dan Picovoice.ai (Blog)


Bekerja dengan kecerdasan buatan (AI) atau pembelajaran mesin (ML) dan membutuhkan mesin Text-to-speech? Jika iya, maka Anda memerlukan solusi open-source. Mari kita bahas cara kerja mesin text-to-speech (TTS) dan beberapa pilihan open-source terbaik yang tersedia.

A. Pengertian Text-to-Speech (TTS) API

Teknologi Text-to-speech, yang juga dikenal sebagai generasi suara, tengah merevolusi cara interaksi antara manusia dan komputer. Teknologi ini memungkinkan konversi teks tertulis menjadi suara yang dapat didengar, sehingga perangkat dan aplikasi digital dapat berkomunikasi dengan pengguna secara alami dan mudah dipahami. Proses ini memanfaatkan algoritma canggih dan kecerdasan buatan untuk meniru nuansa dan kehalusan suara manusia, termasuk intonasi serta pelafalan.

Teknologi TTS memiliki beragam penerapan di berbagai industri, mulai dari alat bantu aksesibilitas bagi penyandang tunanetra hingga asisten suara yang memungkinkan kontrol perangkat pintar tanpa sentuhan.

Fitur Umum TTS API, yaitu :

  • Konversi Teks ke Audio: Mengubah input teks menjadi file suara (biasanya dalam format MP3, WAV, dll).
  • Pilihan Suara: Menyediakan berbagai jenis suara (laki-laki, perempuan), dialek, dan bahasa.
  • Kontrol Intonasi & Kecepatan: Dapat mengatur nada, kecepatan bicara, dan volume suara.
  • Pengucapan yang Disesuaikan: Beberapa API memungkinkan kustomisasi pengucapan kata atau frasa tertentu.
  • Streaming atau Unduhan: Output audio bisa langsung dimainkan atau diunduh.

B. Jenis-jenis Tools Text-to-Speech (TTS) API

Bagi pengguna yang mencari mesin yang hemat biaya, memilih model open-source merupakan pilihan yang direkomendasikan. Berikut adalah daftar model open source terbaik untuk Generasi Suara (Voice Generation) :

1. MaryTTS (Multimodal Interaction Architecture)

Sebuah arsitektur yang fleksibel dan modular untuk membangun sistem Text-to-Speech (TTS), yang mencakup alat pembuatan suara guna menghasilkan suara baru dari data audio yang direkam.

Struktur ini terdiri dari beberapa komponen dasar berikut :

  • Parser bahasa markup: Komponen yang bertugas membaca dan memahami bahasa markup yang digunakan dalam bidang teks.
  • Prosesor: Komponen yang menerima teks yang telah diurai, lalu melakukan tindakan yang diperlukan, seperti mengubahnya menjadi suara atau menghasilkan output visual.
  • Sintesisator: Komponen yang menghasilkan output akhir, baik dalam bentuk audio maupun visual. Komponen ini menambahkan ciri khas suara seperti intonasi dan penekanan agar hasil suara terdengar lebih alami.

Link GitHub : Github.com/marytts

2. Mimic

Dikembangkan oleh Mycroft AI, Mimic mampu menghasilkan suara yang terdengar sangat alami. Mimic mencakup dua versi utama: Mimic 1 yang berbasis pada Festival Speech Synthesis System, dan Mimic 2 yang menggunakan jaringan saraf dalam (deep neural networks) untuk sintesis suara.

Kelebihan: Menyediakan metode sintesis suara tradisional maupun modern, serta mendukung berbagai bahasa.

Kekurangan: Dokumentasi yang tersedia masih terbatas.

Link GitHub : Github.com/MycroftAI

3. Mozilla TTS

Mozilla TTS adalah model open-source yang menyediakan seperangkat alat dan model untuk mengubah teks menjadi ucapan yang menyerupai suara manusia. Model utamanya adalah Tacotron 2, yang menghasilkan mel-spectrogram dan dapat dipasangkan dengan vocoder seperti WaveGlow untuk menghasilkan audio.

Kelebihan: Menggunakan teknologi canggih untuk menghasilkan suara yang lebih alami dan sepenuhnya gratis digunakan.

Kekurangan: Dukungan bahasa masih terbatas.

Link GitHub : Github.com/mozilla

4. Festival Speech Synthesis System

Festival, yang dikembangkan oleh University of Edinburgh, merupakan kerangka kerja umum untuk membangun sistem sintesis suara, serta menyediakan contoh berbagai modul yang bisa digunakan. Festival banyak dimanfaatkan dalam penelitian dan kegiatan pendidikan.

Struktur ujaran umum dalam Festival digambarkan dalam bentuk pohon, di mana setiap simpul saling terhubung untuk menunjukkan relasi antar unsur ujaran.

Link GitHub : Github.com/festvox

5. eSpeak

eSpeak adalah perangkat lunak sintetis suara open-source yang ringkas untuk bahasa Inggris dan beberapa bahasa lainnya. eSpeak menghasilkan suara yang jelas dan dapat dimengerti dalam berbagai bahasa, dikenal karena kesederhanaannya dan ukuran file yang kecil.

eSpeak dapat dijalankan di berbagai platform, termasuk Windows, Linux, macOS, dan Android.

Link GitHub : Github.com/espeak-ng

6. Tacotron 2

Tacotron 2 memang bukan mesin sintesis suara secara langsung, tetapi merupakan arsitektur model jaringan saraf yang dirancang untuk menghasilkan suara yang alami. Implementasi open-source dari Tacotron 2 tersedia dan telah menjadi inspirasi bagi banyak kemajuan dalam teknologi sintesis suara.

Sistem ini memungkinkan pengguna untuk mensintesis ucapan langsung dari transkrip mentah tanpa perlu informasi prosodi tambahan.

Meskipun sistem ini cukup teknis dan menantang untuk dikuasai, pengguna tetap dapat mempelajari dan memahami model jaringan saraf terkait melalui berbagai sumber daya daring, seperti panduan atau tutorial neural networks.

Kelebihan: Dikembangkan oleh NVIDIA dan sangat baik digunakan sebagai model jaringan saraf.

Kekurangan: Membutuhkan pengetahuan teknis untuk dapat diimplementasikan.

Link GitHub : Github.com/NVIDIA

7. Meta Voicebox

Voicebox dari Facebook (Meta) adalah model AI canggih yang mampu menjalankan berbagai tugas dalam pembuatan suara, seperti mengedit, melakukan sampling, dan memberikan gaya pada suara. Model ini dapat menghasilkan klip audio berkualitas tinggi serta mengedit rekaman suara untuk menghilangkan gangguan seperti suara klakson mobil atau gonggongan anjing, sambil tetap mempertahankan isi dan gaya dari audio aslinya. Selain itu, model ini bersifat multibahasa dan dapat menghasilkan ucapan dalam enam bahasa yang berbeda.

Link GitHub : Github.com/SpeechifyInc

8. Coqui TTS

Coqui didirikan oleh mantan insinyur Mozilla yang sebelumnya mengembangkan MozillaTTS. Platform ini menyediakan pustaka open-source dan model TTS yang siap digunakan untuk produksi, dengan fitur premium serta akses API yang tersedia melalui paket berbayar. Baru-baru ini, Coqui memperkenalkan lisensinya sendiri, yaitu Coqui Public Model License (CPML), yang hanya mengizinkan penggunaan untuk keperluan non-komersial dan hanya membuka akses ke dataset Mozilla, bukan ke model milik mereka yang bersifat eksklusif.

Link GitHub : Github.com/coqui-ai

9. XTTS-v2

XTTS merupakan salah satu model pembangkit suara paling populer. Versi terbarunya, XTTS-v2, mampu melakukan kloning suara ke berbagai bahasa hanya dengan sampel audio singkat berdurasi 6 detik. Efisiensi ini menghilangkan kebutuhan akan data pelatihan yang besar, sehingga menjadikannya solusi menarik untuk kloning suara dan pembuatan ucapan multibahasa.

Namun sayangnya, perusahaan pengembang XTTS resmi ditutup pada awal tahun 2024, dan proyek ini kini dilanjutkan oleh komunitas open-source. Meski begitu, kode sumbernya masih tersedia di GitHub, dan XTTS-v2 tetap menjadi salah satu model TTS paling banyak diunduh di platform Hugging Face.

Link GitHub : Github.com/bentoml

10. Parler-TTS

Parler-TTS adalah kumpulan model TTS ringan yang dikembangkan oleh Hugging Face, dirancang untuk menghasilkan suara yang berkualitas tinggi dan terdengar alami. Pengguna dapat mengatur berbagai karakteristik suara seperti jenis kelamin, nada suara, gaya bicara, hingga suara latar (background noise).

Dikembangkan sebagai proyek sumber terbuka sepenuhnya, Parler-TTS menyediakan seluruh kode pelatihan, dataset, dan bobot model secara publik dengan lisensi yang longgar. Hal ini memungkinkan komunitas untuk membangun serta menyesuaikan model TTS mereka sendiri sesuai kebutuhan.

Fitur Utama :

  • Kontrol Gaya Suara: Parler-TTS memungkinkan pengaturan karakteristik suara secara detail seperti emosi, kecepatan bicara, tinggi nada (pitch), dan gema (reverb) hanya melalui perintah teks sederhana.
  • Kloning Pembicara: Model ini mampu meniru gaya dari 34 pembicara yang telah ditentukan sebelumnya, sangat berguna untuk aplikasi yang membutuhkan identitas suara yang konsisten.
  • Dioptimalkan untuk Efisiensi: Parler-TTS mendukung teknik generasi suara cepat seperti SDPA dan Flash Attention 2. Secara default, model menggunakan SDPA yang dapat mempercepat proses hingga 1,4 kali dibandingkan dengan metode perhatian tradisional (eager attention).

Poin yang Perlu Diwaspadai :

  • Ukuran Model: Parler-TTS tersedia dalam dua versi, yaitu Mini (880 juta parameter) dan Large (2,3 miliar parameter). Versi Mini cocok untuk generasi suara yang cepat dan ringan. Namun, untuk kebutuhan yang lebih ekspresif dan kontrol yang lebih mendalam terhadap detail suara, versi Large menawarkan kemampuan yang lebih canggih meskipun memerlukan sumber daya komputasi yang lebih besar.

Link GitHub : Github.com/huggingface/parler-tts



Itulah Pembahasan tentang Rekomendasi Tools API Text-to-Speech (TTS) Gratis dan Open Source.

Semoga bermanfaat, dan Terima Kasih 😄😘👌👍 :)

Wassalamu‘alaikum wr. wb.

Post a Comment

Previous Post Next Post