Jakarta –
Meta membangun model bahasa AI yang dapat mengenali lebih dari 4.000 bahasa lisan dan menghasilkan ucapan (text-to-speech) di lebih dari 1.100 bahasa.
Sebuah proyek bernama Massively Multilingual Speech (MMS) kini tersedia sebagai sumber terbuka untuk membantu melestarikan keragaman bahasa dan mendorong para peneliti untuk mengembangkannya.
“Hari ini, kami membagikan model dan kode kami secara publik sehingga orang lain dalam komunitas riset dapat mengembangkan pekerjaan kami,” tulis Meta detikINET dari The Verge.
IKLAN
GULIR UNTUK LANJUTKAN KONTEN
“Melalui karya ini, kami berharap dapat memberikan kontribusi kecil untuk melestarikan keragaman bahasa yang luar biasa di dunia,” lanjut mereka.
Pengenalan ucapan dan model teks-ke-ucapan biasanya memerlukan pelatihan selama ribuan jam audio dengan label transkripsi yang menyertainya. Label sangat penting untuk pembelajaran mesin agar algoritme dapat mengkategorikan dan memahami data dengan benar.
Namun untuk bahasa yang tidak banyak digunakan di negara tersebut, industri data ini tidak tersedia. Meta mengambil pendekatan yang tidak konvensional untuk mengumpulkan data audio, menggunakan rekaman audio dari teks-teks agama yang diterjemahkan.
“Kami beralih ke teks-teks agama seperti Alkitab yang telah diterjemahkan ke dalam berbagai bahasa dan terjemahannya telah dipelajari secara ekstensif untuk penelitian terjemahan bahasa berbasis teks,” kata Meta.
“Terjemahan ini memiliki rekaman audio dari orang yang membaca teks ini dalam berbagai bahasa.” dia melanjutkan.
Meta menggabungkan rekaman Alkitab tanpa label dan teks serupa, peneliti Meta meningkatkan bahasa model yang tersedia menjadi lebih dari 4.000. Meskipun isi rekaman audio bersifat religius, Meta-analisis menunjukkan bahwa model ini tidak dapat menghasilkan bahasa yang lebih religius.
“Kami yakin ini karena kami menggunakan pendekatan klasifikasi temporal koneksionis (CTC), yang jauh lebih terbatas daripada model bahasa besar (LLM) atau model sequence-to-sequence untuk pengenalan suara.”
Selain itu, meskipun sebagian besar rekaman religius dibacakan oleh penutur laki-laki, rekaman itu juga tidak menimbulkan bias laki-laki – bersuara sama baiknya dalam suara perempuan dan laki-laki.
Setelah melatih model penyelarasan untuk membuat data lebih berguna, Meta menggunakan wav2vec 2.0, model pembelajaran representasi diri ucapan yang dapat melatih data tanpa label. Menggabungkan sumber data yang tidak konvensional dan model ucapan yang dipantau sendiri menghasilkan hasil yang mengesankan.
“Hasil kami menunjukkan bahwa model Massively Multilingual Speech mengungguli model yang ada dan mencakup bahasa 10 kali lebih banyak.” Secara khusus, Meta membandingkan MMS dengan Whisper OpenAI, dan itu melebihi ekspektasi.
“Kami menemukan bahwa model yang dilatih dengan data Pidato Multibahasa Masif mencapai separuh tingkat kesalahan kata, tetapi Pidato Multibahasa Masif mencakup 11 kali lebih banyak bahasa.”
Meta memperingatkan bahwa model baru ini tidak sempurna. Misalnya, ada risiko bahwa model ucapan-ke-teks mungkin salah menerjemahkan kata atau frasa tertentu.
Simak Video “Mark Zuckerberg Bakal Hadirkan AI Agents di Meta Apps”
[Gambas:Video 20detik]
(jsn/berkas)