Sentimen
Positif (88%)
25 Mei 2023 : 14.45

Meta Bikin Bahasa AI, Bisa Kenali 4 Ribu Bahasa

25 Mei 2023 : 14.45 Views 1

Detik.com Detik.com Jenis Media: Tekno

Meta Bikin Bahasa AI, Bisa Kenali 4 Ribu Bahasa
Jakarta -

Meta membuat model bahasa AI yang dapat mengenali lebih dari 4.000 bahasa lisan dan menghasilkan ucapan (text-to-speech) di lebih dari 1.100 bahasa.

Proyek yang dinamai Massively Multilingual Speech (MMS) saat ini telah tersedia sebagai open-source untuk membantu melestarikan keragaman bahasa dan mendorong para peneliti dalam membangun fondasinya.

"Hari ini, kami membagikan model dan kode kami secara publik sehingga orang lain dalam komunitas riset dapat mengembangkan pekerjaan kami," tulis Meta sebagaimana dilansir detikINET dari The Verge.

-

-

"Melalui karya ini, kami berharap dapat memberikan kontribusi kecil untuk melestarikan keanekaragaman bahasa yang luar biasa di dunia," sambung mereka.

Pengenalan ucapan dan model teks-ke-ucapan biasanya memerlukan pelatihan selama ribuan jam audio dengan label transkripsi yang menyertainya. Label sangat penting agar machine learning memungkinkan algoritme mengkategorikan dan memahami data dengan benar.

Tetapi untuk bahasa yang tidak banyak digunakan di negara-negara, industri data ini tidak tersedia. Meta menggunakan pendekatan yang tidak konvensional untuk mengumpulkan data audio, memanfaatkan rekaman audio dari teks-teks agama yang diterjemahkan.

"Kami beralih ke teks-teks agama seperti Alkitab yang telah diterjemahkan dalam berbagai bahasa dan terjemahannya telah dipelajari secara luas untuk penelitian terjemahan bahasa berbasis teks," kata Meta.

"Terjemahan ini memiliki rekaman audio yang tersedia untuk umum dari orang yang membaca teks ini dalam berbagai bahasa." lanjutnya.

Meta menggabungkan rekaman Alkitab yang tidak berlabel dan teks serupa, peneliti Meta meningkatkan bahasa model yang tersedia menjadi lebih dari 4.000. Meskipun isi rekaman audionya religius, analisis Meta menunjukkan bahwa model ini tidak bias menghasilkan bahasa yang lebih religius.

"Kami percaya ini karena kami menggunakan pendekatan klasifikasi temporal koneksionis (CTC), yang jauh lebih terbatas dibandingkan dengan model bahasa besar (LLM) atau model urutan-ke-urutan untuk pengenalan ucapan."

Selain itu, meskipun sebagian besar rekaman religius dibacakan oleh penutur laki-laki, hal itu juga tidak menimbulkan bias laki-laki - tampil sama baiknya dalam suara perempuan dan laki-laki.

Setelah melatih model penyelarasan untuk membuat data lebih bermanfaat, Meta menggunakan wav2vec 2.0, model pembelajaran representasi ucapan mandiri yang dapat melatih data tanpa label. Menggabungkan sumber data yang tidak konvensional dan model ucapan yang diawasi sendiri menghasilkan hasil yang mengesankan.

"Hasil kami menunjukkan bahwa model Massively Multilingual Speech bekerja dengan baik dibandingkan dengan model yang ada dan mencakup 10 kali lebih banyak bahasa." Secara khusus, Meta membandingkan MMS dengan Whisper OpenAI, dan itu melebihi ekspektasi.

"Kami menemukan bahwa model yang dilatih pada data Pidato Multibahasa Masif mencapai separuh tingkat kesalahan kata, tetapi Pidato Multibahasa Masif mencakup 11 kali lebih banyak bahasa."

Meta memperingatkan bahwa model barunya tidak sempurna. Misalnya, ada beberapa risiko bahwa model ucapan-ke-teks dapat salah menerjemahkan kata atau frasa tertentu.

Simak Video "Mark Zuckerberg Akan Hadirkan Agen AI di Aplikasi Meta"
[-]
(jsn/fay)

Sentimen: positif (88.9%)