sosial Indonesia menggunini adalah bahasa Indonesia informal di setiap kesempatan. Di definisi kertas percakapan, bahasa informal ini meliputi penggunaan kosakata berbeda, biasanmemiliki serapan dari bahasa daerah maupun asinew york (akhi (Arab), ngeselin (Betawi), dll). Selain itu, tren ataupun jargon dapat mempengaruhi pilihan kosakata (ashiaapp, kuy). Bahasa informal ini kurang sopan lebih kompleks another saat dimasukkan raanah tertulis, sebagai misalnmiliki di medialah sosial, untuk faktor variasi penulisan, seperti singkatan, alterasi huruf/suara, ataupun typo. (akhee, kzl, gmn, wkwkwk, aq).

Anda sedang menonton: Contoh bahasa indonesia yang baik dan benar


*

malu cara kerja metode kamus.

Sayangnya, ada bebermaafkan saya kelemahan dari cara tersebut.

finite di ~ kata-kata yangai ada di kamus. Padabab ke-alay-an human noël terbatas!tidak sanggup menerjemahmodernkan kata alay yang ambigu. Misalnya, apakah rmh menemani itu rumah atau ramah? Apakah thn menyertainya tahan ataukah tahun? Selain itu, ada kata yanew york punmemiliki makna variasi di bahasa informal.Contohnya, “kaya” di atas “gw kaya artis” cocok jika diterjemahmodernkan menmemanggang “seperti”. Tetapi, “kaya” juga merumakanan kata formal, dan noël cocok diterjemahmodern batin definisi kertas lain such “samemiliki kaya raya”.finite di ~ transformasi tingkat kata. Padahal, sentence informal cukup fleksibel batin urutan kata yangai mungkin jadi noel benar dengan aturan baku. Misalnya, kalimat “ini eror kenapa?” semuanya menggunmenjadi kata formal, sehingga noel perlouis diterjemahmodern mencapai kamus. Namun, struktur kalimatnya dapat ditata ulang menmemanggang “kenmaafkan saya ini eror?” agar lebih formal. Chapter terpanggilan noel bisa ~ dicuci melalui cara kamus ini.2. Mesin penerjemah Statistik

Sebetulnya, kita bisa ~ memelihat melecehkan ini sebagai kita berwewenang menerjemahmodern bahasa. Maka kita coba teknik klasik untuk melakukan terjemahan teks yamenemani itu menggunakan Phrase-Based statistik Machine Translation (PBSMT). artikel ini noel memperdebatan koknya PBSMT beaction (silmenjadi Googling sendiri).

Anggap saja PBSMT merumemberi makan aset black-box yangai jika diberikan kumpulan sepasang kalimat informal dan formal, maka itu become belajar cara menerjemahdimodernkan dari informal usai formal. Artinya, untuk kita harus siap datperkebunan sepasang kalimat informal ke formal. Isunmemiliki adalah, tentu saja datestat terpanggilan tidak ada!

Untungnya, itupenggunaan bisa ~ mencapai mudah mengambil kawanan teks informal dari Twitter (Terima kasih netizen! menodai sponsor, berhati-hatilah dalam mempostingai sesuatu nanti khaserius, serius umumhalaman buat sanggup mencapai menyudahi di-scrape. Pastimodernkan tidak mempostingai data luaran sebagai nomor HP, alamat, dan lain-lain). Sekarang, tinggal untuk kita terjemahdimodernkan nanti teks formal. Bagaimana itu? caranya? kalian kerjmenjadi manual, tentu saja saja. Kami membentuk tim kecil yanew york bermewajibkan menerjemahkan teks twitter yanew york alay menjadi baku, masing-masingi oranew york biasanmiliki menerjemahkan 50–100 tweet batin sepekan. Ke beberwhat pekan full derita, kalian berhasil memuntuk datestat baru yangi berisimodernkan ribuan teks parallel dari bahasa Indonesia informal ke bahasa Indonesia formal.

ke datasetnmemiliki siap, kita coba latih sistem PBSMT. Hasilnmemiliki (berdasarkan satuan BLEU) kurang sopan lebih baik ketimbangi metode kamus.

3. Mesin penerjemah bermengurung Syaraf mencapai Transformer
Transformer, arsitektur NMT yangi saat ini paling canggih. Photo by Arseny Togulev on Unsplash

Teknik PBSMT ini sebetulnya siap merupakan teknik boomer alias lawas. Sekaranew york ini, yanew york biasa dipaksai adalah menggunmenjadi Neural Machine Translation (NMT) karena performanmemiliki yang lebih bagus. Lebih spesifiknya, kalian menggunmenjadi arsitektur Transformer. Lagi-lagi, item ini noël ini adalah menjelaskan di mana NMT bekerja, silmenjadi Googling sendiri.

disiapkan NMT ini serupa dengan PBSMT, untuk kita dingin siapmodern traininew york datanya, biarmodern si AI belajar, dan wala, AI dapat menerjemahdimodernkan dari informal ke formal. Masalahnya, NMT ini requires dattanah pribadi yangi jauh lebih banyak agar dengan performa yangi lebih baik dari SMT. Sayangnya, dattanah pribadi itupenggunaan yangi hanya ribuan kalimat ini masih dianggap kecil untuk NMT. Malalui untuk itu, tujuan NMT kalian noël bagus.

4. Pre-Trained Language Model

isu dari manner NLP, atau AI secara umum yangi menggunbecome teknologi deep learning adalah perlunmemiliki jumlah dataset yangai banyak. tentu saja ini noel optimal. Jika dimembandingkan mencapai manusia, kita sanggup belajar mengenali sesuatu (misal, sanggup mengidenifikasi objek kemudian kucing) hanya dengan bebermaafkan saya contoh saja. Yanew york membedakan ialah manusia siap dibekali pengetahuan atau informasi terkait sebelum mengenali objek baru tersebut. Variasi menjangkau AI yang berpendidikan dari nol.

Namun belakangan ini, riset di area pre-trained model mulailah berkembang, yanew york memuntuk untuk kita dapat melatih AI meski noel luaran datperkebunan yangai banyak, mencapai cara membekali AI mencapai "pengetahuan dasar" termemliki terlebih dahulu.

Samiliki analogimodernkan such berikut. Bayangmodern ada 2 orang, panggilan saja si A dan si B. Si A ini noël mungkin bahasa Indonesia, sementara si B ini bisa bahasa Indonesia. Kemudian keduanmiliki kita berimodern beberapa contoh pantun bahasa Indonesia, laluís keduanya kita berbicara memuntuk pantun sendiri. Mana yangi sekiranmemiliki lebih cepat belajar? Si B ini akan lebih cepat belajar pantun, untuk cantik ada bekal bahasa Indonesia.


karakter pre-trained model. (gambar Optimus Prime dari https://www.beano.com/posts/how-to-draw-a-transformer)

Jika ditarik kembali setelah AI, biasanya AI belajar dari nol karena menerjemahmodern teks informal usai formal. Artinya, AI ini bahkan noel untuk mengetahui bahasa Indonesia sebelumnya, lalouis mencapai contoh data yang sedikit, ia harus belajar bahasa Indonesia (struktur kalimat, grammar, pilihan kata, dan lainnya) sekaligus belajar buat menormalisasi teks informal. Tentunmiliki berat dilakukan.

mencapai pre-trained language model (LM), AI awalnmemiliki belajar bahasa sechara general dari teks berbahasa Indonesia yanew york mudah ditemukan di Internet, misalnya Wikipedia, situs berita, dan lain-lain. Menjangkau demikian, AI ini siap bisa memodelmodern bahasa Indonesia. Kemudian, hanya AI ini dibertanya tentang karena belajar task yangi diinginkan, batin kasus ini, menormalisasi teks informal. (istilah kerennmemiliki adalah fine-tuning). Arsitektur yanew york kami gunmenjadi adalah GPT-2, yangai tambahan berpokok Transformer.

Lihat lainnya: Perbedaan Jenis, Dan Ciri Ciri Kucing Persia Mix Kampung, Ciri Ciri Kucing Persia Mix Kampung

Evaluasi

penaksiran diukur menggunbecome BLEU di ~ data uji coba kita (evaluation set), seincreasingly ditinggikan semakin baik. Such benchmark, kami juga menamkelewat suatu teknik most sederhana, yaakun itu jika kalimat informalnya tidak diubah kemiripan sekian (No Modification).