Jum’at (25/6) lalu, Teguh Eko Budiarto, Co-founder & CEO Prosa.ai berkesempatan untuk menjadi pembicara pada webinar yang diadakan oleh AWS dengan topik “Pemrosesan Data Bahasa untuk Membangun Sistem AI Berbasis NLP”.
Secara garis besar, dalam presentasi nya yang bertajuk “NLP & Speech Processing for Bahasa Indonesia to Build AI-based Solutions,” Eko membahas tentang perkembangan riset NLP Bahasa Indonesia dan pengembangan teknologi AI/NLP dan Speech Processing untuk membangun solusi yang dibutuhkan perusahaan.
Eko menjelaskan bahwa sekarang adalah era ledakan data, dimana setiap saat nya pertumbuhan data yang beredar di internet sangatlah pesat. Dari sekian banyak data yang tumbuh secara eksponensial tersebut, sekitar 80% merupakan data yang tidak terstruktur. Untuk memanfaatkan data dalam jumlah besar tersebut, dapat digunakan konsep augmented analytics yang merupakan kombinasi dari Analytics manusia dengan memanfaatkan Advanced AI. AI yang dapat diterapkan untuk Augmented Analytics mencakup NLP, Speech Processing dan Image Processing yang intinya adalah mengajarkan komputer untuk mampu memahami pembicaraan atau bahasa manusia dalam bentuk text dan suara, dan mengajarkan komputer untuk mendengar suara dan melihat benda dan kondisi visual seperti halnya manusia
Eko memberikan gambaran tentang tantangan dalam membangun sistem AI berbasis NLP. Setidaknya terdapat 3 hambatan, yaitu; (1) Bahasa itu ambigu. Makna yang dapat terbentuk dalam suatu kalimat dapat berarti berbeda, contoh, saya berlari 2 kaki dapat diartikan berlari sejauh 2 kaki atau berlari menggunakan 2 kaki. (2) Bahasa yang terus berevolusi. Bahasa akan selalu berkembang mengikuti perkembangan zaman. Bisa karena adanya kata baru seperti gawai, swafoto, dan lain sebagainya. Lalu ada nya slang seperti baper, santuy, dan lain sebagainya. Dan yang terakhir (3) kombinasi antara 2 bahasa atau lebih seperti mukanya literally seperti artis.
Selain itu, ia juga menjelaskan proses pengembangan AI untuk NLP. Tentunya, pengembangan suatu produk, menurutnya, mesti dimulai dengan penentuan objektif bisnis dan target teknis atau tipe fungsi yang mau dikembangkan, seperti yang dapat dilihat pada tangkapan gambar dibawah.
Setelah itu dilanjutkan dengan pengumpulan data dan penyiapan data. Lalu dilakukan anotasi atau pelabelan. Setelah data yang dilabeli siap, akan dilakukan pengembangan model AI nya dengan iterasi terhadap teknik dan algoritma sambil dilakukan evaluasi hingga mencapai target akurasi atau tujuan teknis yang diinginkan. Kalau ternyata target belum tercapai setelah menerapkan berbagai teknik, hasil evaluasi bisa masuk pada siklus penyiapan data kembali untuk menambah data latih. Apabila hasil evaluasi sudah cukup memuaskan, barulah dapat dilanjutkan ke tahap deployment atau instalasi ke lingkungan produksi.