Aplikasi 'Katakan', Bantu Orang Bergangguan Visual Kenali Lingkungan, Ini Cara Menggunakannya
JURNAL PERGURUAN TINGGI -- Aplikasi 'Katakan' inovasi Royan Abida N Nayoan, mahasiswa Program Studi Magister Informatika, Fakultas Teknologi Industri, Universitas Islam Indonesia (FTI UII) dapat membantu orang yang memiliki gangguan visual untuk mengenali lingkungan. Caranya orang bergangguan visual memotret lingkungan sekitar menggunakan aplikasi 'Katakan', maka dalam waktu 2-3 detik, smartphone akan memberikan keterangan suara benda-benda apa saja yang ada di sekitarnya.
"Kecepatan memberikan keterangan suara itu tergantung pada jaringan internet. Jika jaringan internetnya bagus, maka akan cepat memberikan keterangan suara. Tetapi sebaliknya, jika jaringan internet jelek ya lambat," kata Royan Abida kepada wartawan secara virtual Sabtu (17/12/2022).
BACA JUGA : Genteng Tenaga Surya, Inovasi Mahasiswa UGM Juara Kompetisi Bisnis Pertamuda Seed and Scale
Saat memberikan keterangan, Royan Abida didampingi Irving Vitra Paputungan, ST, MSc, PhD, Ketua Program Studi Informatika Program Magister, dan Dhomas Hatta Fudholi, ST, MEng, PhD, dosen Pembimbing dan juga Ketua Program Studi Informatika Program Sarjana FTI UII. Royan mengembangkan inovasi berjudul 'Pemahaman Visual di dalam Ruangan dengan Image Captioning berbasis Transformer.'
Dijelaskan Royan, penelitian ini merupakan tesis untuk menyelesaikan studi program magister. Model enkoder-dekoder, kata Royan, telah menjadi model standar untuk digunakan sebagai framework untuk menyelesaikan masalah image captioning dengan CNN sebagai enkoder dan RNN sebagai dekoder.
Namun RNN memiliki kekurangan pada dependensi jangka panjang dalam jaringannya. Hal ini menyebabkan RNN kesulitan mengingat urutan panjang yang kemudian diperbaiki dengan munculnya Transformer dengan mekanisme attention. Transformer juga telah banyak digunakan dalam tugas image captioning pada dataset berbahasa Inggris seperti MSCOCO dan Flickr.
Namun begitu, tambah Royan, penelitian terkait image captioning dengan Bahasa Indonesia masih sedikit dan menggunakan penerjemah untuk mendapatkan dataset berbahasa Indonesia. "Pada penelitian ini, digunakan model Transformer untuk memprediksi deskripsi gambar pada dataset modifikasi MSCOCO dan Flickr berbahasa Indonesia untuk mendapatkan pemahaman visual di dalam ruangan," kata Royan.
Dataset yang digunakan merupakan dataset yang telah dimodifikasi dengan membuat captions menjadi captions baru Berbahasa Indonesia dengan menuliskan deskripsi yang mengandung nama objek, warna, posisi/lokasi (sudut pandang pengguna), karakteristik, dan objek sekitarnya. Dilakukan eksperimen dengan menggunakan varian model pre-trained CNN untuk mendapatkan fitur gambar sebelum dilanjutkan pada model Transformer.
BACA JUGA : Inovasi Baru Cap Batik Kertas untuk Hemat Beaya Produksi, Ini Cara Membuatnya
Kemudian dilakukan pengaturan hyperparameter pada model dengan mengubah ukuran batch, dropout, dan attention heads untuk mendapatkan model terbaik. Matriks evaluasi yang digunakan yakni BLEU-n, METEOR, CIDEr, dan ROUGE-L untuk mengevaluasi model.
Dari penelitian ini, didapatkan model dengan memanfaatkan fitur ekstraktor IncepResNetV2 yang memiliki ukuran batch dengan nilai 128, dropout dengan nilai 0.1, dan attention heads dengan nilai 4 mampu mendapatkan skor terbaik di semua matriks evaluasi. Model IncepResNetV2 mendapatkan skor tertinggi pada BLEU[1]1 dengan skor 0.6971, BLEU-2 dengan skor 0.5246, BLEU-3 dengan skor 0.3921, BLEU-4 dengan skor 0.2831, METEOR dengan skor 0.2468, CIDEr dengan skor 0.4801, dan ROUGE-L dengan skor 0.5114.
Penelitian ini, dibangun model untuk mengenerasi teks dari gambar yang diambil di dalam ruangan untuk mendapatkan pemahaman visual di dalam ruangan. Penelitian ini diharapkan berkontribusi untuk mempresentasikan evaluasi arsitektur Transformer dan mengidentifikasi objek untuk mendapatkan pemahaman visual di dalam ruangan pada dataset gambar MSCOCO dan Flickr dengan caption berbahasa Indonesia dengan deskripsi yang menggambarkan nama objek, posisi/lokasi (berdasarkan sudut pandang pengguna), karakteristik, dan objek di sekitarnya.
Dalam pengembangannya, digunakan model Transformer yang diubah dan disesuaikan modelnya dengan hyper-parameter tuning untuk mendapatkan model terbaik. "Selain itu, dilakukan pula beberapa eksperimen dalam menggunakan varian pre-trained CNN untuk mendapatkan fitur gambar yang kemudian akan dilanjutkan ke dalam model Transformer," katanya. (*)
BACA JUGA : Handphone Hilang, Factory Reset Bawaan Android Tangguh Amankan Data, Ini Hasil Penelitian
Ikuti informasi penting tentang berita terkini perguruan tinggi, wisuda, hasil penelitian, pengukuhan guru besar, akreditasi, kewirausahaan mahasiswa dan berita lainnya dari JURNAL PERGURUAN TINGGI. Anda juga bisa berpartisipasi mengisi konten di JURNAL PERGURUAN TINGGI dengan mengirimkan tulisan, foto, infografis, atau pun video. Kirim tulisan Anda ke email kami: [email protected].