REPUBLIKA.CO.ID, JAKARTA—Raksasa teknologi Google dan laboratorium penelitian kecerdasan buatan (AI) anak perusahaannya, DeepMind, telah menciptakan semacam penerjemah dasar manusia-ke-robot. Mereka menggambarkannya sebagai “model tindakan-bahasa-visi pertama dari jenisnya”.
Google dan DeepMind mengatakan dalam dua pengumuman terpisah bahwa model, yang disebut RT-2, dilatih dengan input bahasa dan visual serta dirancang untuk menerjemahkan pengetahuan dari web menjadi instruksi yang dapat dipahami dan ditanggapi robot.
Dalam serangkaian uji coba, robot tersebut mendemonstrasikan bahwa ia dapat mengenali dan membedakan antara bendera berbagai negara, bola sepak dari bola basket, ikon pop seperti Taylor Swift, dan barang-barang seperti sekaleng Red Bull.
Kepala Robotika di Google DeepMind, Vincent Vanhoucke, dalam sebuah posting blog, mengatakan mengejar robot yang membantu selalu menjadi tantangan yang sangat besar, karena robot yang mampu melakukan tugas-tugas umum di dunia harus mampu menangani tugas-tugas yang kompleks dan abstrak dalam lingkungan yang sangat bervariasi—terutama yang belum pernah terlihat sebelumnya.
“Tidak seperti chatbots, robot membutuhkan ‘pengajaran tentang dasar sesuatu’ di dunia nyata. Robot juga harus dapat mengenali apel sesuai konteks, membedakannya dari bola merah, memahami seperti apa bentuknya, dan yang terpenting, mengetahui caranya ambil itu,” ujar Vanhoucke, dilansir dari Popular Science, Senin (31/7/2023).
Itu berarti bahwa robot pelatihan secara tradisional harus menghasilkan miliaran titik data dari awal, bersama dengan instruksi dan perintah khusus. Tugas seperti memberi tahu bot untuk membuang sepotong sampah melibatkan pemrogram yang secara eksplisit melatih robot untuk mengidentifikasi objek yang merupakan sampah, tempat sampah, dan tindakan apa yang harus diambil untuk mengambil objek dan membuangnya.
Selama beberapa tahun terakhir, Google telah menjelajahi berbagai cara untuk mengajar robot untuk melakukan tugas dengan cara yang sama seperti kita mengajar manusia (atau anjing). Tahun lalu, Google mendemonstrasikan robot yang dapat menulis kodenya sendiri berdasarkan instruksi bahasa alami dari manusia.
Anak perusahaan Google lainnya bernama Everyday Robots mencoba memasangkan input pengguna dengan respons yang diprediksi menggunakan model yang disebut SayCan yang menarik informasi dari Wikipedia dan media sosial.
RT-2 membangun model prekursor serupa yang disebut RT-1 yang memungkinkan mesin menginterpretasikan perintah pengguna baru melalui rantai penalaran dasar.
Selain itu, RT-2 memiliki keterampilan yang berkaitan dengan pemahaman simbol dan pengenalan manusia—keterampilan yang menurut Google akan menjadikannya mahir sebagai robot tujuan umum yang bekerja di lingkungan yang berpusat pada manusia.
RT-2 juga mampu menyelesaikan pekerjaan yang dilakukan melalui model bahasa visi (VLM) yang telah digunakan untuk memberi keterangan pada gambar, mengenali objek dalam bingkai, atau menjawab pertanyaan tentang gambar tertentu. Jadi, tidak seperti SayCan, model ini sebenarnya bisa melihat dunia di sekitarnya.
DeepMind mencatat bahwa, misalnya, jika seseorang mengatakan mereka lelah dan ingin minum, robot dapat memutuskan untuk memberi mereka minuman energi.