Dalam kartun klasik “The Jetsons”, Rosie si robot pembantu rumah tangga dengan lancar beralih dari menyedot debu rumah, memasak makan malam, hingga membuang sampah. Namun dalam kehidupan nyata, melatih robot serba guna tetap menjadi tantangan besar.
Biasanya, para insinyur mengumpulkan data yang spesifik untuk robot dan tugas tertentu, yang mereka gunakan untuk melatih robot dalam lingkungan yang terkendali. Namun, mengumpulkan data ini mahal dan memakan waktu, dan robot kemungkinan akan kesulitan beradaptasi dengan lingkungan atau tugas yang belum pernah dilihatnya.
Untuk melatih robot serba guna yang lebih baik, para peneliti MIT mengembangkan teknik serbaguna yang menggabungkan sejumlah besar data heterogen dari berbagai sumber ke dalam satu sistem yang dapat mengajarkan robot apa pun untuk berbagai tugas.
Metode mereka melibatkan penyelarasan data dari berbagai domain, seperti simulasi dan robot sungguhan, serta berbagai modalitas, termasuk sensor penglihatan dan penyandi posisi lengan robot, ke dalam “bahasa” bersama yang dapat diproses oleh model AI generatif.
Dengan menggabungkan sejumlah besar data, pendekatan ini dapat digunakan untuk melatih robot untuk melakukan berbagai tugas tanpa perlu memulai pelatihan dari awal setiap kali.
Metode ini bisa lebih cepat dan lebih murah daripada teknik tradisional karena membutuhkan data spesifik tugas yang jauh lebih sedikit. Selain itu, metode ini mengungguli pelatihan dari awal hingga lebih dari 20 persen dalam simulasi dan eksperimen di dunia nyata.
“Dalam dunia robotika, orang sering mengklaim bahwa kami tidak memiliki data pelatihan yang cukup. Namun menurut saya, masalah besar lainnya adalah data tersebut berasal dari begitu banyak domain, modalitas, dan perangkat keras robot yang berbeda. Pekerjaan kami menunjukkan bagaimana Anda dapat melatih robot dengan menggabungkan semua data tersebut,” kata Lirui Wang, mahasiswa pascasarjana teknik elektro dan ilmu komputer (EECS) dan penulis utama makalah tentang teknik ini.
Rekan penulis Wang termasuk sesama mahasiswa pascasarjana EECS, Jialiang Zhao; Xinlei Chen, seorang ilmuwan peneliti di Meta; dan penulis senior Kaiming He, seorang profesor di EECS dan anggota Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL). Penelitian ini akan dipresentasikan pada Konferensi Sistem Pemrosesan Informasi Neural.
Terinspirasi oleh LLM
Sebuah “kebijakan” robotik mengambil pengamatan sensor, seperti gambar kamera atau pengukuran proprioseptif yang melacak kecepatan dan posisi lengan robotik, dan kemudian memberi tahu robot bagaimana dan ke mana harus bergerak.
Kebijakan biasanya dilatih menggunakan pembelajaran imitasi, yang berarti manusia mendemonstrasikan tindakan atau mengoperasikan robot secara jarak jauh untuk menghasilkan data, yang kemudian dimasukkan ke dalam model AI yang mempelajari kebijakan tersebut. Karena metode ini menggunakan sejumlah kecil data khusus tugas, robot sering gagal ketika lingkungan atau tugasnya berubah.
Untuk mengembangkan pendekatan yang lebih baik, Wang dan kolaboratornya mendapatkan inspirasi dari model bahasa yang besar seperti GPT-4.
Model-model ini dilatih sebelumnya menggunakan sejumlah besar data bahasa yang beragam dan kemudian disetel dengan memberi mereka sejumlah kecil data spesifik tugas. Pelatihan awal pada begitu banyak data membantu model beradaptasi untuk berkinerja baik pada berbagai tugas.
“Dalam domain bahasa, semua data hanya berupa kalimat. Dalam robotika, mengingat semua heterogenitas dalam data, jika Anda ingin melakukan prapelatihan dengan cara yang sama, kami membutuhkan arsitektur yang berbeda,” katanya.
Data robotik memiliki banyak bentuk, mulai dari gambar kamera, instruksi bahasa, hingga peta kedalaman. Pada saat yang sama, setiap robot memiliki keunikan secara mekanis, dengan jumlah dan orientasi lengan, pencengkeram, dan sensor yang berbeda. Ditambah lagi, lingkungan tempat data dikumpulkan sangat bervariasi.
Para peneliti MIT mengembangkan arsitektur baru yang disebut Heterogeneous Pretrained Transformers (HPT) yang menyatukan data dari berbagai modalitas dan domain ini.
Mereka menempatkan model pembelajaran mesin yang dikenal sebagai transformator di tengah-tengah arsitektur mereka, yang memproses input visi dan proprioception. Transformator adalah jenis model yang sama yang membentuk tulang punggung model bahasa yang besar.
Para peneliti menyelaraskan data dari penglihatan dan proprioception ke dalam jenis input yang sama, yang disebut token, yang dapat diproses oleh transformator. Setiap input diwakili dengan jumlah token yang sama.
Kemudian transformator memetakan semua input ke dalam satu ruang bersama, tumbuh menjadi model yang sangat besar dan terlatih saat memproses dan belajar dari lebih banyak data. Semakin besar transformator, semakin baik kinerjanya.
Seorang pengguna hanya perlu memberi makan HPT sejumlah kecil data tentang desain, pengaturan, dan tugas yang mereka inginkan untuk dilakukan. Kemudian HPT mentransfer pengetahuan yang diperoleh transformator selama prapelatihan untuk mempelajari tugas baru.
Mengaktifkan gerakan yang cekatan
Salah satu tantangan terbesar dalam mengembangkan HPT adalah membangun kumpulan data yang sangat besar untuk melatih transformator, yang mencakup 52 kumpulan data dengan lebih dari 200.000 lintasan robot dalam empat kategori, termasuk video demo dan simulasi manusia.
Para peneliti juga perlu mengembangkan cara yang efisien untuk mengubah sinyal proprioception mentah dari serangkaian sensor menjadi data yang dapat ditangani oleh transformator.
“Proprioception adalah kuncinya
Sumber: https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028