REPUBLIKA.CO.ID, JAKARTA -- Apple GPT mungkin akan segera menjadi kenyataan. Selama beberapa bulan terakhir, BGR mendengar beberapa laporan tentang model pembelajaran bahasa yang sedang dikerjakan.
Dilansir BGR, Kamis (21/12/2023), misalnya, The Information memposting bahwa Apple menghabiskan jutaan dolar setiap hari untuk melatih Large Language Models (LLM).
Meskipun publikasi tersebut mengatakan sebagian besar investasi ini akan berfokus pada pelanggan AppleCare, tim Siri berencana untuk menggabungkan model bahasa ini untuk membuat integrasi pintasan yang kompleks lebih mudah diakses. Selain itu, analis Haitong International Securities Jeff Pu telah melaporkan bahwa Apple telah membangun beberapa ratus server kecerdasan buatan (AI) sepanjang tahun 2023 dan berencana untuk menambah lebih banyak lagi pada tahun 2024.
Pu yakin bahwa Apple berencana menggabungkan AI berbasis cloud dan pemrosesan data pada perangkat untuk merilis AI generatifnya kepada pengguna iPhone dan iPad pada akhir tahun 2024, selama siklus iOS 18. Karena kita semua menantikan teknologi Apple GPT ini untuk Hadir di iPhone kita, satu detail kecil akan membedakan GPT ini dari yang lain: penggunaan di perangkat, bukan berbasis cloud.
Meskipun Pu yakin Apple akan menggabungkan keduanya, perusahaan tersebut adalah pendukung besar privasi sebagai “hak asasi manusia yang mendasar,” sehingga mengandalkan pemrosesan pada perangkat akan menjadi pembeda utama dari semua perusahaan lainnya. Namun LLM secara efisien dengan memori terbatas, dan hal ini sangat menarik.
Dalam makalah ini, yang pertama kali ditemukan oleh MacRumors, para peneliti mengatakan bahwa “metode ini melibatkan pembuatan model biaya inferensi yang selaras dengan perilaku memori flash, memandu kita untuk mengoptimalkan dalam dua area penting: mengurangi volume data yang ditransfer dari flash dan membaca data dalam bagian yang lebih besar dan berdekatan.”
Dengan melakukan hal tersebut, perusahaan berencana menggunakan dua teknologi baru: Pertama, Windowing: ini memuat parameter hanya untuk beberapa token terakhir, menggunakan kembali aktivasi dari token yang baru dihitung. Pendekatan jendela geser ini mengurangi jumlah permintaan IO untuk memuat beban.
Kedua, row-column bundling: ini menyimpan baris dan kolom gabungan dari lapisan proyeksi atas dan bawah untuk membaca potongan-potongan yang lebih besar dan berdekatan dari memori flash. Hal ini meningkatkan throughput dengan membaca potongan-potongan yang lebih besar.
Kombinasi metode ini dapat menghasilkan peningkatan kecepatan CPU empat hingga lima kali lipat dan GPU 20 hingga 25 kali lebih cepat, yang memungkinkan model AI bekerja hingga dua kali ukuran memori iPhone. Pada akhirnya, teknologi ini dapat meningkatkan kemampuan Siri, terjemahan real-time, dan fitur AI lainnya untuk foto, video, dan pemahaman tentang cara pelanggan menggunakan iPhone mereka.