Bandingkan GPT-4 dan GPT-3, Ini Hasilnya

REPUBLIKA.CO.ID, JAKARTA---Kabar baik bagi penggemar AI generatif. Konten yang dihasilkan secara prosedural dari GPT-4 OpenAI adalah model bahasa yang lebih baik daripada GPT-3, model yang mendukung ChatGPT, chatbot yang belakangan menjadi viral sejak tahun lalu.

Menurut laporan OpenAI sendiri, perbedaannya sangat mencolok. Misalnya, OpenAI mengklaim GPT-3 memiliki skor uji buruk, sementara GPT-4 mencetak hasil yang baik.

Baca Juga

Untuk lebih jelasnya, tidak semua fitur yang digembar-gemborkan oleh OpenAI pada peluncuran tersedia untuk evaluasi publik. Contohnya, GPT-4 menerima gambar dengan input pertanyaan, “Di mana saya harus membangun rumah dalam screengrab dari Google Earth ini?” Seharusnya, secara teoritis dia mampu menjawab pertanyaan seperti itu.

Dilansir Sea Mashable pada Jumat (17/3/2023), berikut beberapa fitur yang bisa diuji.

1. GPT-4 lebih sedikit 'berhalusinasi' dari GPT-3.

Cara terbaik untuk meringkas penjelasan GPT-4 dibandingkan dengan GPT-3 adalah jawabannya tidak terlalu buruk. Model bahasa buruk dalam menjawab pertanyaan tentang apa pun "saat ini", perang sulit untuk didefinisikan, dan pertanyaan geografi menipu dan sulit dijawab dengan jelas. Tidak ada model yang memberikan jawaban A+.

GPT-3, seperti biasa, suka berhalusinasi, sedikit memalsukan geografi untuk membuat jawaban yang salah terdengar benar. Misalnya, jembatan simbolis yang disebutkan di Korea dekat dengan Korea Utara, tetapi kedua sisinya berada di Korea Selatan. GPT-4 lebih berhati-hati, menyangkal ketidaktahuannya tentang masa kini. Dia memberikan daftar yang jauh lebih pendek. Jawaban GPT-4 tetap lebih berguna daripada GPT-3. GPT-3 jatuh ke dalam perangkap logis lain yang berhasil dihindari GPT-4.

2. GPT-4 menangkap subteks lebih baik daripada GPT-3.

GPT-4 dapat menangkap kedipan mata, sementara GPT-3 tidak bisa.

3. GPT-4 menulis puisi yang sedikit lebih baik dibandingkan GPT-3.

Ketika manusia menulis puisi, jujur saja sebagian besar mengerikan. Itulah mengapa mengkritik puisi GPT-3 yang terkenal buruk bukanlah kritik pada teknologi itu sendiri, mengingat teknologi seharusnya meniru manusia. Karena itu, membaca doggerel GPT-4 terasa tidak terlalu buruk daripada membaca GPT-3.

4. Namun, GPT-4 terkadang lebih buruk daripada GPT-3

GPT-4 mengacaukan jawabannya untuk pertanyaan rumit tentang sejarah rock.

5. GPT-4 belum menguasai inklusivitas

GPT-4 tidak menguasai jawaban tentang inklusivitas, misalnya tentang dominasi musisi kulit putih dan hitam di genre rock n roll pada tahun-tahun tertentu. Secara keseluruhan, GPT-4 masih perlu diperbaiki pengembang.

Ikuti Whatsapp Channel Republika