Perbandingan Model AI Terbaru: GLM 5.2 vs Opus 4.7 yang Menarik Perhatian Dunia

Sorot Indonesia – Dalam beberapa minggu terakhir, GLM 5.2 dari Z.ai telah menarik perhatian banyak pihak di industri teknologi. CEO Snowflake, Sridhar Ramaswamy, baru-baru ini membagikan analisis mendalam yang membandingkan model GLM 5.2 dengan model Claude Opus 4.7 dari Anthropic. Analisis ini dilakukan menggunakan dbt-bench, sebuah tolok ukur yang dirancang untuk mengevaluasi model AI dalam tugas transformasi data dan rekayasa analitik.

Baca juga:

Hasil dari penelitian ini menunjukkan bahwa meskipun kedua model memiliki tingkat keberhasilan keseluruhan yang hampir identik, mereka mencapai hasil tersebut dengan cara yang sangat berbeda. GLM 5.2 berhasil meraih skor Pass@3 sebesar 66 persen, sementara Opus 4.7 mencatatkan skor sedikit lebih tinggi, yakni 67 persen. Namun, pada level percobaan pertama, Opus menunjukkan keunggulan yang lebih jelas dengan skor 53,7 persen pada Pass@1 dibandingkan GLM yang hanya 47,6 persen.

Analisis dari tim Coco di Snowflake mengungkapkan bahwa salah satu perbedaan utama antara GLM dan Opus adalah cara mereka menjalankan tugas. GLM cenderung membutuhkan lebih banyak langkah untuk menyelesaikan pekerjaan, rata-rata mencapai 99 langkah, sementara Opus hanya memerlukan 80 langkah. Selain itu, GLM juga melakukan lebih banyak panggilan alat terkait eksekusi, dengan rata-rata 40 per percobaan dibandingkan 29 untuk Opus. Perbedaan ini berdampak pada konsumsi token, di mana GLM menggunakan 860 juta token dibandingkan 439 juta token yang digunakan oleh Opus.

Ramaswamy menjelaskan bahwa meskipun ada persepsi bahwa GLM melakukan verifikasi pekerjaannya dengan lebih menyeluruh, data menunjukkan bahwa GLM dan Opus melakukan validasi dengan cara yang berbeda, bukan berarti satu lebih baik dari yang lain. GLM seringkali melakukan pemeriksaan SQL satu per satu, sementara Opus mengelompokkan pemeriksaan yang serupa. Meskipun kedua model mencakup area yang sama, alur kerja mereka terlihat sangat berbeda di balik layar.