Persaingan Ketat Model AI dalam Uji IQ Terbaru

KOMPAS.com - Dalam upaya menghadirkan model kecerdasan buatan (AI) yang lebih unggul, perusahaan-perusahaan seperti OpenAI dan Anthropic terus berinovasi. Setiap kali mereka meluncurkan model baru, hasil benchmark sering kali dipublikasikan untuk menunjukkan keunggulan produk terbaru mereka. Hal serupa dilakukan oleh Tracking AI, sebuah platform yang secara khusus menguji dan membandingkan performa berbagai model AI.

Platform ini mengukur tingkat kecerdasan model AI melalui tes IQ, dan hasilnya divisualisasikan oleh Visual Capitalist, sebuah perusahaan media independen yang dikenal dengan infografisnya. Pengujian dilakukan pada bulan April 2026 menggunakan tes IQ Mensa Norwegia, melibatkan setidaknya 26 model AI dari berbagai perusahaan dalam beberapa versi. Hasil pengujian menunjukkan persaingan yang sangat ketat, di mana Grok-4.20 Expert Mode dan OpenAI GPT-5.4 Pro (Vision) sama-sama memperoleh skor tertinggi, yaitu 145, sehingga Visual Capitalist menempatkan keduanya di posisi pertama secara bersamaan.

Perkembangan Model AI dan Skor IQ

Di belakang kedua model tersebut, Gemini 3.1 Pro Preview mencatatkan skor 141. Capaian ini menunjukkan peningkatan dibandingkan pengujian tahun 2025, di mana skor tertinggi hanya mencapai 135 poin. Model AI asal China juga menunjukkan performa yang kompetitif, dengan Qwen 3.5 dari Alibaba menjadi model AI China dengan peringkat tertinggi, berada di posisi ke-10 dengan skor 130. Model-model lain seperti DeepSeek R1 dan DeepSeek V3 juga berhasil masuk dalam daftar.

Detail Hasil Pengujian dan Metodologi

Berikut adalah rincian model AI dengan IQ tertinggi: Grok-4.20 Expert Mode - 145, OpenAI GPT-5.4 Pro (Vision) - 145, Gemini 3.1 Pro Preview - 141, OpenAI GPT-5.4 Thinking (Vision) - 139, OpenAI GPT-5.3 - 136, Grok-4.20 Expert Mode (Vision) - 133, OpenAI GPT-5.4 Thinking - 133, Meta Muse Spark - 133, Gemini 3.1 Pro Preview (Vision) - 132, Qwen 3.5 - 130, Claude 4.6 Opus - 130, Kimi K2.5 - 127, Manus - 115, DeepSeek R1 - 112, DeepSeek V3 - 111, Gemini 3.1 Flash - 110, Llama 4 Maverick - 110, GPT-5.3 (Vision) - 109, Claude 4.6 Sonnet - 106, Bing Copilot - 101, Perplexity - 97, Mistral Medium 3.1 - 96, Claude 4.6 Sonnet (Vision) - 94, Claude 4.6 Opus (Vision) - 82, Llama 4 Maverick (Vision) - 79, GPT-5.4 Pro (non-vision) - 73.

Tes Mensa Norwegia yang digunakan terdiri dari 35 teka-teki pola visual. Terdapat perbedaan metode antara model berbasis teks dan model multimodal. Model non-vision menerima soal yang telah dikonversi menjadi deskripsi verbal, sementara model vision mengerjakan soal dalam bentuk gambar asli tanpa modifikasi. Tracking AI juga menerapkan aturan khusus, di mana jika model menolak menjawab, pertanyaan yang sama akan diulang hingga maksimal 10 kali, dan jawaban terakhir yang dijadikan penilaian. Meskipun demikian, skor ini hanya bersifat perbandingan dan bukan tolok ukur mutlak kecerdasan AI secara keseluruhan, karena tes IQ hanya mengukur satu aspek saja, yaitu kemampuan penalaran pola, sebagaimana dihimpun oleh KompasTekno dari Visual Capitalist.

Persaingan Ketat Model AI dalam Uji IQ Terbaru

Perkembangan Model AI dan Skor IQ

Detail Hasil Pengujian dan Metodologi

Berita Terkait

Alessandro Bastoni Terjerat Kasus Penyelidikan Prostitusi Anak di Milan

Juventus Tertarik pada Bek Muda Lecce, Tiago Gabriel

--- Ivan Juric Resmi Menjadi Pelatih Monza Setelah Dipecat Tiga Klub ---