ai agents/ai untuk bisnis/reliability/adopsi ai/opini

Kenapa Demo AI Agent Mulus, Tapi di Kantor Sering Gagal

Demo AI agent selalu kelihatan ajaib. Tapi riset 2026 menunjukkan agent terbaik cuma menyelesaikan 2,5% pekerjaan freelance nyata. Ini kenapa, dan cara saya tetap memakai agent tanpa kena getahnya.

Abi Mangku

June 16, 2026 · 7 min read

Kenapa Demo AI Agent Mulus, Tapi di Kantor Sering Gagal

Ada satu pemandangan yang sering saya lihat di rapat tahun ini. Seseorang memutar video AI agent yang memesan tiket, membalas email, atau menutup tiket customer service sendirian, dan ruangan langsung percaya bahwa setengah pekerjaan tim bisa diserahkan ke agent bulan depan. Demonya mulus. Keputusannya cepat diambil.

Lalu agent itu masuk ke lingkungan kerja nyata, dan ceritanya berubah.

Saya bukan orang yang anti agent. Di Infused kami membangun dan men-deploy agent untuk klien, dan saya yakin ini salah satu teknologi paling berguna dalam sepuluh tahun terakhir. Justru karena itu saya merasa perlu jujur soal satu hal yang jarang dibahas: jarak antara demo agent dan agent yang benar benar bisa diandalkan di kantor itu jauh. Dan di 2026 akhirnya kita punya datanya.

Angka yang Bikin Demo Terasa Terlalu Manis

Bulan ini Scale merilis Remote Labor Index, sebuah benchmark yang menguji AI agent pada 240 proyek freelance asli dari Upwork, lintas 23 kategori, senilai lebih dari 140 ribu dolar pekerjaan manusia. Ini bukan benchmark mainan. Ini pekerjaan beneran yang dulu dibayar ke freelancer.

Agent terbaik, Manus, hanya menyelesaikan 2,5% proyek di kualitas yang layak diterima sebagai hasil kerja. Dari 240 proyek, cuma 6 yang lolos. Pendapatan yang berhasil "diambil" agent itu sekitar 1.720 dolar, dibanding 143 ribu dolar yang didapat manusia untuk pekerjaan yang sama. Model lain seperti Grok 4 dan Sonnet 4.5 ada di kisaran 2,1%.

Ini bukan kabar bahwa AI jelek. Ini kabar bahwa menyelesaikan satu tugas utuh sampai layak dikirim ke klien itu jauh lebih sulit daripada yang ditunjukkan demo. Pertanyaannya, kenapa bisa sejomplang itu dengan video yang kita lihat di LinkedIn? Karena demo dan pekerjaan nyata mengukur dua hal yang berbeda.

Demo Mengukur "Pernah Berhasil Sekali", Kantor Mengukur "Berhasil Tiap Kali"

Ini bagian paling penting, dan paling sering dilewatkan.

Salah satu paper soal reliability AI agent tahun ini menyoroti beda antara pass@k dan pass^k. Pass@k artinya kalau agent dicoba beberapa kali, minimal sekali berhasil. Pass^k artinya agent berhasil di setiap percobaan. Jaraknya bisa sampai 25 poin persen. Artinya banyak "keberhasilan" agent sebenarnya hasil mencoba berkali kali sampai kebetulan benar, bukan kemampuan yang konsisten.

Demo itu pass@k. Kamu rekam sampai dapat take yang bagus, lalu yang itu yang ditayangkan. Kantor itu pass^k. Pelanggan yang dapat jawaban salah tidak peduli bahwa sembilan pelanggan sebelumnya dapat jawaban benar.

Riset enterprise lain menemukan hal serupa dengan cara berbeda. Performa agent yang sama bisa turun dari sekitar 60% ke 25% kalau dijalankan berulang, dan biaya untuk akurasi yang mirip bisa berbeda sampai 50 kali lipat tergantung bagaimana agent dirancang. Jadi pertanyaannya bukan cuma "agent ini bisa atau tidak", tapi "bisa berapa konsisten, dan dengan biaya berapa".

Benchmark pun Sering Menipu

Yang lebih bikin waspada, sebagian benchmark yang dipakai industri untuk membuktikan agent hebat ternyata juga rapuh. Pada salah satu benchmark customer service penerbangan yang populer, agent yang tidak melakukan apa apa tetap lolos di 38% kasus, cuma karena cara skornya dihitung. Ada juga benchmark di mana penilainya, yang juga AI, salah berhitung saat menilai.

Buat saya pelajarannya jelas. Kalau angka bagus yang dipakai vendor untuk meyakinkan kamu berasal dari benchmark yang gampang dicurangi, angka itu tidak bisa jadi dasar keputusan bisnis. Yang bisa dipercaya cuma satu: hasil agent di proses kerja kamu sendiri, diukur berulang, dengan definisi "berhasil" yang kamu tentukan.

Saat Agent Salah, Salahnya Bisa Mahal

Agent berbeda dari chatbot biasa karena dia bertindak, bukan cuma menjawab. Itu kekuatannya, sekaligus risikonya. Tahun ini ada kasus agent dari Replit yang menghapus database production, dan laporan soal agent yang melakukan pembelian tanpa izin. Bukan karena modelnya bodoh, tapi karena diberi wewenang bertindak tanpa batas dan pengawasan yang cukup.

Di bisnis, satu kesalahan agent yang otonom penuh bisa lebih mahal daripada seluruh efisiensi yang dia hasilkan dalam sebulan. Itu kalkulasi yang harus kita lakukan sebelum, bukan sesudah.

Jadi, Bagaimana Memakai Agent Tanpa Kena Getahnya

Sekali lagi, ini bukan ajakan untuk menjauh dari agent. Ini cara saya dan tim memakainya supaya tetap berdampak tanpa jadi liability.

Persempit ruang lingkupnya. Agent yang mengerjakan satu tugas sempit dengan baik jauh lebih berguna daripada agent serba bisa yang tidak bisa diandalkan. Mulai dari proses yang berulang, jelas, dan rendah risiko.

Taruh manusia di titik berkonsekuensi besar. Biarkan agent menyiapkan, manusia yang menyetujui untuk hal seperti kirim uang, janji ke pelanggan, atau ubah data penting. Human in the loop bukan tanda agent gagal, itu desain yang waras.

Kasih batas keras, bukan sekadar instruksi. Agent harus punya pagar yang tidak bisa dilewati, plus log yang bisa diaudit, supaya kalau ada yang salah kamu tahu persis apa yang terjadi.

Ukur seperti pass^k, bukan pass@k. Jangan percaya satu demo yang mulus. Jalankan agent puluhan kali di kasus nyata kamu, lihat seberapa sering dia benar, berapa biayanya, dan apa yang terjadi waktu dia salah.

Hitung biaya kesalahan, bukan cuma biaya token. Kadang pekerjaan yang murah diotomasi justru paling mahal kalau salah.

Garis Bawah

Pertanyaan yang tepat soal AI agent bukan "seberapa pintar dia di demo", tapi "seberapa bisa diandalkan dia untuk tugas ini, dan apa yang terjadi kalau dia salah". Agent terbaik hari ini baru menyelesaikan 2,5% pekerjaan freelance nyata secara utuh. Itu bukan alasan untuk mengabaikannya, justru alasan untuk memakainya dengan cermat: di tugas yang tepat, dengan batas yang jelas, dan diukur dari hasil nyata, bukan dari video.

Yang menang dengan agent bukan yang paling cepat percaya demo, tapi yang paling jujur soal di mana agent bisa diandalkan dan di mana belum.

Lihat juga: AI agents untuk bisnis, halaman utama soal cara saya merancang, membangun, dan menerapkan AI agent di production lewat Infused.

Catatan: tulisan ini saya susun dengan bantuan AI untuk riset dan draf, lalu saya periksa dan tulis ulang. Angka angkanya dari Remote Labor Index oleh Scale AI dan Center for AI Safety: 240 proyek freelance nyata dari 358 freelancer terverifikasi di Upwork, dengan automation rate tertinggi 2,5%. Papernya bisa dibaca lengkap di remotelabor.ai.

Written by

Abi Mangku

Indonesian AI practitioner. I help companies build AI agents, train teams to use AI, and adopt it with real impact. This is where I document what I am learning.

More about me

(Serius mau mulai?)

Lagi mempertimbangkan bikin AI agent?

Saya merancang dan membangun AI agent yang benar benar jalan di operasional, lewat Infused.

AI agent untuk bisnis Kerja bareng saya

(More notes)

ai agents/ai untuk bisnis/adopsi ai

AI Agent: Bikin Sendiri atau Pakai yang Sudah Ada?

Build vs buy untuk AI agent bukan soal mana yang lebih canggih, tapi soal mana yang cocok dengan masalah, data, dan tim kamu. Ini cara saya memutuskannya, plus tabel perbandingan yang jujur.

June 16, 2026 · 7 min read

ai strategy/adopsi ai/ai untuk bisnis

Kimi K3: Closed vs Open Model Bukan Lagi Soal Harga

Kimi K3 menempel ketat di papan atas benchmark dengan harga API sepertiga model closed. Kalau performanya sudah sedekat ini, pertanyaan buat bisnis berubah: yang sebenarnya kamu beli dari model closed itu apa?

July 20, 2026 · 7 min read

ai strategy/adopsi ai/ai untuk bisnis

Kenapa Pilot AI Sering Mandek di PoC, dan Cara Keluar

Demo-nya mengesankan, semua orang senang, lalu tiga bulan kemudian statusnya masih "pilot". Tidak gagal, tapi tidak juga jalan. Ini empat penyebab yang paling sering saya lihat di lapangan, dan cara keluar darinya.

July 4, 2026 · 6 min read

corporate ai training/ai untuk bisnis/adopsi ai

Training AI untuk Tim: In-House atau Pakai Vendor?

Saya jualan training AI, jadi kalau jawaban saya "pakai vendor dong" kamu pantas curiga. Realitanya dua-duanya bisa berhasil dan dua-duanya bisa gagal. Yang menentukan adalah apa yang terjadi setelah sesinya selesai.

July 4, 2026 · 6 min read