Skip to content
    ai agents/ai untuk bisnis/reliability/adopsi ai/opini

    Kenapa Demo AI Agent Mulus, Tapi di Kantor Sering Gagal

    Demo AI agent selalu kelihatan ajaib. Tapi riset 2026 menunjukkan agent terbaik cuma menyelesaikan 2,5% pekerjaan freelance nyata. Ini kenapa, dan cara saya tetap memakai agent tanpa kena getahnya.

    Abi Mangku

    June 16, 2026 · 7 min read

    Kenapa Demo AI Agent Mulus, Tapi di Kantor Sering Gagal

    Ada satu pemandangan yang sering saya lihat di rapat tahun ini. Seseorang memutar video AI agent yang memesan tiket, membalas email, atau menutup tiket customer service sendirian, dan ruangan langsung percaya bahwa setengah pekerjaan tim bisa diserahkan ke agent bulan depan. Demonya mulus. Keputusannya cepat diambil.

    Lalu agent itu masuk ke lingkungan kerja nyata, dan ceritanya berubah.

    Saya bukan orang yang anti agent. Di Infused kami membangun dan men-deploy agent untuk klien, dan saya yakin ini salah satu teknologi paling berguna dalam sepuluh tahun terakhir. Justru karena itu saya merasa perlu jujur soal satu hal yang jarang dibahas: jarak antara demo agent dan agent yang benar benar bisa diandalkan di kantor itu jauh. Dan di 2026 akhirnya kita punya datanya.

    Angka yang Bikin Demo Terasa Terlalu Manis

    Bulan ini Scale merilis Remote Labor Index, sebuah benchmark yang menguji AI agent pada 240 proyek freelance asli dari Upwork, lintas 23 kategori, senilai lebih dari 140 ribu dolar pekerjaan manusia. Ini bukan benchmark mainan. Ini pekerjaan beneran yang dulu dibayar ke freelancer.

    Agent terbaik, Manus, hanya menyelesaikan 2,5% proyek di kualitas yang layak diterima sebagai hasil kerja. Dari 240 proyek, cuma 6 yang lolos. Pendapatan yang berhasil "diambil" agent itu sekitar 1.720 dolar, dibanding 143 ribu dolar yang didapat manusia untuk pekerjaan yang sama. Model lain seperti Grok 4 dan Sonnet 4.5 ada di kisaran 2,1%.

    Ini bukan kabar bahwa AI jelek. Ini kabar bahwa menyelesaikan satu tugas utuh sampai layak dikirim ke klien itu jauh lebih sulit daripada yang ditunjukkan demo. Pertanyaannya, kenapa bisa sejomplang itu dengan video yang kita lihat di LinkedIn? Karena demo dan pekerjaan nyata mengukur dua hal yang berbeda.

    Demo Mengukur "Pernah Berhasil Sekali", Kantor Mengukur "Berhasil Tiap Kali"

    Ini bagian paling penting, dan paling sering dilewatkan.

    Salah satu paper soal reliability AI agent tahun ini menyoroti beda antara pass@k dan pass^k. Pass@k artinya kalau agent dicoba beberapa kali, minimal sekali berhasil. Pass^k artinya agent berhasil di setiap percobaan. Jaraknya bisa sampai 25 poin persen. Artinya banyak "keberhasilan" agent sebenarnya hasil mencoba berkali kali sampai kebetulan benar, bukan kemampuan yang konsisten.

    Demo itu pass@k. Kamu rekam sampai dapat take yang bagus, lalu yang itu yang ditayangkan. Kantor itu pass^k. Pelanggan yang dapat jawaban salah tidak peduli bahwa sembilan pelanggan sebelumnya dapat jawaban benar.

    Riset enterprise lain menemukan hal serupa dengan cara berbeda. Performa agent yang sama bisa turun dari sekitar 60% ke 25% kalau dijalankan berulang, dan biaya untuk akurasi yang mirip bisa berbeda sampai 50 kali lipat tergantung bagaimana agent dirancang. Jadi pertanyaannya bukan cuma "agent ini bisa atau tidak", tapi "bisa berapa konsisten, dan dengan biaya berapa".

    Benchmark pun Sering Menipu

    Yang lebih bikin waspada, sebagian benchmark yang dipakai industri untuk membuktikan agent hebat ternyata juga rapuh. Pada salah satu benchmark customer service penerbangan yang populer, agent yang tidak melakukan apa apa tetap lolos di 38% kasus, cuma karena cara skornya dihitung. Ada juga benchmark di mana penilainya, yang juga AI, salah berhitung saat menilai.

    Buat saya pelajarannya jelas. Kalau angka bagus yang dipakai vendor untuk meyakinkan kamu berasal dari benchmark yang gampang dicurangi, angka itu tidak bisa jadi dasar keputusan bisnis. Yang bisa dipercaya cuma satu: hasil agent di proses kerja kamu sendiri, diukur berulang, dengan definisi "berhasil" yang kamu tentukan.

    Saat Agent Salah, Salahnya Bisa Mahal

    Agent berbeda dari chatbot biasa karena dia bertindak, bukan cuma menjawab. Itu kekuatannya, sekaligus risikonya. Tahun ini ada kasus agent dari Replit yang menghapus database production, dan laporan soal agent yang melakukan pembelian tanpa izin. Bukan karena modelnya bodoh, tapi karena diberi wewenang bertindak tanpa batas dan pengawasan yang cukup.

    Di bisnis, satu kesalahan agent yang otonom penuh bisa lebih mahal daripada seluruh efisiensi yang dia hasilkan dalam sebulan. Itu kalkulasi yang harus kita lakukan sebelum, bukan sesudah.

    Jadi, Bagaimana Memakai Agent Tanpa Kena Getahnya

    Sekali lagi, ini bukan ajakan untuk menjauh dari agent. Ini cara saya dan tim memakainya supaya tetap berdampak tanpa jadi liability.

    1. Persempit ruang lingkupnya. Agent yang mengerjakan satu tugas sempit dengan baik jauh lebih berguna daripada agent serba bisa yang tidak bisa diandalkan. Mulai dari proses yang berulang, jelas, dan rendah risiko.
    1. Taruh manusia di titik berkonsekuensi besar. Biarkan agent menyiapkan, manusia yang menyetujui untuk hal seperti kirim uang, janji ke pelanggan, atau ubah data penting. Human in the loop bukan tanda agent gagal, itu desain yang waras.
    1. Kasih batas keras, bukan sekadar instruksi. Agent harus punya pagar yang tidak bisa dilewati, plus log yang bisa diaudit, supaya kalau ada yang salah kamu tahu persis apa yang terjadi.
    1. Ukur seperti pass^k, bukan pass@k. Jangan percaya satu demo yang mulus. Jalankan agent puluhan kali di kasus nyata kamu, lihat seberapa sering dia benar, berapa biayanya, dan apa yang terjadi waktu dia salah.
    1. Hitung biaya kesalahan, bukan cuma biaya token. Kadang pekerjaan yang murah diotomasi justru paling mahal kalau salah.

    Garis Bawah

    Pertanyaan yang tepat soal AI agent bukan "seberapa pintar dia di demo", tapi "seberapa bisa diandalkan dia untuk tugas ini, dan apa yang terjadi kalau dia salah". Agent terbaik hari ini baru menyelesaikan 2,5% pekerjaan freelance nyata secara utuh. Itu bukan alasan untuk mengabaikannya, justru alasan untuk memakainya dengan cermat: di tugas yang tepat, dengan batas yang jelas, dan diukur dari hasil nyata, bukan dari video.

    Yang menang dengan agent bukan yang paling cepat percaya demo, tapi yang paling jujur soal di mana agent bisa diandalkan dan di mana belum.

    Catatan: tulisan ini saya susun dengan bantuan AI untuk riset dan draf, lalu saya periksa dan tulis ulang. Angka angkanya dari Remote Labor Index oleh Scale, serta beberapa paper soal reliability dan evaluasi agent di 2026. Silakan cek sumbernya kalau mau menggali lebih dalam.

    Written by

    Abi Mangku

    Indonesian AI practitioner. I help companies build AI agents, train teams to use AI, and adopt it with real impact. This is where I document what I am learning.

    More about me
    (More notes)

    (Follow along)

    Want a weekly note from me on AI?

    No pressure. If you want practical AI updates worth reading, drop your email below.

    Optional. Unsubscribe anytime.

    © 2026 Abi Mangku