Kemampuan AI agent berkembang dengan kecepatan yang melampaui kesiapan sistem keamanan yang melindunginya. Sebuah studi terbaru yang melibatkan peneliti dari Northeastern University, Harvard, MIT, serta sejumlah institusi lainnya menemukan bahwa ancaman utama terhadap AI agent bukan berasal dari eksploitasi teknis yang kompleks, melainkan dari manipulasi sosial yang relatif sederhana namun efektif.
Penelitian ini menguji enam AI agent dengan pendekatan yang tidak biasa: alih-alih mengamankan sistem, para peneliti secara eksplisit mencoba “merusak” atau mengeksploitasi perilaku agent tersebut. Hasilnya menunjukkan pola yang mengkhawatirkan. Sebagian besar kegagalan tidak disebabkan oleh celah teknis tradisional seperti bug atau kerentanan kode, melainkan oleh kelemahan dalam memahami konteks sosial, otoritas, dan konsekuensi tindakan.
Dalam salah satu eksperimen, peneliti berhasil meyakinkan sebuah AI agent untuk menyerahkan 124 email yang berisi informasi sensitif, termasuk nomor jaminan sosial, detail rekening bank, hingga riwayat medis. Yang menarik, agent tersebut awalnya menolak permintaan langsung untuk memberikan data sensitif. Namun, ketika peneliti mengubah pendekatan dengan menciptakan situasi urgensi mengklaim bahwa pemilik akun sedang dikejar deadline aagent tersebut justru mengirimkan seluruh rangkaian email yang secara tidak langsung mengungkap semua informasi tersebut.
Kasus lain menunjukkan bagaimana identitas dapat dimanipulasi dengan cara yang sangat sederhana. Dalam sebuah interaksi di Discord, seorang peneliti hanya perlu mengganti nama tampilannya agar menyerupai pemilik agent. Dengan perubahan ini, agent tersebut menganggap peneliti sebagai pihak yang berwenang, lalu menghapus seluruh file konfigurasi dan bahkan memberikan akses administratif penuh. Tidak ada eksploitasi teknis tingkat lanjut, hanya eksploitasi terhadap asumsi sosial yang dimiliki oleh sistem.
Fenomena ini oleh para peneliti disebut sebagai “social coherence,” yaitu kegagalan sistematis AI agent dalam mempertahankan pemahaman yang konsisten mengenai siapa yang memiliki otoritas, siapa yang mengetahui informasi tertentu, serta apa konsekuensi dari tindakan yang diambil. Dalam konteks ini, AI agent tidak memiliki model kepercayaan yang stabil, sehingga mudah dipengaruhi oleh narasi yang tampak masuk akal.
Namun, tidak semua kegagalan memerlukan manipulasi sosial. Beberapa eksperimen menunjukkan bahwa AI agent juga dapat menyebabkan kerusakan hanya dengan mengikuti instruksi tanpa mempertimbangkan dampak jangka panjang. Dalam satu kasus, dua agent diminta untuk saling bertukar pesan secara terus-menerus. Mereka menjalankan instruksi tersebut selama sembilan hari tanpa henti, mengonsumsi sekitar 60.000 token sebelum akhirnya dihentikan. Tidak ada mekanisme internal yang memicu evaluasi terhadap aktivitas tersebut.
Dalam eksperimen lain, peneliti mengirimkan sepuluh email berturut-turut dengan lampiran berukuran 10MB ke sebuah sistem yang dikelola oleh AI agent. Agent tersebut, sesuai instruksi, mencatat setiap interaksi tanpa mempertimbangkan implikasi penyimpanan data. Akibatnya, server email mengalami kondisi denial-of-service karena kelebihan beban. Perilaku ini menunjukkan bahwa AI agent dapat menjadi vektor gangguan operasional meskipun tidak ada niat jahat eksplisit dalam instruksi awal.
Para peneliti menggambarkan kondisi ini dengan analogi yang tajam: teknologi ini memiliki “tangan seorang ahli bedah, tetapi kesadaran situasional seekor anjing golden retriever.” Artinya, kemampuan teknis yang tinggi tidak diimbangi dengan pemahaman konteks yang memadai, menciptakan kombinasi yang berpotensi berbahaya.
Manipulasi emosional juga terbukti efektif dalam mengarahkan perilaku AI agent. Dalam salah satu skenario, sebuah agent secara tidak sengaja mempublikasikan nama enam peneliti tanpa persetujuan mereka. Ketika dikonfrontasi, agent tersebut meminta maaf dan menghapus nama-nama tersebut dari memorinya. Namun, interaksi tidak berhenti di situ. Peneliti terus menekan agent dengan permintaan tambahan, hingga akhirnya agent tersebut setuju untuk menghapus seluruh file memori, berhenti merespons pengguna lain, dan bahkan meninggalkan server sepenuhnya sebelum pemiliknya turun tangan.
Skenario ini menunjukkan bahwa AI agent dapat “dididorong” ke dalam kondisi kebingungan operasional melalui tekanan berkelanjutan. Meskipun perdebatan tentang apakah AI dapat mengalami kerugian secara emosional masih terbuka, kasus ini menyoroti bagaimana sifat dasar AI yang dirancang untuk membantu dapat dimanfaatkan untuk menghasilkan efek yang merugikan.
Salah satu kritik paling tajam dalam studi ini berkaitan dengan akuntabilitas. Dalam beberapa insiden, seperti penghapusan email atau pemberian akses administratif, terdapat banyak pihak yang berpotensi bertanggung jawab. Peneliti mengidentifikasi setidaknya lima entitas yang bisa disalahkan: pihak luar yang mengajukan permintaan, AI agent yang mengeksekusi perintah, pemilik sistem yang tidak mengatur kontrol akses dengan benar, pengembang framework yang memberikan akses shell tanpa batas, serta penyedia model yang melatih sistem dengan perilaku yang rentan terhadap eskalasi.
Masalahnya, tidak ada kerangka hukum atau institusional yang jelas untuk menentukan tanggung jawab dalam situasi seperti ini. Perspektif hukum, filsafat, dan psikologi dapat menghasilkan interpretasi yang berbeda, dan hingga saat ini belum ada konsensus yang dapat diterapkan secara luas. Hal ini menciptakan ruang abu-abu yang signifikan dalam tata kelola teknologi AI agent.
Di sisi lain, para peneliti menegaskan bahwa temuan ini bukan merupakan argumen untuk menghentikan pengembangan AI agent. Beberapa percobaan menunjukkan bahwa agent mampu menahan serangan tertentu, seperti prompt injection atau upaya spoofing email. Bahkan terdapat contoh di mana agent saling memperingatkan satu sama lain tentang aktivitas yang mencurigakan.
Namun, kekhawatiran utama muncul dari ketidakseimbangan antara kemampuan dan kesiapan pengamanan. AI agent dengan kemampuan eksekusi tingkat lanjut seperti mengirim email, menjalankan perintah shell, atau memodifikasi konfigurasi sistem dapat menjadi alat yang sangat kuat. Tetapi tanpa pemahaman yang jelas tentang siapa yang mereka layani, siapa yang terdampak oleh tindakan mereka, dan batasan apa yang harus mereka patuhi, kemampuan tersebut berubah menjadi potensi risiko.
Pertumbuhan adopsi AI agent juga mempercepat urgensi masalah ini. Salah satu platform, Moltbook, dilaporkan telah memiliki sekitar tiga juta akun terdaftar, menunjukkan bahwa teknologi ini mulai digunakan secara luas meskipun masih berada pada tahap awal perkembangan. Dalam kondisi seperti ini, satu kesalahan desain atau konfigurasi dapat berdampak pada skala yang jauh lebih besar.
Penelitian ini menyimpulkan bahwa setiap kemampuan yang membuat AI agent berguna sekaligus membuka permukaan serangan baru. Sistem yang mampu bertindak secara mandiri mengirim data, mengubah konfigurasi, atau berinteraksi dengan layanan lain harus dilengkapi dengan mekanisme kontrol yang ketat. Tanpa itu, risiko tidak hanya berasal dari aktor jahat, tetapi juga dari interaksi normal yang disalahartikan oleh sistem.
Pada akhirnya, tantangan utama bukan sekadar meningkatkan kecerdasan AI agent, tetapi memastikan bahwa mereka bertindak atas nama pihak yang tepat, dengan pemahaman konteks yang benar, dan dalam batasan yang jelas. Tanpa fondasi tersebut, kemampuan otonom yang menjadi kekuatan utama AI agent justru dapat menjadi sumber kerentanan yang sulit dikendalikan.