Lockdown Mode OpenAI: Arsitektur Mitigasi Prompt Injection di Level Produk - Ethical Hacking Indonesia

Prompt injection sudah lama dikenal sebagai unsolved problem di LLM security, hal ini dimungkinkan karena solusi dari prompt injection pada LLM tidak bisa diselesaikan hanya di level model. Dimana model tidak punya konteks yang cukup untuk secara konsisten membedakan instruksi yang etis dan instruksi yang di eksekusi melalui konten eksternal seperti link pada dokument pdf, hasil deep search pada internet, dan output tools, semuanya masuk kedalam konteks kepercayaan yang sama.

*team Ethical Hacking Indonesia pernah menguji dan mendapati bahwa LLM menganggap ancaman dan yang bukan ancaman sebagai sesuatu yang sulit untuk di bedakan sehingga mempengaruhi hasil atau output model.

Lockdown Mode yang dibuat oleh OpenAI tidak dirancang untuk mencegah prompt injection pada konten yang diproses ChatGPT. Model dari yang dilakukan oleh OpenAI adalah memindahkan jalur komunikasi antara user dan AI agar memiliki jalur komunikasi yang terindikasi exfiltrasi data dari Model. Hal ini dilakukan karena konteks komunikasi yang dibangun penyerang dan mesin bisa sangat kompleks untuk dijadikan sebagai pola sehingga pendekana khusus yang dilakukan yaitu dengan memblokit semua outbound Network request yang bisa digunakan sebagai jalur atau Channel eksfiltrasi.

Attack Surface yang Sebenarnya

Untuk memahami kenapa Lockdown Mode dirnacang seperti yang terjelaskan, perlu untuk memahami peta bagaimana prompt injection yang berujung ke eksfiltrasi data sebenarnya bekerja:

1. Injeksi masuk via konten eksfiltrasi, file yang diupload user berisi instruksi tersembunyi, cached web conten mengandung payload, atau dokumen yang diproses agent punya hidden text.

2. Model mengikuti instruksi injeksi, karena tidak ada mekanisme yang bisa dipahami sebagai instruksi prompt injeksi dan bukan pada level pembeda input.

3. Mode diinstruksikan mengekstrak data sensitif, dari conversation history, memory, file yang sudah diupload, atau context lain yang tersedia.

4. Data dikirim keluar, via URL parameter (images request, fetch ke external endpoint), via write action ke tool eksternal, atau via file yang dihasilkan dan bisa didownload.

step yang susah untuk diblokir yaitu 1 dan 2 jika dilihat dari pemahaman terhadap perbedaan instruksi yang aman dan tidak aman, Lockdown Mode dirancang untuk menghindari step ke-4. KAlau semua outbound Channel dimatikan, live web browsing, images retrieval dari web, file download, agent mode, canvas networking, maka bahka kalau model berhasil dimanipulasi, attacker tidak punya tempat atau jalur untuk menerima data yang diekstrak.

Anatomi Pembatasan dan Alur Pikiran Yang Dibuat Dibalik Lockdown Mode

Jadi semua pembatassan di Lockdown Mode punya flow yang spesifik dan bukan hanya dirancang untuk aman yang dimaksudkan sebagai tindakan pemblokiran.

Live Web Browsing - Cached content, ini bisa memutus jalur yang jelas merupakan URL-based exfiltartion. Kalau url dibuat untuk request ke https://attacker[.]com/collect?data=<extracted_content>, maka live browsing memunginkan tindakan itu bisa dilakukan, cached content tidak membuat outbound request baru ke domain arbitrary.

Image retrieval dari web diblokir, tindkan ini enuup satu vektor yang bisa digunaakn untuk pixel tracking dan URL-encoded exfiltration via images request. Penyerang bisa menginstruksikan model untuk membuka atau memuat gambar dari url yang sebenarnya endpoint dengan data yang diencode di query parameter atau path URL. upload gambar atau images dari user tetap bisa dilakukan ituinbound dan tidak bisadilakukan outbound.

Deep Search dimatikan, deep search secara inheren melibatkan banyak request ke berbagai domain. Setiap request merupakan potensi jalur eksfiltrasi.

Agent mode dimatikan merupakan hal yang paling signifikan dari attack surface reduction. Agent memungkinkan model menjalankan tool chains multiple tool calls dalam satu sesi, bisa menulis filesystem, membuat HTTP request,berinteraksi dengan API eksternal. Prompt injeksi di konteks agent jauh lebih berbahaya karena model punya agency yang lebih besar. Bahkan satu injeksi yang berhasil bisa memicu chain of actions yang panjang sebelum ada manusia yang menyadari.

Canvas networking, canvar-generated code yang mengakses Network merupakan jalur yang bisa membuat user mungkin tidak sadar bahwa kode yang digenerate bisa membuat outbound request saat dieksekusi. Lockdodwn Mode membutuhkan persetujuan yang eksplisit utnuk setiap Network Access dari Canvas, yang ada pada dasarnya menambahkan human-in-the-loop checkpoint.

File downloade diblokir, kalau model menghasilakn file ang berisi extracted data dan file itu bisa didownload, itu juga merupakan jalur eksfiltrasi, meski manual.

Limitasi Arsitektural yang Perlu Dipahami

Lockdown Mode tidak menyelesaikan prompt injection, melainkan menahan atau membatasi radius dari apa yang bisa dilakukan oleh prompt injection pada model LLM.

Beberapa hal yang tidak terpengaruh Lockdown Mode:

Memory tetap aktif kalau model berhasil dimanipulasi untuk menulis sesuatu ke memory, data itu persist. Ini tidak secara langsung mengirim data ke attacker, tapi kalau attacker bisa membuat user mengakses conversation yang memuat trigger untuk memory manipulation, ini bisa menjadi vektor jangka panjang.

File upload tetap bisa dilakukan user artinya injeksi via malicious document masih sangat mungkin dokumen berisi hidden instruction tetap bisa masuk ke context window. Lockdown Mode tidak melindungi dari injeksi itu sendiri, hanya dari apa yang terjadi setelah injeksi berhasil.

Code execution environment memiliki isolation model tersendiri. Lockdown Mode tidak extend ke Codex, yang berarti workflow yang melibatkan Codex punya attack surface berbeda yang perlu dievaluasi secara terpisah.

Conversation sharing tetap bisa dilakukan. Kalau model bisa dimanipulasi untuk mempengaruhi isi conversation yang kemudian dishare, itu bisa menjadi kanal meski manual dan membutuhkan tindakan tertentu dari user.

Perspektif Praktis Untuk pentester yang mengevaluasi deployment ChatGPT:

Lockdown Mode secara signifikan menutup outbound exfiltration path, tapi injeksi tetap bisa terjadi. Fokus evaluasi bergeser ke: seberapa jauh injeksi bisa mempengaruhi behavior model (bukan data exfiltration), apakah ada connector yang masih aktif dengan write action, dan apakah ada side channel via memory atau conversation sharing. Untuk managed workspace, model threat-nya adalah apakah admin telah mengikuti rekomendasi risk matrix untuk setiap connector.

Untuk developer yang menggunakan ChatGPT atau LLM lain:

Pola arsitektural yang sama bisa diadopsi: pisahkan antara mencegah injeksi (sulit, belum solved) dengan membatasi output channel (lebih deterministik). Principle of least privilege untuk tool access berlaku di sini model tidak perlu punya akses ke semua tool setiap saat. Granularitas yang lebih tinggi dalam mengontrol kapan tool bisa diakses, oleh prompt dari sumber mana, mengurangi exposure tanpa menunggu model-level fix yang mungkin tidak akan datang dalam waktu dekat.

https://thehackernews.com/2026/06/new-chatgpt-lockdown-mode-limits-tools.html

https://help.openai.com/en/articles/20001061-lockdown-mode