Mengapa “URL Discovery dari Arsip” tetap krusial di 2025

Buat security research, DFIR, competitive intel, kita butuh peta URL yang lengkap—bukan hanya yang “terlihat” hari ini. Arsip web menyimpan jejak struktur lama, sedangkan sitemap/robots memberi daftar resmi dari pemilik situs. Menggabungkan keduanya menghasilkan inventaris URL yang kaya konteks dan bisa ditindaklanjuti.

Sumber data & apa yang kita tarik atau kita cari

1) Wayback Machine (CDX API)

CDX API mengembalikan indeks tangkapan (capture) dengan filter fleksibel: pola kecocokan (domain/prefix/host), rentang waktu, status HTTP, format JSON, serta fitur collapse untuk kurangi duplikasi. Ideal untuk memetakan evolusi struktur URL per domain yang ada sekarang maupun yang sudah lama untuk melihat perbandingan atau melihat kemungkinan tulisan non-publik terekspos.

curl 'https://web.archive.org/cdx/search/cdx url=*.example.com/*&matchType=domain&from=2015&to=2025&filter=statuscode:200&output=json&collapse=urlkey'

Catatan: pola wildcard dan matchType sama-sama didukung; jangan set keduanya bertentangan.

2) GAU (GetAllUrls)

GAU mengumpulkan URL dari beberapa sumber publik: AlienVault OTX, Wayback Machine, Common Crawl, dan URLScan. Cocok untuk seed collection cepat sebelum disaring/dinormalisasi.

go install github.com/lc/gau/v2/cmd/gau@latest

printf 'example.com' | gau --subs --providers wayback,commoncrawl,otx,urlscan --o gau_raw.txt

Referensi paket & opsi bawaan tersedia di dokumentasi GAU.

3) Robots.txt & Sitemap (daftar resmi)

robots.txt: mendefinisikan izin crawl berbasis path (Allow, Disallow). Lokasi harus di akar host: https://example.com/robots.txt.
Sitemap: format XML standar (<urlset>, <url>, <loc>, opsional <lastmod>). Bisa dideklarasikan via baris Sitemap: di robots.txt atau diserahkan melalui Search Console.

4) Common Crawl (opsional)

Indeks Common Crawl bisa diquery untuk riwayat fetch berskala besar; ada klien & API indeks untuk mengambil daftar URL terkait domain tertentu.

5) Memento (opsional, versi per waktu)

Protokol Memento (RFC 7089) menyediakan datetime negotiation, TimeGate, dan TimeMap untuk mengambil representasi halaman di waktu tertentu—berguna untuk verifikasi kontekstual.

Workflow praktis: dari pengumpulan sampai siap pakai.

1. Tarik historis via CDX API

Mulai dari cakupan domain atau host.
Filter status (mis. statuscode:200) dan batasi rentang tahun agar fokus.
Gunakan collapse=urlkey untuk deduplikasi awal.

2. Gabungkan dengan GAU

Jalankan --subs untuk menyertakan subdomain.
Gunakan --providers untuk transparansi asal data.
Saring ekstensi biner non-prioritas (gambar/font) agar hemat proses.

3. Tarik daftar resmi dari sitemap

Ambil lokasi sitemap dari robots.txt (Sitemap:).
Unduh semua sitemap (termasuk sitemap-index), parse <loc>, gabungkan.

4. Normalisasi & deduplikasi

Samakan skema (prefer https), lowercase host, hapus fragmen #, urutkan query param jika diperlukan.
Sort-unique untuk hilangkan duplikasi.
Simpan sumber asal per-URL (CDX/GAU/Sitemap) untuk traceability.

5. Skoring prioritas (rekomendasi)

Konsensus lintas sumber: URL yang muncul di CDX+GAU+Sitemap > prioritas.
Kebaruan: jadikan timestamp capture Wayback terbaru sebagai sinyal.
Kedalaman path: path terlalu dalam sering bernilai lebih rendah untuk tahap awal.

6. Validasi bertahap & enrichment secukupnya

Liveness check dengan rate limiting ketat.
Pencarian teknologi hanya pada sampel prioritas dan patuhi robots saat melakukan active crawl.

Masalah umum & cara antisipasi

Duplikasi berlebihan → pakai collapse di CDX, normalize agresif, dan source vote.
Sitemap tidak ditemukan → cek robots.txt; jika kosong, coba lokasi umum /<sitemap>.xml atau submit via Search Console.
Perbedaan interpretasi robots antar crawler → tetap uji pada crawler target; sintaks bisa ditafsirkan berbeda.

Menggabungkan Wayback/CDX, GAU, dan robots.txt/sitemap menghasilkan peta URL yang jauh lebih lengkap dibanding crawling biasa. Banyak endpoint warisan dan jalur tersembunyi yang muncul, sementara pendekatannya tetap pasif, terukur, dan mudah direplikasi.

Nilai kunci ada di traceability: tiap URL punya asal-usul yang jelas (arsip vs daftar resmi), dari waktu ke waktu, dan frekuensi kemunculan lintas sumber. Dengan normalisasi, deduplikasi, dan skoring (konsensus lintas sumber, kebaruan, kedalaman path), hasilnya bukan sekadar daftar, melainkan inventaris siap aksi—mulai dari liveness check, review konfigurasi, sampai prioritisasi pengujian.

Secara praktis, jadikan proses ini pipeline berkala: tarik data (CDX/GAU/sitemap), bersihkan dan beri skor, simpan bersama metadata, lalu audit batch berisiko tinggi lebih dulu. Attack surface map tetap aktual mengikuti perubahan situs, sambil menjaga etika: rate-limit, hormati robots saat crawl aktif, dan dokumentasikan parameter. Hasil akhirnya: kerja security/SEO lebih presisi, lebih cepat, dan lebih bertanggung jawab.

Ethical Hacking Indonesia

URL Discovery dari Arsip (Wayback/GAU) + Robots/Sitemap: Panduan Teknis (2025)