Mengapa “URL Discovery dari Arsip” tetap krusial di 2025
Sumber data & apa yang kita tarik atau kita cari
1) Wayback Machine (CDX API)
matchType
sama-sama didukung; jangan set keduanya bertentangan.2) GAU (GetAllUrls)
3) Robots.txt & Sitemap (daftar resmi)
- robots.txt: mendefinisikan izin crawl berbasis path (
Allow
,Disallow
). Lokasi harus di akar host:https://example.com/robots.txt
. - Sitemap: format XML standar (
<urlset>
,<url>
,<loc>
, opsional<lastmod>
). Bisa dideklarasikan via barisSitemap:
di robots.txt atau diserahkan melalui Search Console.
4) Common Crawl (opsional)
5) Memento (opsional, versi per waktu)
Workflow praktis: dari pengumpulan sampai siap pakai.
1. Tarik historis via CDX API
- Mulai dari cakupan domain atau host.
- Filter status (mis.
statuscode:200
) dan batasi rentang tahun agar fokus. - Gunakan
collapse=urlkey
untuk deduplikasi awal.
2. Gabungkan dengan GAU
- Jalankan
--subs
untuk menyertakan subdomain. - Gunakan
--providers
untuk transparansi asal data. - Saring ekstensi biner non-prioritas (gambar/font) agar hemat proses.
3. Tarik daftar resmi dari sitemap
- Ambil lokasi sitemap dari robots.txt (
Sitemap:
). - Unduh semua sitemap (termasuk sitemap-index), parse
<loc>
, gabungkan.
4. Normalisasi & deduplikasi
- Samakan skema (prefer
https
), lowercase host, hapus fragmen#
, urutkan query param jika diperlukan. - Sort-unique untuk hilangkan duplikasi.
- Simpan sumber asal per-URL (CDX/GAU/Sitemap) untuk traceability.
5. Skoring prioritas (rekomendasi)
- Konsensus lintas sumber: URL yang muncul di CDX+GAU+Sitemap > prioritas.
- Kebaruan: jadikan timestamp capture Wayback terbaru sebagai sinyal.
- Kedalaman path: path terlalu dalam sering bernilai lebih rendah untuk tahap awal.
6. Validasi bertahap & enrichment secukupnya
- Liveness check dengan rate limiting ketat.
- Pencarian teknologi hanya pada sampel prioritas dan patuhi robots saat melakukan active crawl.
Masalah umum & cara antisipasi
- Duplikasi berlebihan → pakai
collapse
di CDX, normalize agresif, dan source vote. - Sitemap tidak ditemukan → cek robots.txt; jika kosong, coba lokasi umum
/<sitemap>.xml
atau submit via Search Console. - Perbedaan interpretasi robots antar crawler → tetap uji pada crawler target; sintaks bisa ditafsirkan berbeda.
Nilai kunci ada di traceability: tiap URL punya asal-usul yang jelas (arsip vs daftar resmi), dari waktu ke waktu, dan frekuensi kemunculan lintas sumber. Dengan normalisasi, deduplikasi, dan skoring (konsensus lintas sumber, kebaruan, kedalaman path), hasilnya bukan sekadar daftar, melainkan inventaris siap aksi—mulai dari liveness check, review konfigurasi, sampai prioritisasi pengujian.
Secara praktis, jadikan proses ini pipeline berkala: tarik data (CDX/GAU/sitemap), bersihkan dan beri skor, simpan bersama metadata, lalu audit batch berisiko tinggi lebih dulu. Attack surface map tetap aktual mengikuti perubahan situs, sambil menjaga etika: rate-limit, hormati robots saat crawl aktif, dan dokumentasikan parameter. Hasil akhirnya: kerja security/SEO lebih presisi, lebih cepat, dan lebih bertanggung jawab.