Kejadian seperti inilah yang coba dicegah oleh Internet Archive melalui pengarsipan sistematis dan berkelanjutan.
Seberapa Besar Skala Arsip Digital Internet Archive?
Satu Triliun Halaman Web dan Terus Bertambah
Setelah hampir 30 tahun bekerja, Internet Archive telah mengumpulkan lebih dari 866 miliar halaman web dan 41 juta dokumen digital. Kini, angka tersebut resmi menembus satu triliun situs web yang diarsipkan.
Setiap hari, sekitar 500 juta halaman baru ditambahkan ke dalam repositori mereka. Skala pertumbuhannya mencerminkan betapa cepatnya internet berkembang sekaligus betapa pentingnya upaya pelestarian ini.
Setara 100.000 Terabyte Data
Total volume data yang disimpan diperkirakan mencapai sekitar 100.000 terabyte. Untuk memberikan gambaran konkret, kapasitas tersebut setara dengan sekitar 50.000 iPhone kelas atas dengan kapasitas penyimpanan maksimum.
Angka ini menempatkan Internet Archive sebagai salah satu repositori data publik terbesar di dunia.
Bagaimana Cara Internet Archive Mengarsipkan Data?
Internet Archive menggunakan sistem pengumpul data otomatis (web crawlers) untuk mencadangkan situs web publik secara berkala. Teknologi ini memungkinkan sistem menelusuri halaman internet dan menyimpan salinannya untuk referensi di masa depan.
Selain metode otomatis, organisasi ini juga menerima kontribusi sukarelawan. Kontribusi tersebut mencakup:
- Edisi cetak buku dan dokumen,
- Rekaman audio,
- Video,
- Perangkat lunak,
- Media langka lainnya.
Model kolaboratif ini memperkuat posisi Internet Archive sebagai “perpustakaan umat manusia” dalam ranah digital.
Tantangan Baru: Ledakan Kecerdasan Buatan (AI)
Eksploitasi Data untuk Pelatihan Model AI
Di tengah keberhasilan tersebut, Internet Archive menghadapi tantangan baru dari perkembangan kecerdasan buatan (AI). Perusahaan teknologi kini secara agresif memanfaatkan data daring untuk melatih model bahasa besar (large language models).
Praktik ini sering berlangsung dalam wilayah hukum yang belum sepenuhnya jelas, terutama terkait hak cipta dan kompensasi kreator.
Pemblokiran Akses oleh Media Besar
Sebagai respons terhadap kekhawatiran hak cipta dan penggunaan konten untuk pelatihan AI, sejumlah perusahaan media besar seperti The New York Times dan The Guardian mulai membatasi atau memblokir akses terhadap alat pengarsipan.
Langkah tersebut dilakukan untuk melindungi konten dari potensi eksploitasi tanpa izin atau kompensasi memadai.




Komentar