Ringkasan
Web scraper untuk TikTok Shop Indonesia, terbit sebagai actor berbayar di Apify Store. Setelah larangan 2023 dan merger Tokopedia, TikTok Shop Indonesia berjalan di shop-id.tokopedia.com, storefront yang dilindungi anti-bot ByteDance. Actor ini mengambil data produk publik (harga, diskon, rating, jumlah terjual, penjual, brand, gambar) dari homepage dan 28 kategori, plus detail produk lengkap dan ulasan pelanggan lewat URL.
Jalan tanpa proxy dan tanpa layanan CAPTCHA berbayar, dan ditagih per hasil. Pembeli tinggal klik Run dan cuma bayar untuk produk yang berhasil terkumpul.
Tantangan
Storefront Indonesia ini salah satu permukaan TikTok Shop yang paling sulit ditembus, dan scraper lain menghindarinya:
shop-id.tokopedia.commemunculkan CAPTCHA slider ByteDance pada sesi dingin yang otomatis.- Pemblokirannya dipicu sesi dan perilaku, bukan reputasi IP. IP residensial Indonesia asli pun tetap ditantang, jadi residential proxy saja tidak menyelesaikannya.
- Storefront ini tidak punya pencarian kata kunci publik, jadi penargetan harus lewat kategori dan URL produk.
- Scraper TikTok Shop populer menarget
shop.tiktok.comglobal atau storefront US, bukan storefront Indonesia asli yang berjalan di infrastruktur Tokopedia.
Solusi
Fingerprint browser bersih
Stealth buatan tangan masih terdeteksi. Beralih ke patchright, build Playwright yang sudah di-patch, lolos 31 dari 31 tes deteksi bot di bot.sannysoft.com dan menutup celah CDP yang diperiksa ByteDance.
Menemukan endpoint, bukan menebak
Alih-alih menebak path API, setiap respons JSON dan payload server-rendered direkam di sesi nyata. Produk homepage datang lewat request products_by_component, produk kategori ter-render di dalam halaman, dan detail produk serta ulasan ada di payload halaman produk. Parser disesuaikan ke struktur asli dan divalidasi pada ratusan produk live.
Solver CAPTCHA gratis berbasis computer vision
Daripada bayar layanan solver, slider diselesaikan dengan OpenCV. Posisi celah dicari lewat edge template matching antara background puzzle dan potongannya, lalu tombol digeser dengan kurva gerak mirip manusia. Tembus sekitar 93 persen pada percobaan pertama, dan mendekati 99 persen dengan loop refresh dan retry. Diuji live ke banyak puzzle nyata.
Ekstraksi tertarget
Penelusuran kategori dan subkategori untuk cakupan luas, filter produk terlaris (minimum terjual, rating, dan rentang harga) untuk riset produk, dan mode detail yang mengembalikan deskripsi, semua gambar, varian, spesifikasi, dan ulasan dari URL produk.
Pengiriman cloud sekali klik
Dikemas sebagai Apify actor lengkap dengan Dockerfile, input schema, dan output dataset. Pembeli menjalankannya tanpa konfigurasi; CAPTCHA ditangani otomatis dan data diekspor ke JSON, CSV, atau Excel.
Hasil
- 733 produk dalam satu run cloud dingin, dengan CAPTCHA terpecahkan otomatis dan tanpa proxy.
- Tanpa biaya per-run untuk proxy atau pemecahan CAPTCHA, sehingga margin jual tetap tinggi di harga rendah.
- Terbit dan dimonetisasi di Apify Store dengan harga bayar-per-hasil.
- Menarget storefront Indonesia asli (
shop-id.tokopedia.com), niche yang tidak digarap kompetitor populer.
Alasan pemilihan tech stack
- patchright daripada playwright-stealth: menambal deteksi di level engine, termasuk celah CDP yang tidak bisa disembunyikan skrip buatan tangan.
- Solver OpenCV daripada API berbayar: tanpa biaya per-solve, jadi actor tetap untung di harga rendah, dengan loop retry menutup kegagalan sesekali.
- Parsing sisi server: halaman kategori dan produk menanamkan datanya di halaman, jadi dibaca langsung tanpa pencarian kata kunci yang rapuh.
- Apify untuk pengiriman: run terkelola, storage, dan penagihan bayar-per-hasil, dengan inti portabel yang sama bisa jalan di VPS biasa.