Project Custom (Web Scraping / Ekstraksi Data) Juni 2026

Scraper TikTok Shop Indonesia

Apify actor untuk mengambil data produk publik TikTok Shop Indonesia (shop-id.tokopedia.com): harga, jumlah terjual, penjual, dan ulasan. Solver CAPTCHA bawaan, tanpa proxy, bayar per hasil.

Klien

Actor Terpublikasi

Peran

Solo Developer

Status

Live di Apify Store

Kategori

Project Custom (Web Scraping / Ekstraksi Data)

Tech Stack

Python Playwright (patchright) OpenCV Apify SDK Docker
Scraper TikTok Shop Indonesia: Apify actor untuk mengambil data produk publik TikTok Shop Indonesia (shop-id.tokopedia.com): harga, jumlah terjual, penjual, …

Ringkasan

Web scraper untuk TikTok Shop Indonesia, terbit sebagai actor berbayar di Apify Store. Setelah larangan 2023 dan merger Tokopedia, TikTok Shop Indonesia berjalan di shop-id.tokopedia.com, storefront yang dilindungi anti-bot ByteDance. Actor ini mengambil data produk publik (harga, diskon, rating, jumlah terjual, penjual, brand, gambar) dari homepage dan 28 kategori, plus detail produk lengkap dan ulasan pelanggan lewat URL.

Jalan tanpa proxy dan tanpa layanan CAPTCHA berbayar, dan ditagih per hasil. Pembeli tinggal klik Run dan cuma bayar untuk produk yang berhasil terkumpul.

Tantangan

Storefront Indonesia ini salah satu permukaan TikTok Shop yang paling sulit ditembus, dan scraper lain menghindarinya:

  • shop-id.tokopedia.com memunculkan CAPTCHA slider ByteDance pada sesi dingin yang otomatis.
  • Pemblokirannya dipicu sesi dan perilaku, bukan reputasi IP. IP residensial Indonesia asli pun tetap ditantang, jadi residential proxy saja tidak menyelesaikannya.
  • Storefront ini tidak punya pencarian kata kunci publik, jadi penargetan harus lewat kategori dan URL produk.
  • Scraper TikTok Shop populer menarget shop.tiktok.com global atau storefront US, bukan storefront Indonesia asli yang berjalan di infrastruktur Tokopedia.

Solusi

Fingerprint browser bersih

Stealth buatan tangan masih terdeteksi. Beralih ke patchright, build Playwright yang sudah di-patch, lolos 31 dari 31 tes deteksi bot di bot.sannysoft.com dan menutup celah CDP yang diperiksa ByteDance.

Menemukan endpoint, bukan menebak

Alih-alih menebak path API, setiap respons JSON dan payload server-rendered direkam di sesi nyata. Produk homepage datang lewat request products_by_component, produk kategori ter-render di dalam halaman, dan detail produk serta ulasan ada di payload halaman produk. Parser disesuaikan ke struktur asli dan divalidasi pada ratusan produk live.

Solver CAPTCHA gratis berbasis computer vision

Daripada bayar layanan solver, slider diselesaikan dengan OpenCV. Posisi celah dicari lewat edge template matching antara background puzzle dan potongannya, lalu tombol digeser dengan kurva gerak mirip manusia. Tembus sekitar 93 persen pada percobaan pertama, dan mendekati 99 persen dengan loop refresh dan retry. Diuji live ke banyak puzzle nyata.

Ekstraksi tertarget

Penelusuran kategori dan subkategori untuk cakupan luas, filter produk terlaris (minimum terjual, rating, dan rentang harga) untuk riset produk, dan mode detail yang mengembalikan deskripsi, semua gambar, varian, spesifikasi, dan ulasan dari URL produk.

Pengiriman cloud sekali klik

Dikemas sebagai Apify actor lengkap dengan Dockerfile, input schema, dan output dataset. Pembeli menjalankannya tanpa konfigurasi; CAPTCHA ditangani otomatis dan data diekspor ke JSON, CSV, atau Excel.

Hasil

  • 733 produk dalam satu run cloud dingin, dengan CAPTCHA terpecahkan otomatis dan tanpa proxy.
  • Tanpa biaya per-run untuk proxy atau pemecahan CAPTCHA, sehingga margin jual tetap tinggi di harga rendah.
  • Terbit dan dimonetisasi di Apify Store dengan harga bayar-per-hasil.
  • Menarget storefront Indonesia asli (shop-id.tokopedia.com), niche yang tidak digarap kompetitor populer.

Alasan pemilihan tech stack

  • patchright daripada playwright-stealth: menambal deteksi di level engine, termasuk celah CDP yang tidak bisa disembunyikan skrip buatan tangan.
  • Solver OpenCV daripada API berbayar: tanpa biaya per-solve, jadi actor tetap untung di harga rendah, dengan loop retry menutup kegagalan sesekali.
  • Parsing sisi server: halaman kategori dan produk menanamkan datanya di halaman, jadi dibaca langsung tanpa pencarian kata kunci yang rapuh.
  • Apify untuk pengiriman: run terkelola, storage, dan penagihan bayar-per-hasil, dengan inti portabel yang sama bisa jalan di VPS biasa.

Tangkapan Layar

Scraper TikTok Shop Indonesia: Tangkapan Layar 1

Brief singkat

Kirim scope, timeline, dan anggaran perkiraan. Saya balas dengan estimasi atau penolakan singkat kalau tidak cocok.