Amazon Products Scraper (Brasil)
Pricing
from $1.00 / 1,000 results
Amazon Products Scraper (Brasil)
Aplicativo que coleta automaticamente e estrutura dados de produtos disponíveis publicamente a partir de anúncios da Amazon para análise e monitoramento.
Pricing
from $1.00 / 1,000 results
Rating
0.0
(0)
Developer
Lucas Missalia
Maintained by CommunityActor stats
0
Bookmarked
2
Total users
1
Monthly active users
7 days ago
Last modified
Categories
Share
🛒 Amazon Product Scraper (Otimizado) — Apify Actor
Um Apify Actor que extrai dados estruturados de produtos a partir das páginas de resultados de busca da Amazon usando Playwright (Chromium assíncrono), com foco em alto desempenho e estabilidade na plataforma Apify.
Versão com foco em performance: esta iteração adiciona concorrência, bloqueio de recursos e extração do DOM em passagem única para reduzir o overhead do Playwright e evitar lentidão ou travamentos sob carga.
📦 Funcionalidades
- Coleta páginas de resultados de busca da Amazon para listagens de produtos.
- Extrai dados ricos de produtos, incluindo preços, avaliações, informações de entrega, indícios de estoque e especificações opcionais.
- Trata automaticamente banners de consentimento de cookies (best‑effort).
- Aciona conteúdo carregado de forma preguiçosa (lazy‑load) com uma rolagem leve.
- Otimizado para performance no Apify:
- Workers concorrentes (múltiplas páginas em paralelo).
- Bloqueia recursos pesados (imagens, fontes, estilos e mídia) para reduzir CPU/RAM e acelerar a navegação.
- Extração em uma única chamada
page.evaluate()para evitar centenas de idas e voltas do Playwright por página.
- Detecta informações do Kindle Unlimited (quando presentes) e sinaliza disponibilidade de compra internacional (best‑effort).
- Gera saída em JSON limpo e estruturado via dataset do Apify.
🗂️ Saída
Modelo de saída
Esta versão otimizada envia um item de dataset por produto (em lotes) e inclui a URL de busca de origem em sourceUrl.
Exemplo de item
{"sourceUrl": "https://www.amazon.com/s?k=laptop","name": "Product Title","asin": "B09XYZ1234","rate": "4.5 out of 5 stars","rateCount": "12,345 ratings","description": "Short editorial or badge description","price": 499.99,"currency": "$","originalPrice": 599.99,"discount": "20%""additionalPayamentDetails": "Get R$20.00 off your first purchase on the app.","delivery": "Monday, Apr 22","shippingInformation": "Free delivery Monday, Apr 22","fastestDelivery": "Fastest delivery: Tomorrow","internationalPurchase": false,"thumbnail": "https://m.media-amazon.com/images/...","link": "https://www.amazon.com/dp/B09XYZ1234","stockDetails": "Only 20 left in stock - order soon.","details": {"screenSize": "15.6 Inches","ram": "16 GB","kindleUnlimited": "https://www.amazon.com/...","message": "Read for free with Kindle Unlimited"}}
Observações
stockDetailsedetailssão opcionais e aparecem apenas quando o anúncio do produto inclui esses blocos.- Apenas produtos que possuem nome e preço são incluídos na saída.
⚙️ Configuração de Entrada
Configure o Actor pela interface de input do Apify ou enviando um JSON.
Campos
search_query(array) — Lista de valores de busca da Amazon a serem coletadas.- Padrão:
["notebook"]
- Padrão:
locale(string) — Região onde a requisição está sendo realizada.- Padrão:
pt-BR
- Padrão:
max_pages(number) — Número máximo de páginas, nas quais será realizada a coleta de dados.- Padrão:
1
- Padrão:
max_concurrency(number) — Número de workers/páginas em paralelo.- Padrão:
4
- Padrão:
max_retries(number) — Número de tentativas por URL em caso de timeout ou erro.- Padrão:
2
- Padrão:
navigation_timeout_ms(number) — Tempo limite de navegação em milissegundos.- Padrão:
30000
- Padrão:
Exemplo de entrada
{"search_query": ["teclado", "headset"],"locale": "pt-BR","max_pages": 1,"max_concurrency": 4,"max_retries": 2,"navigation_timeout_ms": 30000}
🛠️ Stack Tecnológico
- Apify SDK (Python) — Ciclo de vida do Actor, fila de requisições e saída em dataset.
- Playwright (async) — Automação de navegador Chromium em modo headless.
🔍 Como Funciona
- Inicialização — O Actor lê
search_queryda entrada e inicializa uma fila de requisições. - Navegador + Contexto — Um navegador Chromium headless é iniciado com user‑agent e viewport realistas.
- Roteamento de performance — As requisições são interceptadas e recursos pesados são bloqueados (fontes, estilos, mídia, imagens).
- Processamento concorrente — Vários workers reutilizam páginas e consomem URLs da fila simultaneamente.
- Processamento da página — Para cada URL, o Actor:
- Navega até a página e aceita banners de cookies quando presentes (best‑effort).
- Aguarda o carregamento do grid de resultados de busca da Amazon.
- Executa uma rolagem leve para acionar o carregamento lazy‑load dos cards de produto.
- Extração de dados — Extrai todos os cards de produtos em uma única chamada
page.evaluate()e faz o pós‑processamento dos campos (ex.: link do Kindle Unlimited). - Saída — Os itens de produtos estruturados são enviados ao dataset do Apify (em lotes).
🚀 Dicas de Performance
- Comece com
max_concurrency = 2–4e aumente gradualmente conforme a CPU/RAM do Actor. - Se ocorrerem timeouts, aumente
navigation_timeout_mse/ou reduza a concorrência. - O bloqueio de recursos pesados melhora a velocidade, mas se precisar de maior fidelidade (ex.: thumbnails garantidos), considere permitir imagens removendo
imagedos tipos bloqueados.
⚠️ Limitações e Observações
- A Amazon detecta e bloqueia scrapers ativamente. Este Actor utiliza user‑agent realista e comportamento de rolagem para mitigar isso, mas os resultados podem variar conforme a região e as políticas anti‑bot atuais da Amazon.
- O layout das páginas e os seletores da Amazon mudam com frequência; pode ser necessário atualizar os seletores no script de extração.
- Destinado apenas a páginas de resultados de busca (ex.:
/s?k=...), não a páginas de detalhes de produtos.
📄 Licença / Conformidade
Este projeto é destinado a uso pessoal e educacional. Sempre cumpra os Termos de Serviço da Amazon e as leis aplicáveis ao realizar scraping.