Amazon Products Scraper (Brasil) avatar

Amazon Products Scraper (Brasil)

Pricing

from $1.00 / 1,000 results

Go to Apify Store
Amazon Products Scraper (Brasil)

Amazon Products Scraper (Brasil)

Aplicativo que coleta automaticamente e estrutura dados de produtos disponíveis publicamente a partir de anúncios da Amazon para análise e monitoramento.

Pricing

from $1.00 / 1,000 results

Rating

0.0

(0)

Developer

Lucas Missalia

Lucas Missalia

Maintained by Community

Actor stats

0

Bookmarked

2

Total users

1

Monthly active users

7 days ago

Last modified

Categories

Share

🛒 Amazon Product Scraper (Otimizado) — Apify Actor

Um Apify Actor que extrai dados estruturados de produtos a partir das páginas de resultados de busca da Amazon usando Playwright (Chromium assíncrono), com foco em alto desempenho e estabilidade na plataforma Apify.

Versão com foco em performance: esta iteração adiciona concorrência, bloqueio de recursos e extração do DOM em passagem única para reduzir o overhead do Playwright e evitar lentidão ou travamentos sob carga.


📦 Funcionalidades

  • Coleta páginas de resultados de busca da Amazon para listagens de produtos.
  • Extrai dados ricos de produtos, incluindo preços, avaliações, informações de entrega, indícios de estoque e especificações opcionais.
  • Trata automaticamente banners de consentimento de cookies (best‑effort).
  • Aciona conteúdo carregado de forma preguiçosa (lazy‑load) com uma rolagem leve.
  • Otimizado para performance no Apify:
    • Workers concorrentes (múltiplas páginas em paralelo).
    • Bloqueia recursos pesados (imagens, fontes, estilos e mídia) para reduzir CPU/RAM e acelerar a navegação.
    • Extração em uma única chamada page.evaluate() para evitar centenas de idas e voltas do Playwright por página.
  • Detecta informações do Kindle Unlimited (quando presentes) e sinaliza disponibilidade de compra internacional (best‑effort).
  • Gera saída em JSON limpo e estruturado via dataset do Apify.

🗂️ Saída

Modelo de saída

Esta versão otimizada envia um item de dataset por produto (em lotes) e inclui a URL de busca de origem em sourceUrl.

Exemplo de item

{
"sourceUrl": "https://www.amazon.com/s?k=laptop",
"name": "Product Title",
"asin": "B09XYZ1234",
"rate": "4.5 out of 5 stars",
"rateCount": "12,345 ratings",
"description": "Short editorial or badge description",
"price": 499.99,
"currency": "$",
"originalPrice": 599.99,
"discount": "20%"
"additionalPayamentDetails": "Get R$20.00 off your first purchase on the app.",
"delivery": "Monday, Apr 22",
"shippingInformation": "Free delivery Monday, Apr 22",
"fastestDelivery": "Fastest delivery: Tomorrow",
"internationalPurchase": false,
"thumbnail": "https://m.media-amazon.com/images/...",
"link": "https://www.amazon.com/dp/B09XYZ1234",
"stockDetails": "Only 20 left in stock - order soon.",
"details": {
"screenSize": "15.6 Inches",
"ram": "16 GB",
"kindleUnlimited": "https://www.amazon.com/...",
"message": "Read for free with Kindle Unlimited"
}
}

Observações

  • stockDetails e details são opcionais e aparecem apenas quando o anúncio do produto inclui esses blocos.
  • Apenas produtos que possuem nome e preço são incluídos na saída.

⚙️ Configuração de Entrada

Configure o Actor pela interface de input do Apify ou enviando um JSON.

Campos

  • search_query (array) — Lista de valores de busca da Amazon a serem coletadas.
    • Padrão: ["notebook"]
  • locale (string) — Região onde a requisição está sendo realizada.
    • Padrão: pt-BR
  • max_pages (number) — Número máximo de páginas, nas quais será realizada a coleta de dados.
    • Padrão: 1
  • max_concurrency (number) — Número de workers/páginas em paralelo.
    • Padrão: 4
  • max_retries (number) — Número de tentativas por URL em caso de timeout ou erro.
    • Padrão: 2
  • navigation_timeout_ms (number) — Tempo limite de navegação em milissegundos.
    • Padrão: 30000

Exemplo de entrada

{
"search_query": ["teclado", "headset"],
"locale": "pt-BR",
"max_pages": 1,
"max_concurrency": 4,
"max_retries": 2,
"navigation_timeout_ms": 30000
}

🛠️ Stack Tecnológico

  • Apify SDK (Python) — Ciclo de vida do Actor, fila de requisições e saída em dataset.
  • Playwright (async) — Automação de navegador Chromium em modo headless.

🔍 Como Funciona

  1. Inicialização — O Actor lê search_query da entrada e inicializa uma fila de requisições.
  2. Navegador + Contexto — Um navegador Chromium headless é iniciado com user‑agent e viewport realistas.
  3. Roteamento de performance — As requisições são interceptadas e recursos pesados são bloqueados (fontes, estilos, mídia, imagens).
  4. Processamento concorrente — Vários workers reutilizam páginas e consomem URLs da fila simultaneamente.
  5. Processamento da página — Para cada URL, o Actor:
    • Navega até a página e aceita banners de cookies quando presentes (best‑effort).
    • Aguarda o carregamento do grid de resultados de busca da Amazon.
    • Executa uma rolagem leve para acionar o carregamento lazy‑load dos cards de produto.
  6. Extração de dados — Extrai todos os cards de produtos em uma única chamada page.evaluate() e faz o pós‑processamento dos campos (ex.: link do Kindle Unlimited).
  7. Saída — Os itens de produtos estruturados são enviados ao dataset do Apify (em lotes).

🚀 Dicas de Performance

  • Comece com max_concurrency = 2–4 e aumente gradualmente conforme a CPU/RAM do Actor.
  • Se ocorrerem timeouts, aumente navigation_timeout_ms e/ou reduza a concorrência.
  • O bloqueio de recursos pesados melhora a velocidade, mas se precisar de maior fidelidade (ex.: thumbnails garantidos), considere permitir imagens removendo image dos tipos bloqueados.

⚠️ Limitações e Observações

  • A Amazon detecta e bloqueia scrapers ativamente. Este Actor utiliza user‑agent realista e comportamento de rolagem para mitigar isso, mas os resultados podem variar conforme a região e as políticas anti‑bot atuais da Amazon.
  • O layout das páginas e os seletores da Amazon mudam com frequência; pode ser necessário atualizar os seletores no script de extração.
  • Destinado apenas a páginas de resultados de busca (ex.: /s?k=...), não a páginas de detalhes de produtos.

📄 Licença / Conformidade

Este projeto é destinado a uso pessoal e educacional. Sempre cumpra os Termos de Serviço da Amazon e as leis aplicáveis ao realizar scraping.