El Mercurio Scraper avatar
El Mercurio Scraper

Pricing

Pay per event

Go to Apify Store
El Mercurio Scraper

El Mercurio Scraper

El Mercurio is a Chilean newspaper with editions in Valparaíso and Santiago. El Mercurio is owned by El Mercurio S.A.P., which operates a network of 19 regional dailies and 32 radio stations across the country. Political alignment: Right-wing, conservative, liberal conservative, economic liberalism

Pricing

Pay per event

Rating

0.0

(0)

Developer

Dev Kua

Dev Kua

Maintained by Community

Actor stats

0

Bookmarked

2

Total users

1

Monthly active users

2 days ago

Last modified

Categories

Share

🗞️ El Mercurio Smart Scraper

🇨🇱 Español

Descripción

Extractor inteligente para el diario digital El Mercurio de Chile. Descubre automáticamente las secciones disponibles desde la página principal y extrae artículos de manera eficiente.

Características principales:

  • Descubrimiento automático de secciones desde la homepage
  • 3 modos de extracción: Scheduled, Latest, Today
  • Manejo inteligente de redirecciones (enlaces directos y "Latest")
  • Filtrado de revistas (incluir/excluir)
  • Selección personalizada de secciones
  • Extracción completa de artículos con título, autor, fecha y contenido

Modos de Extracción

  1. SCHEDULED (Recomendado) - Solo extrae secciones que se publican el día actual según el calendario de publicación
  2. LATEST - Extrae el contenido más reciente disponible de cada sección
  3. TODAY - Solo extrae secciones publicadas estrictamente hoy

Secciones Soportadas

Secciones Diarias:

  • A (Portada)
  • B (Economía y Negocios)
  • C (Nacional)
  • P (Deportes)
  • DCST-B (Finanzas & Tecnología)

Secciones Especiales:

  • ME-I (Innovación)
  • S (Salud)
  • R (Reportajes)
  • E (Artes y Letras)
  • T (Crónica para el Futuro)
  • F (Clasificados)

Revistas:

  • EMSU (Revista Campo)
  • RVYA (Revista Ya)
  • WIXX (WikinSábado)
  • RVSB (Revista Sábado)
  • RVVI (Revista Vivienda y Decoración)
  • RVYC (Revista Yacimientos)

Parámetros de Entrada

{
"mode": "scheduled",
"maxArticlesPerSection": 10,
"includeMagazines": true,
"sections": []
}
  • mode: Modo de extracción (scheduled, latest, today)
  • maxArticlesPerSection: Número máximo de artículos por sección (1-100)
  • includeMagazines: Incluir revistas (true/false)
  • sections: Lista personalizada de secciones (opcional)

Ejemplo de Uso

// Configuración básica
{
"mode": "scheduled",
"maxArticlesPerSection": 20,
"includeMagazines": true
}
// Solo noticias (sin revistas)
{
"mode": "latest",
"maxArticlesPerSection": 15,
"includeMagazines": false
}
// Secciones específicas
{
"mode": "latest",
"maxArticlesPerSection": 10,
"sections": ["A", "B", "C"]
}

Datos Extraídos

Cada artículo incluye:

  • url: URL del artículo
  • title: Título del artículo
  • author: Autor (si está disponible)
  • date: Fecha de publicación
  • section: Sección del diario
  • bodyText: Contenido completo del artículo
  • discoveredFrom: Metadata de descubrimiento

IMPORTANTE: LEA CUIDADOSAMENTE ANTES DE USAR

Este scraper se proporciona únicamente con fines educativos y de investigación. Al utilizar esta herramienta, usted acepta lo siguiente:

Responsabilidad del Usuario

  1. Uso Personal: Esta herramienta está diseñada para uso personal, educativo o de investigación académica.

  2. Derechos de Autor: El contenido extraído de El Mercurio está protegido por derechos de autor. El usuario es el único responsable de:

    • Respetar los derechos de propiedad intelectual
    • Cumplir con los términos de servicio de El Mercurio
    • No redistribuir contenido comercialmente
    • Citar apropiadamente la fuente
  3. Términos de Servicio: Es responsabilidad del usuario:

    • Revisar y cumplir con los términos de servicio de elmercurio.com
    • Verificar que su uso esté permitido según la legislación chilena
    • Respetar las políticas de robots.txt del sitio
  4. Uso Ético: El usuario debe:

    • No sobrecargar los servidores con solicitudes excesivas
    • Usar la herramienta de manera responsable y ética
    • No utilizar los datos para fines ilegales o no autorizados

Limitación de Responsabilidad

  • Los desarrolladores de este scraper NO se hacen responsables del uso que los usuarios hagan de esta herramienta
  • El usuario asume toda la responsabilidad legal por el uso de los datos extraídos
  • Esta herramienta se proporciona "tal cual" sin garantías de ningún tipo
  • No nos hacemos responsables de cambios en la estructura del sitio que puedan afectar el funcionamiento

Recomendaciones

  • Considere suscribirse a El Mercurio para apoyar el periodismo de calidad
  • Use con moderación para no afectar el rendimiento del sitio
  • Respete el trabajo periodístico citando siempre la fuente original
  • Consulte con un abogado si tiene dudas sobre la legalidad de su uso específico

Legislación Aplicable

El web scraping en Chile está sujeto a:

  • Ley N° 17.336 sobre Propiedad Intelectual
  • Ley N° 19.628 sobre Protección de Datos Personales
  • Términos de servicio específicos de cada sitio web

Si no está de acuerdo con estos términos, NO utilice esta herramienta.


🇺🇸 English

Description

Intelligent scraper for El Mercurio Chilean digital newspaper. Automatically discovers available sections from the homepage and efficiently extracts articles.

Key Features:

  • Automatic section discovery from homepage
  • 3 extraction modes: Scheduled, Latest, Today
  • Smart redirect handling (direct and "Latest" links)
  • Magazine filtering (include/exclude)
  • Custom section selection
  • Complete article extraction with title, author, date, and content

Extraction Modes

  1. SCHEDULED (Recommended) - Only extracts sections published on the current day according to publication schedule
  2. LATEST - Extracts the most recent available content from each section
  3. TODAY - Only extracts sections published strictly today

Supported Sections

Daily Sections:

  • A (Front Page)
  • B (Economy & Business)
  • C (National)
  • P (Sports)
  • DCST-B (Finance & Technology)

Special Sections:

  • ME-I (Innovation)
  • S (Health)
  • R (Reports)
  • E (Arts & Letters)
  • T (Chronicle for the Future)
  • F (Classifieds)

Magazines:

  • EMSU (Campo Magazine)
  • RVYA (Ya Magazine)
  • WIXX (WikinSaturday)
  • RVSB (Saturday Magazine)
  • RVVI (Housing & Decoration Magazine)
  • RVYC (Yacimientos Magazine)

Input Parameters

{
"mode": "scheduled",
"maxArticlesPerSection": 10,
"includeMagazines": true,
"sections": []
}
  • mode: Extraction mode (scheduled, latest, today)
  • maxArticlesPerSection: Maximum articles per section (1-100)
  • includeMagazines: Include magazines (true/false)
  • sections: Custom section list (optional)

Usage Example

// Basic configuration
{
"mode": "scheduled",
"maxArticlesPerSection": 20,
"includeMagazines": true
}
// News only (no magazines)
{
"mode": "latest",
"maxArticlesPerSection": 15,
"includeMagazines": false
}
// Specific sections
{
"mode": "latest",
"maxArticlesPerSection": 10,
"sections": ["A", "B", "C"]
}

Extracted Data

Each article includes:

  • url: Article URL
  • title: Article title
  • author: Author (if available)
  • date: Publication date
  • section: Newspaper section
  • bodyText: Complete article content
  • discoveredFrom: Discovery metadata

IMPORTANT: READ CAREFULLY BEFORE USE

This scraper is provided for educational and research purposes only. By using this tool, you agree to the following:

User Responsibility

  1. Personal Use: This tool is designed for personal, educational, or academic research use.

  2. Copyright: Content extracted from El Mercurio is protected by copyright. The user is solely responsible for:

    • Respecting intellectual property rights
    • Complying with El Mercurio's terms of service
    • Not redistributing content commercially
    • Properly citing the source
  3. Terms of Service: It is the user's responsibility to:

    • Review and comply with elmercurio.com's terms of service
    • Verify that their use is permitted under Chilean law
    • Respect the site's robots.txt policies
  4. Ethical Use: The user must:

    • Not overload servers with excessive requests
    • Use the tool responsibly and ethically
    • Not use the data for illegal or unauthorized purposes

Limitation of Liability

  • The developers of this scraper are NOT responsible for how users employ this tool
  • The user assumes all legal responsibility for the use of extracted data
  • This tool is provided "as is" without warranties of any kind
  • We are not responsible for changes in site structure that may affect functionality

Recommendations

  • Consider subscribing to El Mercurio to support quality journalism
  • Use moderately to avoid affecting site performance
  • Respect journalistic work by always citing the original source
  • Consult a lawyer if you have questions about the legality of your specific use

Applicable Legislation

Web scraping in Chile is subject to:

  • Law No. 17,336 on Intellectual Property
  • Law No. 19,628 on Personal Data Protection
  • Specific terms of service for each website

If you do not agree with these terms, DO NOT use this tool.


🛠️ Technical Details

How It Works

  1. Phase 1: Homepage Discovery

    • Scrapes El Mercurio homepage
    • Extracts both direct and "Latest" redirect links
    • Follows redirects to resolve actual section URLs
    • Filters sections based on user preferences
  2. Phase 2: Section Scraping

    • Visits each discovered section page
    • Extracts article links
    • Limits articles per section as configured
  3. Phase 3: Article Extraction

    • Visits each article page
    • Extracts title, author, date, and full content
    • Handles hidden content and dynamic elements
    • Stores data in Apify dataset

Performance

  • Concurrent requests: 3-5 simultaneous pages
  • Timeout: 30-60 seconds per page
  • Typical runtime: 2-5 minutes for full scrape
  • Articles extracted: 50-200+ depending on configuration

Error Handling

  • Automatically retries failed requests
  • Skips sections that fail to load
  • Logs warnings for insufficient content
  • Continues execution even if some sections fail

📞 Support

For issues, questions, or contributions, please contact the repository maintainers.

Remember: Use this tool responsibly and ethically. Always respect copyright and terms of service.