Millesima Wine Scraper avatar
Millesima Wine Scraper

Pricing

$1.00 / 1,000 results

Go to Apify Store
Millesima Wine Scraper

Millesima Wine Scraper

Extract wine data from Millesima.fr: names, prices, vintages, regions, appellations, colors, and critic ratings (Robert Parker, Wine Spectator, Decanter). Perfect for wine market analysis, price monitoring, and building wine databases.

Pricing

$1.00 / 1,000 results

Rating

0.0

(0)

Developer

Emmanuel

Emmanuel

Maintained by Community

Actor stats

0

Bookmarked

2

Total users

1

Monthly active users

11 days ago

Last modified

Categories

Share

Scraper Apify pour extraire les données des vins du site millesima.fr.

Fonctionnalités

Extrait les informations suivantes pour chaque vin :

  • Nom du vin - Nom complet incluant le château/domaine
  • Prix - Prix en euros TTC
  • Millésime - Année de production
  • Région - Région viticole (Bordeaux, Bourgogne, etc.)
  • Appellation - Appellation d'origine
  • Couleur - Rouge, Blanc, Rosé
  • Notes - Notations des critiques (Robert Parker, Wine Spectator, Decanter, etc.)
  • URL - Lien vers la page produit

Installation

Prérequis

  • Python 3.11+
  • Compte Apify (pour le déploiement)

Installation locale

# Cloner le repository
git clone <repo-url>
cd millesima-scraper
# Créer un environnement virtuel
python -m venv venv
source venv/bin/activate # Linux/Mac
# ou
venv\Scripts\activate # Windows
# Installer les dépendances
pip install -r requirements.txt

Utilisation

Exécution locale

$python -m src.main

Déploiement sur Apify

# Installer Apify CLI
npm install -g apify-cli
# Se connecter
apify login
# Déployer l'acteur
apify push

Configuration

Le scraper accepte les paramètres suivants :

ParamètreTypeDefaultDescription
startUrlsarray[{"url": "https://www.millesima.fr/tous-nos-vins.html"}]URLs de départ
maxItemsinteger100Nombre max de vins (0 = illimité)
maxPagesPerCategoryinteger10Pages max par catégorie
proxyConfigurationobject{"useApifyProxy": true}Configuration proxy

Exemple d'entrée

{
"startUrls": [
{ "url": "https://www.millesima.fr/bordeaux.html" },
{ "url": "https://www.millesima.fr/bourgogne.html" }
],
"maxItems": 500,
"maxPagesPerCategory": 20
}

Exemple de sortie

{
"name": "Château Margaux 2019",
"price": 589.00,
"vintage": 2019,
"region": "Bordeaux",
"appellation": "Margaux",
"color": "Rouge",
"ratings": {
"Robert Parker": "98-100",
"Wine Spectator": "97"
},
"url": "https://www.millesima.fr/chateau-margaux-2019.html"
}

Structure du projet

millesima-scraper/
├── .actor/
│ ├── actor.json # Configuration Apify
│ ├── Dockerfile # Image Docker
│ └── input_schema.json # Schéma des entrées
├── src/
│ ├── __init__.py
│ └── main.py # Code principal du scraper
├── requirements.txt # Dépendances Python
├── .gitignore
└── README.md

Notes techniques

  • Utilise BeautifulSoup avec le parser lxml pour le parsing HTML
  • Extraction des données via JSON-LD et parsing HTML
  • Rate limiting intégré pour éviter le blocage
  • Support des proxies Apify pour la rotation d'IP

Critiques supportés

Le scraper extrait les notes des critiques suivants :

  • RP - Robert Parker
  • JR - Jeb Dunnuck
  • DE - Decanter
  • WS - Wine Spectator
  • JS - James Suckling
  • VG - Vinous
  • NM - Neal Martin
  • AG - Antonio Galloni

Licence

MIT