Website Siren/Siret Extract - FR avatar

Website Siren/Siret Extract - FR

Under maintenance

Pricing

$5.00 / 1,000 results

Go to Apify Store
Website Siren/Siret Extract - FR

Website Siren/Siret Extract - FR

Under maintenance

Extracts SIREN/SIRET numbers from French websites by analyzing legal pages. Automatically filters out service providers to keep only the main company.

Pricing

$5.00 / 1,000 results

Rating

0.0

(0)

Developer

My Smart Digital

My Smart Digital

Maintained by Community

Actor stats

0

Bookmarked

2

Total users

1

Monthly active users

14 days ago

Last modified

Share

Website SIREN/SIRET Extractor

Actor Apify qui crawle automatiquement les sites web pour extraire les numéros SIREN et SIRET depuis les pages légales (mentions légales).

Description

Cet actor analyse les sites web en priorisant les pages légales et de contact pour trouver et extraire les numéros SIREN (9 chiffres) et SIRET (14 chiffres) des entreprises françaises. Il filtre automatiquement les numéros des prestataires (hébergeurs, webmasters) pour ne garder que ceux de la société principale.

Fonctionnalités

  • ✅ Crawl intelligent avec priorisation des pages légales
  • ✅ Extraction automatique des SIREN/SIRET depuis plusieurs formats
  • ✅ Filtrage automatique des prestataires (hébergeurs, webmasters)
  • ✅ Support de formats variés : SIREN, SIRET, numéros TVA intracommunautaires, RCS
  • ✅ Traitement en batch de plusieurs sites
  • ✅ Gestion robuste des erreurs réseau et timeouts

Formats supportés

L'actor détecte les numéros SIREN/SIRET dans de nombreux formats :

  • SIREN: 512850421
  • SIRET: 51285042100019
  • n° 512850421 (dans un contexte RCS)
  • inscrite au RCS de Paris sous le n° 512850421
  • Registered number 418 145 140 (RCS Paris)
  • TVA INTRACOMMUNAUTAIRE : FR 94 522 167 097
  • Et bien d'autres formats...

Input

L'actor accepte un tableau de sites à analyser :

{
"sites": [
"https://example.com",
"https://another-site.com"
],
"strictValidation": false,
"timeout": 30
}

Paramètres

  • sites (requis) : Tableau d'URLs de sites web à analyser
  • strictValidation (optionnel, défaut: false) : Active la validation stricte avec l'algorithme de Luhn
  • timeout (optionnel, défaut: 30) : Timeout en secondes pour les requêtes HTTP (5-120)

Output

L'actor retourne un résumé avec les résultats pour chaque site :

{
"mode": "batch",
"total_sites": 2,
"sites_with_results": 2,
"total_siren": 2,
"total_siret": 1,
"results": [
{
"url": "https://example.com",
"siren": ["512850421"],
"siret": ["51285042100019"],
"pages_crawled": 2,
"pages_with_results": [
{
"url": "https://example.com/mentions-legales",
"siren": ["512850421"],
"siret": ["51285042100019"]
}
]
}
]
}

Comment ça marche

  1. Normalisation de l'URL : L'actor normalise l'URL (gère http/https, www, redirections)
  2. Crawl intelligent : Il priorise les pages légales et de contact
  3. Extraction : Utilise des expressions régulières avancées pour détecter les numéros
  4. Filtrage : Exclut automatiquement les numéros des prestataires (hébergeurs, webmasters)
  5. Résultat : Retourne les SIREN/SIRET de la société principale uniquement

Notes

  • L'actor s'arrête dès qu'il trouve un SIREN/SIRET pour optimiser les performances
  • Les timeouts sont automatiquement limités pour éviter les blocages
  • En cas d'erreur réseau, l'actor continue avec les autres sites