Website Siren/Siret Extract - FR
Pricing
$5.00 / 1,000 results
Website Siren/Siret Extract - FR
Extracts SIREN/SIRET numbers from French websites by analyzing legal pages. Automatically filters out service providers to keep only the main company.
Pricing
$5.00 / 1,000 results
Rating
0.0
(0)
Developer
My Smart Digital
Actor stats
0
Bookmarked
2
Total users
1
Monthly active users
14 days ago
Last modified
Categories
Share
Website SIREN/SIRET Extractor
Actor Apify qui crawle automatiquement les sites web pour extraire les numéros SIREN et SIRET depuis les pages légales (mentions légales).
Description
Cet actor analyse les sites web en priorisant les pages légales et de contact pour trouver et extraire les numéros SIREN (9 chiffres) et SIRET (14 chiffres) des entreprises françaises. Il filtre automatiquement les numéros des prestataires (hébergeurs, webmasters) pour ne garder que ceux de la société principale.
Fonctionnalités
- ✅ Crawl intelligent avec priorisation des pages légales
- ✅ Extraction automatique des SIREN/SIRET depuis plusieurs formats
- ✅ Filtrage automatique des prestataires (hébergeurs, webmasters)
- ✅ Support de formats variés : SIREN, SIRET, numéros TVA intracommunautaires, RCS
- ✅ Traitement en batch de plusieurs sites
- ✅ Gestion robuste des erreurs réseau et timeouts
Formats supportés
L'actor détecte les numéros SIREN/SIRET dans de nombreux formats :
SIREN: 512850421SIRET: 51285042100019n° 512850421(dans un contexte RCS)inscrite au RCS de Paris sous le n° 512850421Registered number 418 145 140 (RCS Paris)TVA INTRACOMMUNAUTAIRE : FR 94 522 167 097- Et bien d'autres formats...
Input
L'actor accepte un tableau de sites à analyser :
{"sites": ["https://example.com","https://another-site.com"],"strictValidation": false,"timeout": 30}
Paramètres
- sites (requis) : Tableau d'URLs de sites web à analyser
- strictValidation (optionnel, défaut:
false) : Active la validation stricte avec l'algorithme de Luhn - timeout (optionnel, défaut:
30) : Timeout en secondes pour les requêtes HTTP (5-120)
Output
L'actor retourne un résumé avec les résultats pour chaque site :
{"mode": "batch","total_sites": 2,"sites_with_results": 2,"total_siren": 2,"total_siret": 1,"results": [{"url": "https://example.com","siren": ["512850421"],"siret": ["51285042100019"],"pages_crawled": 2,"pages_with_results": [{"url": "https://example.com/mentions-legales","siren": ["512850421"],"siret": ["51285042100019"]}]}]}
Comment ça marche
- Normalisation de l'URL : L'actor normalise l'URL (gère http/https, www, redirections)
- Crawl intelligent : Il priorise les pages légales et de contact
- Extraction : Utilise des expressions régulières avancées pour détecter les numéros
- Filtrage : Exclut automatiquement les numéros des prestataires (hébergeurs, webmasters)
- Résultat : Retourne les SIREN/SIRET de la société principale uniquement
Notes
- L'actor s'arrête dès qu'il trouve un SIREN/SIRET pour optimiser les performances
- Les timeouts sont automatiquement limités pour éviter les blocages
- En cas d'erreur réseau, l'actor continue avec les autres sites