Extraire n° Siren de sites web ou noms de domaine avatar

Extraire n° Siren de sites web ou noms de domaine

Pricing

Pay per usage

Go to Apify Store
Extraire n° Siren de sites web ou noms de domaine

Extraire n° Siren de sites web ou noms de domaine

Obtenez le numéro de Siren, le numéro de Siret ou la TVA intracommunautaire attribués aux entreprises françaises par Infogreffe et l'Insee. Entrez une liste de sites web ou noms de domaine et récupérer les informations légales relatives à l'entreprise

Pricing

Pay per usage

Rating

0.0

(0)

Developer

Sambzh

Sambzh

Maintained by Community

Actor stats

0

Bookmarked

5

Total users

2

Monthly active users

4 days ago

Last modified

Share

SIREN Extractor

Identifiez rapidement les numéros SIREN associés aux éditeurs de n'importe quel site web français, en volume et sans configuration complexe.

Fournissez une liste d'URLs ou de noms de domain, l'acteur navigue au sein de chaque site et extrait le numéro de SIREN à partir du moment où celui-ci y figure. Chaque site produit une ligne JSON structurée, prête à être croisée avec Pappers, l'INSEE ou Infogreffe.


SIREN, SIRET et TVA intracommunautaire

Le numéro SIREN

Le SIREN (Système d'Identification du Répertoire des ENtreprises) est l'identifiant unique attribué à chaque entreprise ou personne morale immatriculée en France. Il est délivré par l'INSEE lors de la création de l'entité et reste inchangé tout au long de sa vie, quelles que soient les modifications de dénomination, d'adresse ou d'activité.

Il se compose de 9 chiffres, généralement présentés en trois blocs de trois :

572 154 286
^^^^^^^^^^^
9 chiffres : identifiant unique de l'entreprise

Le SIREN est le socle des données légales françaises : il permet d'accéder aux informations officielles d'une entreprise sur les registres publics (Infogreffe, Pappers, Annuaire des Entreprises, BODACC). Toute société, association assujettie, auto-entrepreneur ou groupement d'intérêt économique exerçant une activité en France est tenu d'en disposer.

Obligation légale : Les sites web d'entreprises sont tenus d'afficher leur numéro SIREN dans leurs mentions légales (décret n° 2004-575 du 21 juin 2004 pour la confiance dans l'économie numérique).


Le numéro SIRET

Le SIRET (Système d'Identification du Répertoire des ETablissements) identifie un établissement précis d'une entreprise. Là où le SIREN désigne la personne morale dans son ensemble, le SIRET désigne un lieu d'exercice particulier : siège social, usine, agence, entrepôt…

Il se compose de 14 chiffres : le SIREN de l'entreprise suivi d'un NIC (Numéro Interne de Classement) à 5 chiffres qui identifie l'établissement au sein de l'entreprise.

572 154 286 00017
^^^^^^^^^^^ ^^^^^
SIREN NIC
9 chiffres 5 chiffres = établissement spécifique

Une entreprise possède autant de SIRET que d'établissements. L'établissement principal (siège social) est généralement désigné par le NIC 00001 ou la première valeur attribuée à la création. La fermeture d'un établissement entraîne la radiation de son SIRET, sans affecter le SIREN ni les autres établissements.


La TVA intracommunautaire

Le numéro de TVA intracommunautaire (aussi appelé numéro de TVA intra-UE) est l'identifiant fiscal utilisé pour les échanges commerciaux entre entreprises assujetties à la TVA au sein de l'Union européenne. Il est obligatoire sur toutes les factures B2B transfrontalières.

Pour les entreprises françaises, il est calculé algorithmiquement à partir du SIREN selon la formule suivante :

FR + clé de 2 caractères + SIREN à 9 chiffres

La clé est obtenue par l'opération : (12 + 3 × (SIREN modulo 97)) modulo 97, puis formatée sur 2 caractères. Le préfixe FR identifie le pays d'immatriculation conformément à la norme ISO 3166-1.

FR 12 572154286
^^ ^^ ^^^^^^^^^
| | SIREN (9 chiffres)
| Clé de contrôle (2 chiffres calculés)
Préfixe pays (ISO 3166-1)

À noter : Contrairement au SIREN et au SIRET qui sont publics et consultables librement, le numéro de TVA intracommunautaire peut être vérifié via le service VIES (VAT Information Exchange System) de la Commission européenne.


Input

Seul le champ websites est obligatoire.

ParamètreTypeDéfautDescription
websitesstring[]Obligatoire. Liste des URLs à traiter. Accepte les domaines nus (example.fr), avec ou sans https://.
maxConcurrencyinteger10Nombre de sites traités en parallèle. Nécessite 4 Go de RAM minimum.
requestTimeoutSecsinteger30Timeout par navigation en secondes. En dessous de 10s, les sites lents seront incorrectement marqués inaccessibles.
proxyConfigurationobjectdésactivéConfiguration Apify Proxy. Activer avec {"useApifyProxy": true} pour les sites avec anti-bot renforcé.
{
"websites": [
"eu.vuarnet.com",
"https://www.decathlon.fr",
"https://www.leboncoin.fr",
"maison-du-monde.com"
],
"maxConcurrency": 10,
"requestTimeoutSecs": 30
}

Output

Chaque site produit exactement une ligne dans le dataset Apify. Tous les champs sont toujours présents (null si non trouvé).

ChampTypeDescription
initial_websitestringURL brute fournie en entrée
websitestringURL normalisée avec protocole
final_websitestring | nullURL finale après redirections (y compris cross-domain)
legal_pagestring | nullURL exacte de la page où le SIREN a été trouvé
sirenstring | nullSIREN de l'éditeur du site au format XXX XXX XXX
siretstring | nullSIRET complet si mentionné sur la page (14 chiffres)
vat_numberstring | nullNuméro de TVA intracommunautaire au format FRXXXXXXXXX
web_host_sirenstring | nullSIREN de l'hébergeur détecté, distinct de l'éditeur
web_host_siretstring | nullSIRET de l'hébergeur
web_host_vat_numberstring | nullTVA de l'hébergeur
http_codeintegerCode HTTP de la réponse principale
statusstringStatut du résultat (voir ci-dessous)
extraction_datestringHorodatage ISO 8601 de l'extraction

Valeurs de status

statushttp_codeSignification
Success200SIREN éditeur trouvé et extrait avec succès
Siren not found200Site accessible mais aucun SIREN trouvé sur les pages légales
empty website204Site vide, page parking ou domaine expiré
blocked by Cloudflare403Protection anti-bot active (Cloudflare, WAF, Akamai…)
website unreachable404Domaine inexistant, erreur réseau ou TLS invalide

Exemple de résultat (succès)

{
"initial_website": "eu.vuarnet.com",
"website": "https://eu.vuarnet.com",
"final_website": "https://eu.vuarnet.com/",
"legal_page": "https://eu.vuarnet.com/pages/conditions-generales-de-vente",
"siren": "572 154 286",
"siret": "572 154 286 00017",
"vat_number": "FR12572154286",
"web_host_siren": null,
"web_host_siret": null,
"web_host_vat_number": null,
"http_code": 200,
"status": "Success",
"extraction_date": "2025-03-06T09:14:22.481Z"
}

Cas d'usage

Enrichissement CRM & base de données Vous avez une liste de prospects avec leurs sites web mais pas leurs SIREN. Lancez l'acteur sur vos URLs, récupérez les SIREN et croisez avec Pappers, l'INSEE ou Infogreffe pour obtenir forme juridique, capital, dirigeants et bilans financiers.

Conformité & vérification légale Vérifiez que vos fournisseurs ou partenaires affichent bien leurs mentions légales obligatoires (SIREN, RCS, siège social). Identifiez les sites non-conformes à l'article L123-1 du Code de commerce.

Veille concurrentielle & market intelligence Constituez un panel de sites concurrents, récupérez leurs SIREN et surveillez leurs dépôts de comptes, leurs appels d'offres ou leurs annonces légales au fil du temps.

Qualification de leads entrants À chaque nouveau lead (formulaire, email, LinkedIn), extrayez le SIREN depuis son site en quelques secondes pour qualifier automatiquement la taille, le secteur et la santé financière de l'entreprise avant un premier contact.

Marketplaces & plateformes e-commerce Vérifiez l'existence légale des marchands qui s'inscrivent sur votre plateforme en croisant le SIREN extrait de leur site avec les registres officiels avant validation du compte.

Due diligence & scoring crédit (KYB) Complétez vos processus Know Your Business en récupérant automatiquement le SIREN depuis le site de vos clients avant de déclencher une analyse financière ou un scoring crédit.


Configuration recommandée

Ces réglages sont à définir dans Settings → Run sur Apify, indépendamment des paramètres d'input.

RéglageValeur recommandéePourquoi
RAM4 096 Mo minimum10 browsers Chromium en parallèle consomment ≈ 400 Mo chacun. En dessous de 4 Go, des crashes mémoire (Page crashed) apparaissent après quelques minutes et interrompent le traitement.
Timeout acteur30 minSuffisant pour 500+ sites. Augmenter à 60 min pour des listes supérieures à 1 000 URLs.
maxConcurrency10Valeur optimale avec 4 Go RAM. Ne pas dépasser 15 même avec davantage de mémoire disponible.

Limites connues

Sites avec anti-bot renforcé (Cloudflare Enterprise, Akamai, Imperva) Ces protections bloquent même les navigateurs en mode stealth. L'activation du proxy Apify améliore le taux de passage mais ne garantit pas 100% de réussite. Ces sites sont retournés avec status: "blocked by Cloudflare".

Sites sans contenu français L'acteur recherche uniquement des numéros au format SIREN (9 chiffres) ou SIRET (14 chiffres). Les entreprises étrangères sans présence légale française ne produiront aucun résultat.

Mentions légales en PDF Certains sites publient leurs informations légales uniquement dans un fichier PDF. L'extraction de texte depuis un PDF n'est pas prise en charge — ces cas retournent status: "Siren not found".

Pages légales derrière authentification Si les mentions légales sont accessibles uniquement après connexion (extranet, espace client), l'acteur ne pourra pas les atteindre.