
Google Maps Business Scraper
Pricing
$3.00 / 1,000 results
Go to Store

Google Maps Business Scraper
Advanced Google Maps business data scraper with intelligent geographic processing, precise land filtering, and comprehensive business information extraction. Features smart location parsing, ocean point filtering using Natural Earth data, concurrent processing, and flexible proxy support.
0.0 (0)
Pricing
$3.00 / 1,000 results
0
Total users
1
Monthly users
0
Last modified
18 hours ago
Google Maps Business Scraper Pro - 技术文档
🚀 核心采集技术架构
1. 智能地理处理系统 (GeoSlice)
📍 精确位置解析
- OpenStreetMap Nominatim API 集成: 将文本地址转换为精确的地理坐标和边界信息
- 多种地理形状支持: 完整支持 Polygon 和 MultiPolygon 几何体
- 地理边界计算: 自动计算区域边界框 (bounding box) 和面积
🗺️ 动态网格生成算法
- 自适应网格密度: 根据区域面积自动调整搜索网格密度
- 小区域 (< 0.5km²): 8x8 网格 (~64个点)
- 中等区域 (0.5-20km²): 10-14x网格 (100-196个点)
- 大型区域 (> 50,000km²): 32-34x网格 (1024-1156个点)
- 智能点位筛选: 使用
turf.booleanPointInPolygon
确保搜索点位于目标区域内
🌊 海域点位过滤技术
- Natural Earth 数据集成: 使用高质量的 110m 分辨率陆地边界数据
- 精确陆地检测:
turf.booleanPointInPolygon
算法过滤海域坐标点 - 智能后备机制: 当精确过滤失败时,采用改进的纬度/经度规则
- 岛屿国家支持: 特殊处理小岛国家和群岛地区
2. 双重数据提取策略
🔄 页面初始数据提取
- APP_INITIALIZATION_STATE 解析: 提取页面初始化时的商家数据
- 稳定 JSON 数据提取: 使用
extractJsonDataRobust
处理动态键值结构 - 多策略解析: 支持固定键值和动态遍历两种解析模式
📡 AJAX 响应拦截
- 实时网络监听: 拦截
search?tbm
AJAX 请求获取动态加载数据 - 智能滚动加载: 模拟用户滚动行为,触发更多数据加载
- 网络空闲检测: 监控请求完成状态,确保数据加载完整
3. 高级反检测技术
🎭 浏览器指纹伪装
- 随机 User-Agent: 轮换多种真实浏览器 User-Agent
- 动态视窗大小: 设置标准桌面分辨率 (1920x1080)
- 行为模拟: 随机等待时间、鼠标滚动等人类行为模拟
🚫 资源拦截优化
- 智能资源过滤: 阻止图片、字体、媒体文件等非必要资源
- 第三方服务屏蔽: 过滤 Google Analytics、Tag Manager 等跟踪服务
- 性能优化: 减少带宽使用,提升采集速度
4. 企业级代理管理
🔗 多层代理支持
- 自定义代理池: 支持用户提供的代理服务器列表
- Apify 代理集成: 无缝集成 Apify 的住宅和数据中心代理
- 智能故障切换: 代理失败时自动回退到直连模式
🛡️ 代理健康监控
- 连接错误检测: 识别
TUNNEL_CONNECTION_FAILED
等代理错误 - 自动重试机制: 代理失败时的智能重试策略
- 详细错误日志: 完整的代理连接诊断信息
5. 并发处理与性能优化
⚡ 批量并发采集
- 智能批次管理: 根据配置动态调整并发数量 (1-6个页面)
- 资源池复用: 高效的浏览器页面池管理
- 内存优化: 及时清理不用的页面资源
🔄 去重与缓存机制
- Place ID 去重: 使用商家唯一标识符防止重复采集
- 实时统计: 跟踪已处理商家数量和去重率
- 缓存优化: 内存中的高效去重集合
6. 数据质量保证
📊 多维度数据提取
- 基础信息: 商家名称、地址、电话、网站、评分等
- 地理数据: 精确坐标、Plus Code、行政区划信息
- 营业信息: 开放时间、价格区间、当前营业状态
- 富媒体内容: 主图片、图片集合、类别标签
- 评论数据: 评分分布、热门时段、客户标签
✅ 数据验证与清洗
- 必填字段验证: 确保关键信息完整性
- 数据类型转换: 自动处理数字、布尔值等类型转换
- 异常处理: 优雅处理缺失或异常数据
7. 监控与调试系统
📈 实时统计报告
- 采集进度跟踪: 实时显示已完成/总数比例
- 性能指标: 平均处理时间、成功率统计
- 资源使用: 内存、CPU 使用情况监控
🔍 详细日志系统
- 分层日志: 不同级别的操作日志记录
- 错误追踪: 完整的错误堆栈和上下文信息
- 调试支持: 开发环境下的详细调试信息
🛠️ 技术栈
- TypeScript: 类型安全的开发环境
- Crawlee: 现代化的网页抓取框架
- Puppeteer: 无头浏览器自动化
- Turf.js: 高性能地理空间分析
- Apify SDK: 企业级数据采集平台
- Natural Earth: 高质量地理数据集
🌟 创新特性
- 地理智能: 首个集成 Natural Earth 数据的 Google Maps 采集器
- 双重提取: 结合页面数据和 AJAX 拦截的完整采集策略
- 自适应网格: 根据区域特征动态调整采集密度
- 企业级稳定性: 完整的错误处理和恢复机制
- 高度可配置: 灵活的参数配置适应不同采集需求