Miumiu avatar

Miumiu

Pricing

Pay per usage

Go to Apify Store
Miumiu

Miumiu

agent miumiu

Pricing

Pay per usage

Rating

0.0

(0)

Developer

logic cao

logic cao

Maintained by Community

Actor stats

0

Bookmarked

4

Total users

0

Monthly active users

a month ago

Last modified

Categories

Share

MiuMiu US 品牌数据爬虫 (Apify Actor)

这是一个基于 Apify SDK 开发的 Python 爬虫,专门用于抓取 MiuMiu 美国官网 (miumiu.com/us/en) 的产品数据。

该爬虫通过结合 Algolia API 检索详情页 HTML 解析,能够高效、准确地获取产品列表及深度详细信息。

🌟 功能特性

  • 多分类支持:可以同时处理多个不同类别的起始 URL(如成衣、包袋、鞋履)。

  • 深度数据抓取

  • 基础信息:产品名称、ID、价格(原价/现价)、货币。

  • 多色处理:自动识别产品的所有颜色变体,并分别爬取各个颜色的专属详情页和图片。

  • 规格详情:自动提取材质、尺寸选项、高度、宽度、长度及产品详细描述。

  • 智能分页:自动处理 Algolia 分页逻辑,抓取指定分类下的所有产品。

  • 异常处理:内置完善的错误捕获机制,确保在详情页请求失败或字段缺失时,爬虫仍能稳定运行并记录错误原因。

  • 频率控制:支持自定义爬取延迟,模拟真人行为,降低被封禁风险。

📥 输入参数 (Input)

Actor 接受 JSON 格式的输入配置。以下是典型配置示例:

{
"startUrls": [
{ "url": "https://www.miumiu.com/us/en/bags/c/10268US" },
{ "url": "https://www.miumiu.com/us/en/shoes/c/10207US" }
],
"maxItems": 50,
"crawlDelaySecs": 2,
"proxyConfig": {
"useApifyProxy": true,
"apifyProxyGroups": ["RESIDENTIAL"]
}
}

参数说明:

字段类型必填描述
startUrlsArray包含 MiuMiu 分类页 URL 的列表。
maxItemsInteger每个分类抓取的最大产品数量。不填则抓取全量。
crawlDelaySecsInteger请求之间的随机延迟基础时长(秒),默认 2 秒。
proxyConfigObject代理配置,建议使用住宅代理 (RESIDENTIAL) 以保证稳定性。

📤 输出数据 (Output)

抓取到的数据将存储在 Apify 的默认数据集 (Dataset) 中。每个产品条目的结构如下:

{
"site": "miumiu",
"product_id": "5BA383_2F7V_F0002_V_OOO",
"product_name": "Miu Miu Arcadie leather bag",
"url": "https://www.miumiu.com/us/en/bags/p/leather-bag/5BA383_2F7V_F0002_V_OOO",
"price": {
"current": 3200.0,
"original": 3200.0,
"currency": "USD",
"is_discounted": false
},
"variants": {
"color": {
"current": "Black",
"options": ["Black", "White", "Caramel"]
},
"size": {
"current": null,
"options": ["One Size"]
}
},
"images": [
{
"color": "Black",
"urls": ["https://www.miumiu.com/...img1.jpg", "https://www.miumiu.com/...img2.jpg"]
}
],
"material": "Leather",
"spec": "Height: 10.5cm; Width: 22cm; Length: 7.5cm",
"crawl_status": "success",
"crawled_at": "2024-05-20T10:00:00Z"
}

🛠️ 技术实现细节

  1. Algolia 检索:利用 MiuMiu 后端使用的 Algolia 接口进行首轮检索,快速获取产品 ID 和基础元数据。
  2. LXML 解析:使用 lxml 库配合 xpath 精准提取详情页中的隐藏信息,如多尺寸的库存状态、详细的规格描述。
  3. 多色聚合:爬虫会检测产品是否有其他颜色变体,如果有,会生成新的请求去抓取对应颜色的图片集,并将结果汇总在同一个产品对象下。

📝 注意事项

  • URL 格式:请确保输入的 startUrls 是分类页 URL(通常以 /c/数字US 结尾),而不是单个产品详情页。
  • 代理建议:由于 MiuMiu 对高频请求有一定限制,强烈建议在生产环境中使用 Apify 住宅代理