網頁資料解析器 avatar
網頁資料解析器

Pricing

$35.00 / 1,000 results

Go to Apify Store
網頁資料解析器

網頁資料解析器

Developed by

Futurize Rush

Futurize Rush

Maintained by Community

繁體中文介面的簡單網頁爬蟲工具。擷取網站的標題、段落、連結、圖片、表格等資料。支援自訂 CSS 選擇器和批量收集。 如有大量網頁爬蟲需求,推薦使用 Apify 的 Web Content Crawler

0.0 (0)

Pricing

$35.00 / 1,000 results

2

2

2

Last modified

2 days ago

網頁資料擷取器 (繁體中文版)

基於 Puppeteer 的網頁爬蟲工具,所有輸出欄位皆為繁體中文,方便本地使用。

⚠️ 使用聲明

本工具僅供教學和研究使用。使用者必須遵守網站服務條款、robots.txt 規範及相關法律。

🚀 快速開始

最簡單的使用方式 - 只需提供網址:

{
"startUrls": [
{"url": "https://example.com"}
]
}

📊 輸出欄位說明

所有資料以繁體中文欄位輸出:

  • 基本資訊:網址、標題、爬取時間、處理時間毫秒
  • 網頁內容:標題元素、段落、連結、圖片
  • 結構化資料:表格、表單、影片、按鈕、導航連結
  • SEO 資料:元資料、開放圖譜、結構化資料、頁面語言

⚙️ 主要設定

設定說明預設值
startUrls要爬取的網址列表必填
maxRequestsPerCrawl最多爬取頁數100
maxConcurrency同時爬取數量2
scrollToBottom自動捲動載入內容false
blockResources封鎖資源類型以加速[]

🎯 自訂擷取規則

使用 CSS 選擇器擷取特定內容:

{
"extractionRules": {
"文章標題": "h1.article-title",
"作者": ".author-name",
"發布日期": "time.publish-date",
"內容": "article.content"
}
}

💡 使用範例

爬取多個網頁

{
"startUrls": [
{"url": "https://example.com"},
{"url": "https://example.org"}
],
"maxRequestsPerCrawl": 10
}

動態內容網站

{
"scrollToBottom": true,
"waitForSelector": ".content-loaded",
"pageLoadTimeoutSecs": 20
}

優化速度

{
"blockResources": ["image", "stylesheet", "font"],
"smartMode": true,
"maxConcurrency": 1
}

📝 輸出範例

{
"網址": "https://example.com/article",
"標題": "文章標題",
"標題元素": {
"h1": ["主標題"],
"h2": ["副標題一", "副標題二"]
},
"段落": ["第一段內容...", "第二段內容..."],
"連結": [
{
"text": "連結文字",
"href": "https://example.com/link"
}
],
"圖片": [
{
"src": "https://example.com/image.jpg",
"alt": "圖片描述",
"width": 800,
"height": 600
}
],
"處理時間毫秒": 2345,
"爬取時間": "2025-08-11T10:30:00.000Z"
}

❓ 常見問題

Q: 爬取失敗怎麼辦?

  • 降低 maxConcurrency 到 1
  • 增加 pageLoadTimeoutSecs
  • 關閉 smartMode

Q: 如何爬取動態載入的內容?

  • 設定 scrollToBottom: true
  • 使用 waitForSelector 等待元素載入

Q: 如何加快爬取速度?

  • 使用 blockResources 封鎖不需要的資源
  • 開啟 smartMode 自動優化

📜 授權

MIT License


版本: 0.1.0
更新日期: 2025年8月11日
開發者: FuturizeRush