Japanese Website Content Crawler for RAG
Pricing
from $0.001 / result
Japanese Website Content Crawler for RAG
日本語のドキュメント、ヘルプセンター、ブログ、製品サイトをクロールし、RAG、ベクトルDB、LLMアプリ、社内検索に使いやすいMarkdown、テキスト、HTMLとして抽出します。
Pricing
from $0.001 / result
Rating
0.0
(0)
Developer
nezha
Maintained by CommunityActor stats
0
Bookmarked
2
Total users
1
Monthly active users
15 days ago
Last modified
Categories
Share
日本語のドキュメント、ヘルプセンター、ブログ、製品サイトをクロールし、RAG、ベクトルDB、LLMアプリ、社内検索に使いやすいMarkdown、テキスト、HTMLとして抽出します。
出力プレビュー
Datasetには、各ページの本文、構造情報、クロールメタデータが保存されます。
| URL | Title | Format | Words | Language | Depth |
|---|---|---|---|---|---|
/resources/introduction-to-web-accessibility-guidebook | ウェブアクセシビリティ導入ガイドブック | markdown | 2430 | ja | 0 |
/resources/standard-guidelines | 標準ガイドライン | markdown | 1180 | ja | 1 |
/policies | 政策 | markdown | 940 | ja | 1 |
主なフィールド:
url,title,description,canonicalUrlcontent,markdown,text,html,cleanHtmlheadings,wordCount,language,depth,httpStatusCode,crawledAtOUTPUT_SUMMARY,FAILED_PAGES,SKIPPED_PAGES,CLEAN_HTML_INDEX
このActorでできること
- 日本語サイトをMarkdown、プレーンテキスト、クリーンHTMLに変換
- sitemapまたは開始URLからページを探索
- 開始URLと同じドメイン、同じパス配下だけにクロール範囲を制限
- PDF、画像、動画、Officeファイル、アーカイブなど非HTMLファイルを自動除外
- 失敗ページ、スキップページ、実行サマリーをKey-value storeに保存
- RAG、チャンク分割、埋め込み、AIナレッジベース、社内検索に使いやすい形で出力
すぐに試す
- 日本語サイト、ドキュメント、ヘルプセンターのURL に対象URLを入れます。
- 初回は
maxPages: 3、crawlMode: auto、outputFormat: markdownのまま実行します。 - Datasetと
OUTPUT_SUMMARYを確認します。 - 出力が期待通りなら
maxPagesを増やして本番クロールに進みます。
autoモードは最初にsitemapを試し、対象ページが見つからない場合は開始URLからリンクをたどります。
コストと実行サイズ
maxPages が実行時間とコストを調整する主な項目です。デフォルトの3ページは高速プレビュー用です。大規模なドキュメントサイトやヘルプセンターでは、sitemap、sameDomainOnly、URLフィルタを組み合わせて、検索ページ、ログインページ、タグページ、ダウンロードページを避けてください。
主なユースケース
日本語ドキュメントをRAGへ
製品ドキュメント、APIドキュメント、技術ガイドをMarkdownまたはHTMLで抽出し、チャンク分割、埋め込み、検索に渡せます。
ヘルプセンターをAIサポートに取り込む
FAQやサポート記事をテキスト化し、社内検索、サポートAI、問い合わせ支援に利用できます。
ブログや製品ページをナレッジベース化
記事、ガイド、製品ページをタイトル、見出し、canonical URL、本文と一緒に保存できます。
日本語サイトをMarkdownに変換
手作業のコピー&ペーストではなく、再実行できるワークフローとしてMarkdownを生成できます。
完全なJSON例
入力例
例1: 高速Markdownプレビュー
{"startUrls": [{"url": "https://www.digital.go.jp/resources/introduction-to-web-accessibility-guidebook"}],"maxPages": 3,"crawlMode": "auto","sitemapUrls": ["https://www.digital.go.jp/sitemap.xml"],"outputFormat": "markdown","maxDepth": 1,"sameDomainOnly": true,"saveCleanHtml": false}
例2: 開始URLからリンクをたどる
{"startUrls": [{"url": "https://www.digital.go.jp/resources/introduction-to-web-accessibility-guidebook"}],"maxPages": 10,"crawlMode": "website","outputFormat": "text","maxDepth": 1,"sameDomainOnly": true}
例3: sitemapから広めに抽出する
{"startUrls": [{"url": "https://www.digital.go.jp/"}],"maxPages": 20,"crawlMode": "sitemap","sitemapUrls": ["https://www.digital.go.jp/sitemap.xml"],"outputFormat": "markdown","sameDomainOnly": true,"saveCleanHtml": false}
APIからの実行
このActorはApify API、Apify Python client、Apify JavaScript clientから実行できます。
- API reference: Apify API
- Client docs: Apify clients