Japanese Website Content Crawler for RAG
Pricing
from $0.001 / result
Japanese Website Content Crawler for RAG
日本語のドキュメント、ヘルプセンター、ブログ、製品サイトをクロールし、RAG、ベクトルDB、LLMアプリ、社内検索に使いやすいMarkdown、テキスト、HTMLとして抽出します。
Japanese Website Content Crawler for RAG
Pricing
from $0.001 / result
日本語のドキュメント、ヘルプセンター、ブログ、製品サイトをクロールし、RAG、ベクトルDB、LLMアプリ、社内検索に使いやすいMarkdown、テキスト、HTMLとして抽出します。
Markdown、テキスト、HTMLに変換したい日本語ページまたはセクションを貼り付けます。ドキュメントのトップ、ヘルプセンターのカテゴリ、ブログ一覧、製品サイトの一部などを指定できます。Target scope onlyがオンの場合、URLのパスもクロール範囲に使われます。
Datasetに保存する最大ページ数です。最初は高速プレビュー用に3のまま実行し、出力を確認してから増やしてください。実行時間とコストを調整する一番重要な項目です。
Autoはまずsitemap URLを使って高速にページを探し、対象ページが見つからない場合は開始URLからリンクをたどります。セクション単位でクロールしたい場合はWebsite links、sitemapだけに限定したい場合はSitemap onlyを選んでください。
任意のsitemap.xml URLです。空のままにすると、各開始URLのドメインで/sitemap.xmlを試します。信頼できるsitemapを持つドキュメント、ヘルプセンター、ブログに便利です。
Website linksモードで何階層までリンクをたどるかを指定します。0は貼り付けたURLだけ、1は直接リンクされたページまで、2以上はより広いセクションのクロールに使います。Sitemap onlyモードでは無視されます。
開始URLと同じドメインおよびパス配下だけをクロールします。例: /docsから開始すると/docs配下だけを対象にします。別ドメインやサイト全体まで広げたい場合だけオフにしてください。
Datasetのcontentフィールドに入る形式を指定します。多くのRAGやベクトルDBにはMarkdown、軽量な検索やQAにはプレーンテキスト、独自解析には構造が残るHTMLが向いています。
各ページの整形済みHTMLをKey-value storeに保存し、CLEAN_HTML_INDEXに一覧を出力します。高速プレビューではオフのままにし、下流処理でHTMLファイルが必要な場合にオンにしてください。
本文エリアを指定する任意のCSSセレクタです。例: main、article、.docs-content、#content。空のままにするとmain、article、[role=main]、bodyの順に自動検出します。
抽出前に削除する任意のCSSセレクタです。例: .sidebar、.cookie-banner、.newsletter、.toc、.ads。ナビゲーションや共通パーツが出力に混ざる場合に使います。
抽出テキストがこの文字数未満のページをスキップします。最初の実行では0のままにしてください。空ページ、リダイレクト、一覧ページを除外したい場合に後から増やします。
残したいURLを指定する任意のCrawlee globパターンです。例: /docs/、/help/。クロール範囲をさらに絞りたい場合だけ使います。
スキップしたいURLを指定する任意のCrawlee globパターンです。例: /search/、/login/、?utm_、/*.pdf。
このActorはpdf、画像、動画、Officeファイル、アーカイブなど一般的な非HTMLファイルを自動でスキップします。対象サイトに独自のダウンロード形式がある場合だけ追加してください。
抽出前に表示を待つ任意のセレクタです。例: main、.article-body。初期読み込み後に本文が表示されるJavaScriptサイトで使います。