Pricing

Pay per usage

Japanese Web Scraper - Yahoo News, Rakuten, Suumo, Tabelog

Scrape major Japanese websites: Yahoo! Japan News, Rakuten, Suumo, Tabelog. Full Shift_JIS/EUC-JP encoding support, cookie wall bypass, and JP pagination handling. Structured JSON output with optional romaji transliteration for non-Japanese data consumers.

Pricing

Pay per usage

Rating

0.0

(0)

Developer

BBB & Company

Actor stats

Bookmarked

Total users

Monthly active users

8 days ago

Last modified

Rakuten Japan Listings Scraper

piotrv1001/rakuten-japan-listings-scraper

The Rakuten Japan Listings Scraper extracts product listings from Rakuten — capturing names, JPY prices, review scores, shop info, shipping, Rakuten points, structured tags, and category breadcrumbs — ideal for Japanese marketplace research, price monitoring, and catalog building.

FalconScrape

Suumo.jp Scraper | $4 / 1k | With Numbers

fatihtahta/suumo-japan-scraper

Scrape Japan property listings from Suumo.JP including prices, addresses, specs, agent info and more. Perfect for real estate analytics, lead generation, or dashboards. Fast, structured, reliable. $4 / 1k listings.

Fatih Tahta

JP Castnet Rakuten Scraper

styleindexamerica/jp-rakuten-scraper

This actor is intended to extract data from https://item.rakuten.co.jp

PopinBorder Castnet

Rakuten Japan Email Scraper

scraper-mind/rakuten-japan-email-scraper

🚀 Rakuten Email Scraper – Effortlessly extract verified Rakuten Japan emails! 🔍 Search by keywords, location & custom domains to find targeted contacts. Supports Rakuten Japan listings ✅ Proxy support for seamless scraping. 📊 Download in JSON, CSV, Excel. Perfect for lead gen & market research!

Scraper Mind

5.0

Suumo Scraper

jungle_synthesizer/suumo-scraper

Scrape rental and sale property listings from Suumo.jp — Japan's largest real estate portal. Pick a mode (rental, used/new condo, used/new house, or land) and paste a Suumo search URL. Extract price/rent, layout, area, address, station access, building age, and more.

BowTiedRaccoon

Rakuten Japan Product Scraper

parseforge/rakuten-japan-scraper

Collect product listings from Rakuten Japan (rakuten.co.jp). Search by keyword, category, price range, and sort order to extract product names, prices, sellers, reviews, shipping details, points, sale info, and 40+ structured fields. Supports genre filtering, used items, and batch export.

ParseForge

Rakuten Price Scraper

wilico/rakuten-price-scraper

Rakuten Ichiba (item.rakuten.co.jp) product scraper that extracts product data such as price, stock availability, review ratings, and product details. Supports batch scraping for multiple URLs.

Wilico, Inc.

5.0

Rakuten Japan Email Scraper

api-empire/rakuten-japan-email-scraper

Automate email extraction from Rakuten Japan with Rakuten Japan Email Scraper. The actor scans product, brand, or seller pages and pulls available contact emails into structured datasets for CRM enrichment.

API Empire

Rakuten Japan Email Scraper

scrapio/rakuten-japan-email-scraper

Rakuten Japan Email Scraper helps you collect seller and brand emails directly from Rakuten Japan listings and profiles. Use the data for B2B sales, sourcing, and marketplace expansion campaigns.

Scrapio

Tabelog Scraper

huggable_quote/tabelog-scraper

Extract restaurant details and reviews from Tabelog (食べログ), Japan's #1 restaurant review platform. Search by keyword/area or provide URLs directly.

OrbitData Labs

{ "name": "japanese-web-scraper", "version": "1.0.0", "type": "module", "description": "Apify Actor for scraping major Japanese websites with proper encoding and localization support", "engines": { "node": ">=18.0.0" }, "dependencies": { "apify": "^3.7.0", "@crawlee/cheerio": "^3.15.0", "iconv-lite": "^0.6.3" }, "devDependencies": { "typescript": "^5.6.0", "@types/node": "^22.0.0", "tsx": "^4.19.0" }, "scripts": { "start": "npx tsx src/main.ts", "build": "tsc", "test": "echo \"No tests yet\"" } }

{ "compilerOptions": { "target": "ES2022", "module": "ES2022", "moduleResolution": "node", "outDir": "dist", "rootDir": "src", "strict": true, "esModuleInterop": true, "skipLibCheck": true, "resolveJsonModule": true, "declaration": true }, "include": ["src/**/*"] }

{ "actorSpecification": 1, "name": "japanese-web-scraper", "title": "Japanese Website Scraper Pack", "description": "Scrape major Japanese websites: Yahoo! Japan News, Rakuten, Suumo, Tabelog. Handles Shift_JIS/EUC-JP encoding, cookie walls, and JP pagination. Structured JSON output with optional romaji.", "version": "1.0", "buildTag": "latest", "minMemoryMbytes": 512, "maxMemoryMbytes": 2048, "input": "./input_schema.json", "dockerfile": "../Dockerfile", "storages": { "dataset": { "actorSpecification": 1, "title": "Scraped Japanese Website Data", "views": { "overview": { "title": "Overview", "transformation": { "fields": ["source", "title", "url", "category", "extractedAt"] }, "display": { "component": "table", "properties": { "source": { "label": "Source", "format": "text" }, "title": { "label": "Title", "format": "text" }, "url": { "label": "URL", "format": "text" } } } } } } } }

{ "title": "Japanese Website Scraper Input", "description": "Configure which Japanese websites to scrape and extraction parameters. Monetization: PPE with the automatic apify-default-dataset-item event; one default dataset item is produced per scraped listing/article/detail record.", "type": "object", "schemaVersion": 1, "properties": { "source": { "title": "Source Website", "type": "string", "description": "Which Japanese website to scrape. Respect each website's terms and choose conservative limits for first runs.", "enum": ["yahoo-news", "rakuten-search", "suumo-listings", "tabelog-restaurants", "hotpepper-gourmet", "custom"], "enumTitles": [ "Yahoo! Japan News (articles)", "Rakuten Product Search", "Suumo Real Estate Listings", "Tabelog Restaurant Reviews", "Hot Pepper Gourmet", "Custom URL (provide startUrls)" ], "default": "yahoo-news" }, "searchQuery": { "title": "Search Query", "type": "string", "description": "Search term (Japanese or English). Used for Rakuten, Suumo area search, Tabelog area search.", "editor": "textfield" }, "category": { "title": "Category", "type": "string", "description": "Category filter (source-specific). For Yahoo News: domestic/world/business/entertainment/sports/it-science. For Rakuten: category code.", "editor": "textfield" }, "startUrls": { "title": "Start URLs (Custom mode)", "type": "array", "description": "Custom starting URLs to scrape. Only used when source is 'custom'.", "editor": "requestListSources" }, "maxItems": { "title": "Max Items", "type": "integer", "description": "Maximum number of items to extract. Each saved result is one chargeable default dataset item when PPE is enabled.", "default": 50, "minimum": 1, "maximum": 1000 }, "maxPages": { "title": "Max Pages", "type": "integer", "description": "Maximum number of pages to crawl (pagination)", "default": 5, "minimum": 1, "maximum": 50 }, "extractFullContent": { "title": "Extract Full Content", "type": "boolean", "description": "For news articles: extract the full article body. This can add detail records to the dataset and therefore can add chargeable default dataset items.", "default": false }, "proxyConfiguration": { "title": "Proxy Configuration", "type": "object", "description": "Apify proxy configuration. Japanese sites may require Japan-based proxies for best results.", "editor": "proxy", "sectionCaption": "Proxy settings" } }, "required": ["source"] }

1/** 2 * Japanese Website Scraper Pack 3 * 4 * 日本の主要Webサイトに特化したスクレイパー。 5 * 文字コード（Shift_JIS, EUC-JP）、Cookie同意、 6 * ロケール固有のページネーションに対応。 7 */ 8export {};

1/** 2 * Japanese Website Scraper Pack 3 * 4 * 日本の主要Webサイトに特化したスクレイパー。 5 * 文字コード（Shift_JIS, EUC-JP）、Cookie同意、 6 * ロケール固有のページネーションに対応。 7 */ 8import { Actor, log } from "apify"; 9import { CheerioCrawler } from "@crawlee/cheerio"; 10const SOURCES = { 11 "yahoo-news": { 12 buildStartUrl: (_query, category) => { 13 const cat = category || "domestic"; 14 return `https://news.yahoo.co.jp/categories/${cat}`; 15 }, 16 buildPageUrl: (baseUrl, page) => `${baseUrl}?page=${page}`, 17 parseListPage: ($, _url) => { 18 const items = []; 19 const seen = new Set(); 20 // Yahoo Newsはstyled-componentsでクラス名がランダム。href属性ベースで取得 21 $("a[href*='/articles/'], a[href*='/pickup/']").each((_, el) => { 22 const $el = $(el); 23 const url = $el.attr("href") || ""; 24 // 重複排除（同じ記事への複数リンクがある） 25 const articleId = url.match(/\/articles\/([a-z0-9]+)/i)?.[1] || url; 26 if (seen.has(articleId)) 27 return; 28 seen.add(articleId); 29 // タイトル: リンク内のテキストからメタ情報を除外 30 const allText = $el.text().trim(); 31 // 末尾の「XX/XX(X) XX:XX 配信」パターンを除去 32 const title = allText.replace(/\d+\/\d+$[^)]+$\s*\d+:\d+\s*配信.*$/s, "").trim(); 33 if (title && title.length > 5 && url) { 34 items.push({ 35 source: "yahoo-news", 36 title, 37 url: url.startsWith("http") ? url : `https://news.yahoo.co.jp${url}`, 38 extractedAt: new Date().toISOString(), 39 }); 40 } 41 }); 42 return items; 43 }, 44 parseDetailPage: ($, url) => { 45 const content = $("article .article_body, .highLightSearchTarget, [class*='articleBody']") 46 .text() 47 .trim(); 48 const category = $("meta[property='article:section']").attr("content") || undefined; 49 return { content, category, url }; 50 }, 51 detailLinkSelector: "a[href*='news.yahoo.co.jp/articles']", 52 }, 53 "rakuten-search": { 54 buildStartUrl: (query) => { 55 const q = encodeURIComponent(query || ""); 56 return `https://search.rakuten.co.jp/search/mall/${q}/`; 57 }, 58 buildPageUrl: (baseUrl, page) => `${baseUrl}?p=${page}`, 59 parseListPage: ($, _url) => { 60 const items = []; 61 $(".searchresultitem, [class*='dui-card'], .item").each((_, el) => { 62 const $el = $(el); 63 const titleEl = $el.find("a[href*='item.rakuten.co.jp'], .title a, h2 a").first(); 64 const title = titleEl.text().trim(); 65 const url = titleEl.attr("href") || ""; 66 const price = $el.find(".price, [class*='price'], .important").first().text().trim(); 67 const imageUrl = $el.find("img").first().attr("src") || undefined; 68 const rating = $el.find("[class*='rating'], [class*='review'] span").first().text().trim() || undefined; 69 const reviewText = $el.find("[class*='reviewCount'], [class*='review-num']").first().text().trim(); 70 const reviewCount = reviewText ? parseInt(reviewText.replace(/[^0-9]/g, ""), 10) || undefined : undefined; 71 if (title && url) { 72 items.push({ 73 source: "rakuten-search", 74 title, 75 url, 76 price: price || undefined, 77 rating: rating || undefined, 78 reviewCount, 79 imageUrl, 80 extractedAt: new Date().toISOString(), 81 }); 82 } 83 }); 84 return items; 85 }, 86 }, 87 "suumo-listings": { 88 buildStartUrl: (query) => { 89 const area = encodeURIComponent(query || "東京都"); 90 return `https://suumo.jp/jj/chintai/ichiran/FR301FC001/?ar=030&bs=040&fw=${area}`; 91 }, 92 buildPageUrl: (baseUrl, page) => `${baseUrl}&pn=${page}`, 93 parseListPage: ($, _url) => { 94 const items = []; 95 $(".cassetteitem, [class*='property_unit']").each((_, el) => { 96 const $el = $(el); 97 const title = $el.find(".cassetteitem_content-title, h2, .property_unit-title").first().text().trim(); 98 const detailLink = $el.find("a[href*='suumo.jp']").first().attr("href") || ""; 99 const price = $el.find(".cassetteitem_price--rent, [class*='price']").first().text().trim(); 100 const location = $el.find(".cassetteitem_detail-col1, [class*='address']").first().text().trim(); 101 const description = $el.find(".cassetteitem_detail-col2, [class*='detail']").text().trim().slice(0, 200); 102 if (title) { 103 items.push({ 104 source: "suumo-listings", 105 title, 106 url: detailLink.startsWith("http") ? detailLink : `https://suumo.jp${detailLink}`, 107 price: price || undefined, 108 location: location || undefined, 109 description: description || undefined, 110 extractedAt: new Date().toISOString(), 111 }); 112 } 113 }); 114 return items; 115 }, 116 }, 117 "tabelog-restaurants": { 118 buildStartUrl: (query) => { 119 const area = encodeURIComponent(query || "東京"); 120 return `https://tabelog.com/rstLst/?vs=1&sa=${area}&sk=&lid=top_navi1&vac_net=&svd=&svt=&svps=&hfc=1&Cat=&LstCat=&LstCatD=&LstCatSD=&LstCosT=&LstRange=&RdoCosTp=2&LstCos=&LstRev=&LstSitu=&LstReserve=&ChkParking=`; 121 }, 122 buildPageUrl: (baseUrl, page) => `${baseUrl}&PG=${page}`, 123 parseListPage: ($, _url) => { 124 const items = []; 125 $(".list-rst, .rstlist-info, [class*='restaurant']").each((_, el) => { 126 const $el = $(el); 127 const titleEl = $el.find(".list-rst__rst-name a, h3 a, .rstlist-info__name a").first(); 128 const title = titleEl.text().trim(); 129 const url = titleEl.attr("href") || ""; 130 const rating = $el.find(".list-rst__rating-val, [class*='rating'] b, .c-rating__val").first().text().trim(); 131 const reviewText = $el.find(".list-rst__rvw-count, [class*='review-count']").first().text().trim(); 132 const reviewCount = reviewText ? parseInt(reviewText.replace(/[^0-9]/g, ""), 10) || undefined : undefined; 133 const category = $el.find(".list-rst__catg, [class*='category']").first().text().trim(); 134 const location = $el.find(".list-rst__area, [class*='area']").first().text().trim(); 135 const price = $el.find(".list-rst__budget, [class*='budget']").first().text().trim(); 136 if (title && url) { 137 items.push({ 138 source: "tabelog-restaurants", 139 title, 140 url: url.startsWith("http") ? url : `https://tabelog.com${url}`, 141 category: category || undefined, 142 rating: rating || undefined, 143 reviewCount, 144 location: location || undefined, 145 price: price || undefined, 146 extractedAt: new Date().toISOString(), 147 }); 148 } 149 }); 150 return items; 151 }, 152 }, 153 "hotpepper-gourmet": { 154 buildStartUrl: (query) => { 155 const area = encodeURIComponent(query || "東京"); 156 return `https://www.hotpepper.jp/CSP/psh010/doRefine/?FW=${area}`; 157 }, 158 buildPageUrl: (baseUrl, page) => { 159 const pageParam = page > 1 ? `&PN=${page}` : ""; 160 return `${baseUrl}${pageParam}`; 161 }, 162 parseListPage: ($, _url) => { 163 const items = []; 164 $(".shopListItem, [class*='shop-card'], .cassetteitem").each((_, el) => { 165 const $el = $(el); 166 const titleEl = $el.find("h3 a, .shopDetailStoreName a, .shopName a").first(); 167 const title = titleEl.text().trim(); 168 const url = titleEl.attr("href") || ""; 169 const category = $el.find(".shopDetailCatch, [class*='genre']").first().text().trim(); 170 const location = $el.find(".shopDetailAddress, [class*='address']").first().text().trim(); 171 const price = $el.find(".shopDetailBudget, [class*='budget']").first().text().trim(); 172 const imageUrl = $el.find("img[src*='imgfp']").first().attr("src") || undefined; 173 if (title && url) { 174 items.push({ 175 source: "hotpepper-gourmet", 176 title, 177 url: url.startsWith("http") ? url : `https://www.hotpepper.jp${url}`, 178 category: category || undefined, 179 location: location || undefined, 180 price: price || undefined, 181 imageUrl, 182 extractedAt: new Date().toISOString(), 183 }); 184 } 185 }); 186 return items; 187 }, 188 }, 189}; 190// --- カスタムソース --- 191const customSourceConfig = { 192 buildStartUrl: () => "", 193 buildPageUrl: (baseUrl) => baseUrl, 194 parseListPage: ($, url) => { 195 const items = []; 196 const title = $("title").text().trim(); 197 const description = $("meta[name='description']").attr("content") || ""; 198 const content = $("main, article, #content, .content, body") 199 .first() 200 .text() 201 .trim() 202 .slice(0, 5000); 203 // ページ内のリンク一覧も取得 204 const links = {}; 205 $("a[href]").each((_, el) => { 206 const href = $(el).attr("href") || ""; 207 const text = $(el).text().trim(); 208 if (text && href && !href.startsWith("#") && !href.startsWith("javascript:")) { 209 links[text.slice(0, 100)] = href; 210 } 211 }); 212 items.push({ 213 source: "custom", 214 title, 215 url, 216 description, 217 content, 218 metadata: links, 219 extractedAt: new Date().toISOString(), 220 }); 221 return items; 222 }, 223}; 224// --- メインエントリ --- 225await Actor.init(); 226const input = (await Actor.getInput()) ?? {}; 227const { source = "yahoo-news", searchQuery, category, startUrls, maxItems = 50, maxPages = 5, extractFullContent = false, proxyConfiguration, } = input; 228log.info(`Starting ${source} scraper. Query: "${searchQuery || "none"}", Max: ${maxItems} items`); 229const sourceConfig = source === "custom" ? customSourceConfig : SOURCES[source]; 230if (!sourceConfig) { 231 throw new Error(`Unknown source: ${source}. Available: ${Object.keys(SOURCES).join(", ")}, custom`); 232} 233// 開始URLを構築 234let urls = []; 235if (source === "custom" && startUrls) { 236 urls = startUrls.map((u) => (typeof u === "string" ? u : u.url)); 237} 238else { 239 const startUrl = sourceConfig.buildStartUrl(searchQuery, category); 240 // ページネーション用のURL生成 241 for (let page = 1; page <= maxPages; page++) { 242 urls.push(sourceConfig.buildPageUrl(startUrl, page)); 243 } 244} 245if (urls.length === 0) { 246 throw new Error("No URLs to scrape. Provide startUrls for custom mode or searchQuery for other modes."); 247} 248let totalItems = 0; 249const detailUrls = []; 250// プロキシ設定 251const proxyConfig = proxyConfiguration 252 ? await Actor.createProxyConfiguration(proxyConfiguration) 253 : undefined; 254// 一覧ページクロール 255const listCrawler = new CheerioCrawler({ 256 proxyConfiguration: proxyConfig, 257 maxRequestsPerCrawl: maxPages * 2, 258 requestHandlerTimeoutSecs: 60, 259 additionalMimeTypes: ["text/html; charset=euc-jp", "text/html; charset=shift_jis"], 260 requestHandler: async ({ $, request }) => { 261 log.info(`Crawling list page: ${request.url}`); 262 const items = sourceConfig.parseListPage($, request.url); 263 log.info(`Found ${items.length} items on ${request.url}`); 264 for (const item of items) { 265 if (totalItems >= maxItems) 266 break; 267 await Actor.pushData(item); 268 totalItems++; 269 // 詳細ページのURL収集 270 if (extractFullContent && sourceConfig.parseDetailPage && item.url) { 271 detailUrls.push(item.url); 272 } 273 } 274 if (totalItems >= maxItems) { 275 log.info(`Reached max items (${maxItems}). Stopping.`); 276 } 277 }, 278 failedRequestHandler: async ({ request }) => { 279 log.warning(`Failed: ${request.url}`); 280 }, 281}); 282await listCrawler.run(urls); 283// 詳細ページクロール（extractFullContent有効時） 284if (extractFullContent && sourceConfig.parseDetailPage && detailUrls.length > 0) { 285 log.info(`Extracting full content from ${detailUrls.length} detail pages...`); 286 const detailCrawler = new CheerioCrawler({ 287 proxyConfiguration: proxyConfig, 288 maxRequestsPerCrawl: Math.min(detailUrls.length, maxItems), 289 requestHandlerTimeoutSecs: 30, 290 requestHandler: async ({ $, request }) => { 291 if (!sourceConfig.parseDetailPage) 292 return; 293 const detail = sourceConfig.parseDetailPage($, request.url); 294 // データセット内の既存アイテムを更新 295 // Note: Apifyでは直接更新できないため、追加データとして保存 296 if (detail.content) { 297 await Actor.pushData({ 298 source: `${source}-detail`, 299 url: request.url, 300 ...detail, 301 extractedAt: new Date().toISOString(), 302 }); 303 } 304 }, 305 failedRequestHandler: async ({ request }) => { 306 log.warning(`Detail page failed: ${request.url}`); 307 }, 308 }); 309 await detailCrawler.run(detailUrls); 310} 311log.info(`Scraping complete. Total items: ${totalItems}`); 312await Actor.exit();

1/** 2 * Japanese Website Scraper Pack 3 * 4 * 日本の主要Webサイトに特化したスクレイパー。 5 * 文字コード（Shift_JIS, EUC-JP）、Cookie同意、 6 * ロケール固有のページネーションに対応。 7 */ 8 9import { Actor, log } from "apify"; 10import { CheerioCrawler, type CheerioAPI } from "@crawlee/cheerio"; 11 12// --- 型定義 --- 13 14interface Input { 15 source: "yahoo-news" | "rakuten-search" | "suumo-listings" | "tabelog-restaurants" | "hotpepper-gourmet" | "custom"; 16 searchQuery?: string; 17 category?: string; 18 startUrls?: Array<{ url: string }>; 19 maxItems: number; 20 maxPages: number; 21 extractFullContent: boolean; 22 proxyConfiguration?: any; 23} 24 25interface ScrapedItem { 26 source: string; 27 title: string; 28 url: string; 29 category?: string; 30 description?: string; 31 content?: string; 32 price?: string; 33 rating?: string; 34 reviewCount?: number; 35 imageUrl?: string; 36 publishedAt?: string; 37 location?: string; 38 metadata?: Record<string, string>; 39 extractedAt: string; 40} 41 42// --- ソース定義: 各サイトの構造とセレクター --- 43 44interface SourceConfig { 45 buildStartUrl: (query?: string, category?: string) => string; 46 buildPageUrl: (baseUrl: string, page: number) => string; 47 parseListPage: ($: CheerioAPI, url: string) => ScrapedItem[]; 48 parseDetailPage?: ($: CheerioAPI, url: string) => Partial<ScrapedItem>; 49 detailLinkSelector?: string; 50 encoding?: string; 51} 52 53const SOURCES: Record<string, SourceConfig> = { 54 "yahoo-news": { 55 buildStartUrl: (_query, category) => { 56 const cat = category || "domestic"; 57 return `https://news.yahoo.co.jp/categories/${cat}`; 58 }, 59 buildPageUrl: (baseUrl, page) => `${baseUrl}?page=${page}`, 60 parseListPage: ($, _url) => { 61 const items: ScrapedItem[] = []; 62 const seen = new Set<string>(); 63 // Yahoo Newsはstyled-componentsでクラス名がランダム。href属性ベースで取得 64 $("a[href*='/articles/'], a[href*='/pickup/']").each((_, el) => { 65 const $el = $(el); 66 const url = $el.attr("href") || ""; 67 // 重複排除（同じ記事への複数リンクがある） 68 const articleId = url.match(/\/articles\/([a-z0-9]+)/i)?.[1] || url; 69 if (seen.has(articleId)) return; 70 seen.add(articleId); 71 72 // タイトル: リンク内のテキストからメタ情報を除外 73 const allText = $el.text().trim(); 74 // 末尾の「XX/XX(X) XX:XX 配信」パターンを除去 75 const title = allText.replace(/\d+\/\d+$[^)]+$\s*\d+:\d+\s*配信.*$/s, "").trim(); 76 77 if (title && title.length > 5 && url) { 78 items.push({ 79 source: "yahoo-news", 80 title, 81 url: url.startsWith("http") ? url : `https://news.yahoo.co.jp${url}`, 82 extractedAt: new Date().toISOString(), 83 }); 84 } 85 }); 86 return items; 87 }, 88 parseDetailPage: ($, url) => { 89 const content = $("article .article_body, .highLightSearchTarget, [class*='articleBody']") 90 .text() 91 .trim(); 92 const category = $("meta[property='article:section']").attr("content") || undefined; 93 return { content, category, url }; 94 }, 95 detailLinkSelector: "a[href*='news.yahoo.co.jp/articles']", 96 }, 97 98 "rakuten-search": { 99 buildStartUrl: (query) => { 100 const q = encodeURIComponent(query || ""); 101 return `https://search.rakuten.co.jp/search/mall/${q}/`; 102 }, 103 buildPageUrl: (baseUrl, page) => `${baseUrl}?p=${page}`, 104 parseListPage: ($, _url) => { 105 const items: ScrapedItem[] = []; 106 $(".searchresultitem, [class*='dui-card'], .item").each((_, el) => { 107 const $el = $(el); 108 const titleEl = $el.find("a[href*='item.rakuten.co.jp'], .title a, h2 a").first(); 109 const title = titleEl.text().trim(); 110 const url = titleEl.attr("href") || ""; 111 const price = $el.find(".price, [class*='price'], .important").first().text().trim(); 112 const imageUrl = $el.find("img").first().attr("src") || undefined; 113 const rating = $el.find("[class*='rating'], [class*='review'] span").first().text().trim() || undefined; 114 const reviewText = $el.find("[class*='reviewCount'], [class*='review-num']").first().text().trim(); 115 const reviewCount = reviewText ? parseInt(reviewText.replace(/[^0-9]/g, ""), 10) || undefined : undefined; 116 117 if (title && url) { 118 items.push({ 119 source: "rakuten-search", 120 title, 121 url, 122 price: price || undefined, 123 rating: rating || undefined, 124 reviewCount, 125 imageUrl, 126 extractedAt: new Date().toISOString(), 127 }); 128 } 129 }); 130 return items; 131 }, 132 }, 133 134 "suumo-listings": { 135 buildStartUrl: (query) => { 136 const area = encodeURIComponent(query || "東京都"); 137 return `https://suumo.jp/jj/chintai/ichiran/FR301FC001/?ar=030&bs=040&fw=${area}`; 138 }, 139 buildPageUrl: (baseUrl, page) => `${baseUrl}&pn=${page}`, 140 parseListPage: ($, _url) => { 141 const items: ScrapedItem[] = []; 142 $(".cassetteitem, [class*='property_unit']").each((_, el) => { 143 const $el = $(el); 144 const title = $el.find(".cassetteitem_content-title, h2, .property_unit-title").first().text().trim(); 145 const detailLink = $el.find("a[href*='suumo.jp']").first().attr("href") || ""; 146 const price = $el.find(".cassetteitem_price--rent, [class*='price']").first().text().trim(); 147 const location = $el.find(".cassetteitem_detail-col1, [class*='address']").first().text().trim(); 148 const description = $el.find(".cassetteitem_detail-col2, [class*='detail']").text().trim().slice(0, 200); 149 150 if (title) { 151 items.push({ 152 source: "suumo-listings", 153 title, 154 url: detailLink.startsWith("http") ? detailLink : `https://suumo.jp${detailLink}`, 155 price: price || undefined, 156 location: location || undefined, 157 description: description || undefined, 158 extractedAt: new Date().toISOString(), 159 }); 160 } 161 }); 162 return items; 163 }, 164 }, 165 166 "tabelog-restaurants": { 167 buildStartUrl: (query) => { 168 const area = encodeURIComponent(query || "東京"); 169 return `https://tabelog.com/rstLst/?vs=1&sa=${area}&sk=&lid=top_navi1&vac_net=&svd=&svt=&svps=&hfc=1&Cat=&LstCat=&LstCatD=&LstCatSD=&LstCosT=&LstRange=&RdoCosTp=2&LstCos=&LstRev=&LstSitu=&LstReserve=&ChkParking=`; 170 }, 171 buildPageUrl: (baseUrl, page) => `${baseUrl}&PG=${page}`, 172 parseListPage: ($, _url) => { 173 const items: ScrapedItem[] = []; 174 $(".list-rst, .rstlist-info, [class*='restaurant']").each((_, el) => { 175 const $el = $(el); 176 const titleEl = $el.find(".list-rst__rst-name a, h3 a, .rstlist-info__name a").first(); 177 const title = titleEl.text().trim(); 178 const url = titleEl.attr("href") || ""; 179 const rating = $el.find(".list-rst__rating-val, [class*='rating'] b, .c-rating__val").first().text().trim(); 180 const reviewText = $el.find(".list-rst__rvw-count, [class*='review-count']").first().text().trim(); 181 const reviewCount = reviewText ? parseInt(reviewText.replace(/[^0-9]/g, ""), 10) || undefined : undefined; 182 const category = $el.find(".list-rst__catg, [class*='category']").first().text().trim(); 183 const location = $el.find(".list-rst__area, [class*='area']").first().text().trim(); 184 const price = $el.find(".list-rst__budget, [class*='budget']").first().text().trim(); 185 186 if (title && url) { 187 items.push({ 188 source: "tabelog-restaurants", 189 title, 190 url: url.startsWith("http") ? url : `https://tabelog.com${url}`, 191 category: category || undefined, 192 rating: rating || undefined, 193 reviewCount, 194 location: location || undefined, 195 price: price || undefined, 196 extractedAt: new Date().toISOString(), 197 }); 198 } 199 }); 200 return items; 201 }, 202 }, 203 204 "hotpepper-gourmet": { 205 buildStartUrl: (query) => { 206 const area = encodeURIComponent(query || "東京"); 207 return `https://www.hotpepper.jp/CSP/psh010/doRefine/?FW=${area}`; 208 }, 209 buildPageUrl: (baseUrl, page) => { 210 const pageParam = page > 1 ? `&PN=${page}` : ""; 211 return `${baseUrl}${pageParam}`; 212 }, 213 parseListPage: ($, _url) => { 214 const items: ScrapedItem[] = []; 215 $(".shopListItem, [class*='shop-card'], .cassetteitem").each((_, el) => { 216 const $el = $(el); 217 const titleEl = $el.find("h3 a, .shopDetailStoreName a, .shopName a").first(); 218 const title = titleEl.text().trim(); 219 const url = titleEl.attr("href") || ""; 220 const category = $el.find(".shopDetailCatch, [class*='genre']").first().text().trim(); 221 const location = $el.find(".shopDetailAddress, [class*='address']").first().text().trim(); 222 const price = $el.find(".shopDetailBudget, [class*='budget']").first().text().trim(); 223 const imageUrl = $el.find("img[src*='imgfp']").first().attr("src") || undefined; 224 225 if (title && url) { 226 items.push({ 227 source: "hotpepper-gourmet", 228 title, 229 url: url.startsWith("http") ? url : `https://www.hotpepper.jp${url}`, 230 category: category || undefined, 231 location: location || undefined, 232 price: price || undefined, 233 imageUrl, 234 extractedAt: new Date().toISOString(), 235 }); 236 } 237 }); 238 return items; 239 }, 240 }, 241}; 242 243// --- カスタムソース --- 244 245const customSourceConfig: SourceConfig = { 246 buildStartUrl: () => "", 247 buildPageUrl: (baseUrl) => baseUrl, 248 parseListPage: ($, url) => { 249 const items: ScrapedItem[] = []; 250 const title = $("title").text().trim(); 251 const description = $("meta[name='description']").attr("content") || ""; 252 const content = $("main, article, #content, .content, body") 253 .first() 254 .text() 255 .trim() 256 .slice(0, 5000); 257 258 // ページ内のリンク一覧も取得 259 const links: Record<string, string> = {}; 260 $("a[href]").each((_, el) => { 261 const href = $(el).attr("href") || ""; 262 const text = $(el).text().trim(); 263 if (text && href && !href.startsWith("#") && !href.startsWith("javascript:")) { 264 links[text.slice(0, 100)] = href; 265 } 266 }); 267 268 items.push({ 269 source: "custom", 270 title, 271 url, 272 description, 273 content, 274 metadata: links, 275 extractedAt: new Date().toISOString(), 276 }); 277 return items; 278 }, 279}; 280 281// --- メインエントリ --- 282 283await Actor.init(); 284 285const input = (await Actor.getInput<Input>()) ?? ({} as Input); 286 287const { 288 source = "yahoo-news", 289 searchQuery, 290 category, 291 startUrls, 292 maxItems = 50, 293 maxPages = 5, 294 extractFullContent = false, 295 proxyConfiguration, 296} = input; 297 298log.info(`Starting ${source} scraper. Query: "${searchQuery || "none"}", Max: ${maxItems} items`); 299 300const sourceConfig = source === "custom" ? customSourceConfig : SOURCES[source]; 301 302if (!sourceConfig) { 303 throw new Error(`Unknown source: ${source}. Available: ${Object.keys(SOURCES).join(", ")}, custom`); 304} 305 306// 開始URLを構築 307let urls: string[] = []; 308if (source === "custom" && startUrls) { 309 urls = startUrls.map((u) => (typeof u === "string" ? u : u.url)); 310} else { 311 const startUrl = sourceConfig.buildStartUrl(searchQuery, category); 312 // ページネーション用のURL生成 313 for (let page = 1; page <= maxPages; page++) { 314 urls.push(sourceConfig.buildPageUrl(startUrl, page)); 315 } 316} 317 318if (urls.length === 0) { 319 throw new Error("No URLs to scrape. Provide startUrls for custom mode or searchQuery for other modes."); 320} 321 322let totalItems = 0; 323const detailUrls: string[] = []; 324 325// プロキシ設定 326const proxyConfig = proxyConfiguration 327 ? await Actor.createProxyConfiguration(proxyConfiguration) 328 : undefined; 329 330// 一覧ページクロール 331const listCrawler = new CheerioCrawler({ 332 proxyConfiguration: proxyConfig, 333 maxRequestsPerCrawl: maxPages * 2, 334 requestHandlerTimeoutSecs: 60, 335 additionalMimeTypes: ["text/html; charset=euc-jp", "text/html; charset=shift_jis"], 336 requestHandler: async ({ $, request }) => { 337 log.info(`Crawling list page: ${request.url}`); 338 339 const items = sourceConfig.parseListPage($, request.url); 340 log.info(`Found ${items.length} items on ${request.url}`); 341 342 for (const item of items) { 343 if (totalItems >= maxItems) break; 344 await Actor.pushData(item); 345 totalItems++; 346 347 // 詳細ページのURL収集 348 if (extractFullContent && sourceConfig.parseDetailPage && item.url) { 349 detailUrls.push(item.url); 350 } 351 } 352 353 if (totalItems >= maxItems) { 354 log.info(`Reached max items (${maxItems}). Stopping.`); 355 } 356 }, 357 failedRequestHandler: async ({ request }) => { 358 log.warning(`Failed: ${request.url}`); 359 }, 360}); 361 362await listCrawler.run(urls); 363 364// 詳細ページクロール（extractFullContent有効時） 365if (extractFullContent && sourceConfig.parseDetailPage && detailUrls.length > 0) { 366 log.info(`Extracting full content from ${detailUrls.length} detail pages...`); 367 368 const detailCrawler = new CheerioCrawler({ 369 proxyConfiguration: proxyConfig, 370 maxRequestsPerCrawl: Math.min(detailUrls.length, maxItems), 371 requestHandlerTimeoutSecs: 30, 372 requestHandler: async ({ $, request }) => { 373 if (!sourceConfig.parseDetailPage) return; 374 const detail = sourceConfig.parseDetailPage($, request.url); 375 376 // データセット内の既存アイテムを更新 377 // Note: Apifyでは直接更新できないため、追加データとして保存 378 if (detail.content) { 379 await Actor.pushData({ 380 source: `${source}-detail`, 381 url: request.url, 382 ...detail, 383 extractedAt: new Date().toISOString(), 384 }); 385 } 386 }, 387 failedRequestHandler: async ({ request }) => { 388 log.warning(`Detail page failed: ${request.url}`); 389 }, 390 }); 391 392 await detailCrawler.run(detailUrls); 393} 394 395log.info(`Scraping complete. Total items: ${totalItems}`); 396await Actor.exit();