Pricing

from $0.10 / 1,000 results

Wikipedia Scraper - Articles, Search & Recent Changes

Scrape Wikipedia articles by title, run keyword searches, pull recent changes, or extract entire categories — across any of 300+ language editions. Returns clean text, summaries, references, links, and metadata. Built for AI/LLM training datasets, NLP research, and knowledge-graph building.

Pricing

from $0.10 / 1,000 results

Rating

0.0

(0)

Developer

NIJ KANANI

Actor stats

Bookmarked

Total users

Monthly active users

24 days ago

Last modified

📚 Wikipedia Scraper

Scrape Wikipedia articles, search results, recent edits, and categories — across all 300+ language editions. Returns clean plain-text content, summaries, references, and rich metadata.

🎯 Built for AI/LLM training datasets, NLP research, knowledge-graph construction, journalism, and education.

Sample dataset output

Input form

Run log — clean success

✨ What you can do

📄 Fetch articles by title — clean plain-text body, summary, sections, references
🔎 Search — full-text search across an entire language edition
📡 Recent changes — live feed of edits (title, user, comment, revid)
📁 Pull entire categories — all members of Category:Machine_learning, etc.
🌐 Any language — en, es, fr, de, ja, zh, hi, ar, etc.
📦 Rich output: links (internal+external), categories, sections, last-modified

🚀 Quick start

{
    "mode": "articles",
    "language": "en",
    "titles": ["Artificial intelligence", "Large language model"],
    "includeContent": true,
    "includeReferences": false
}

📥 Input

Field	Used in mode	Description
`mode`	all	`articles` / `search` / `recentchanges` / `category`
`language`	all	Wiki edition code (`en`, `de`, `ja`...)
`titles`	articles	Article titles
`searchQueries`	search	Keywords or phrases
`category`	category	Category name without `Category:` prefix
`maxItems`	all	Cap per query
`includeContent`	articles, search, category	Full plain-text body
`includeReferences`	articles, search, category	External + internal links + sections

📤 Output (per item)

{
    "mode": "articles",
    "title": "Artificial intelligence",
    "language": "en",
    "pageId": 1164,
    "summary": "Artificial intelligence (AI) refers to...",
    "content": "Full article text...",
    "wordCount": 12873,
    "sections": ["Goals", "History", "Methods"],
    "externalLinks": ["https://..."],
    "internalLinks": ["Machine learning", "Neural network"],
    "categories": ["Artificial intelligence", "Cybernetics"],
    "url": "https://en.wikipedia.org/wiki/Artificial_intelligence",
    "lastModified": "2026-04-30T...",
    "scrapedAt": "2026-05-06T..."
}

🎯 Use cases

Who	Why
🤖 LLM teams	Pretraining + fine-tuning datasets across languages
📚 NLP researchers	Multilingual corpora, named-entity benchmarks
📰 Journalists	Topic deep-dives + fact-checking pipelines
🎓 Educators	Auto-build study material from any topic
🧠 Knowledge graphs	Wikipedia as an entity backbone

⚙️ Tech notes

Uses MediaWiki's official Action API + REST Summary API
No login, no key, no rate limits (within fair use)
Plain-text extraction via explaintext=1 — already cleaned, no HTML/wikitext
Recent-changes uses rctype=edit|new to skip log noise

❓ FAQ

Are full Wikipedia dumps better? For one-shot pre-training, yes (free at dumps.wikimedia.org). This Actor is for targeted scrapes — specific topics, ongoing freshness, multi-language slices, or recent-changes monitoring.

Schedule it? Yes. Recent changes mode is perfect for hourly Apify Schedules.

Hits rate limits? Almost never. MediaWiki's anonymous limit is generous and we add automatic retries with backoff.

Wikipedia Scraper — Articles, Summaries & Search

openclawmara/wikipedia-scraper

Scrape Wikipedia across 300+ languages. Modes: full articles, summaries, search, random, recent changes, category browse. Extracts text, sections, references, images, links, infobox. Official MediaWiki API — stable, no auth. Great for research, knowledge graphs, content enrichment.

OpenClaw Mara

Wikipedia Article Scraper

cloud9_ai/wikipedia-scraper

Scrape Wikipedia articles by search keyword or exact title. Returns summaries, full article text, categories, and links. Supports 300+ languages.

cloud9

Wikipedia Article Scraper

crawlerbros/wikipedia-scraper

Extract structured data from Wikipedia articles. Get summaries, categories, images, metadata, and descriptions using Wikipedia's official API. Supports 300+ languages.

Crawler Bros

5.0

📚 Wikipedia Scraper — Articles & Knowledge Data

nexgendata/wikipedia-scraper

Extract structured data from Wikipedia — article text, infoboxes, categories, references & links. Build knowledge bases, AI training datasets & research tools. Pay per article.

Stephan Corbeil

Wikipedia Data Extractor - Articles & Summaries

vernacular_reservoir/wikipedia-data-extractor

Extract structured data from Wikipedia articles by topic or keyword. Get title, summary, description, thumbnail, coordinates and related links. Supports all Wikipedia languages. No API key required.

Aleksandrs

Wikipedia Page Dataset Scraper

scrapeai/wikipedia-page-dataset-scraper

Scrape Wikipedia articles and export structured dataset fields for training, knowledge bases, and research.

ScrapeAI

5.0

Wikipedia Article Extractor

glassventures/wikipedia-article-extractor

Extract Wikipedia articles via MediaWiki API. Get full text, summaries, sections, categories, images, links. Multi-language. Perfect for AI/ML training data and RAG.

Glass Ventures

Wikipedia Article Search

ryanclinton/wikipedia-article-search

Search and retrieve structured data from Wikipedia articles across 15 language editions. This Apify actor queries the MediaWiki Search API to find relevant articles, then enriches each result with plain-text summaries, descriptions, Wikidata IDs, and thumbnail images via the Wikipedia REST API.

Ryan Clinton

Wikipedia Scraper

automation-lab/wikipedia-scraper

Search and extract Wikipedia articles — titles, summaries, full content, categories, and images. Uses the free MediaWiki API.

Stas Persiianenko

Wikipedia Scraper | $5 / 1k | Fast & Reliable

fatihtahta/wikipedia-scraper

Get full articles and detailed search results with the Wikipedia Scraper. Extract structured data including titles, summaries, citations, and full content. Ideal for market research, AI training, and competitive intelligence.