Pricing

from $10.00 / 1,000 results

Wikipedia Scraper - Article Content Extractor

Scrape Wikipedia articles. Search by topic and extract full structured content: summaries, sections, infobox data, categories, references, images, and edit history for any article.

Pricing

from $10.00 / 1,000 results

Rating

0.0

(0)

Developer

lulz bot

Actor stats

Bookmarked

Total users

Monthly active users

2 months ago

Last modified

Wikipedia Scraper

Extract structured content from Wikipedia articles. Search by topic or provide direct article URLs to get summaries, full text, infobox data, categories, references, images, and metadata.

Features

Search by topic — find the most relevant Wikipedia articles for any query
Direct URL scraping — provide specific article URLs for targeted extraction
Structured content — articles are parsed into sections with headers
Infobox extraction — key-value data from article infoboxes (e.g., programming language details, country stats)
Multi-language — supports all Wikipedia language editions (en, es, fr, de, ja, etc.)
References — extracted reference list from each article
Categories & images — article classification and image file names

Input

Field	Type	Description
`searchQueries`	string[]	Topics to search (e.g., "artificial intelligence", "JavaScript")
`articleUrls`	string[]	Direct Wikipedia article URLs
`maxArticles`	number	Max articles per search query (default: 5)
`maxResults`	number	Max total results (default: 25)
`language`	string	Wikipedia language code (default: "en")
`extractSections`	boolean	Extract full section content (default: true)

Output

Each article includes:

{
    "title": "JavaScript",
    "pageId": 9845,
    "summary": "JavaScript is a programming language...",
    "content": "Full article text...",
    "sections": [
        { "title": "Introduction", "content": "..." },
        { "title": "History", "content": "..." }
    ],
    "infobox": {
        "Paradigm": "Multi-paradigm",
        "Designed by": "Brendan Eich",
        "First appeared": "December 4, 1995"
    },
    "categories": ["Programming languages", "Web development"],
    "images": ["File:JavaScript_code.png"],
    "thumbnail": "https://upload.wikimedia.org/...",
    "references": ["..."],
    "lastEdited": "2026-04-20T12:00:00Z",
    "url": "https://en.wikipedia.org/wiki/JavaScript",
    "language": "en"
}

Use Cases

Research — gather structured data on any topic
Knowledge bases — build datasets from Wikipedia's encyclopedia
NLP training data — extract clean text with metadata
Fact-checking — cross-reference claims with Wikipedia sources
Content enrichment — add Wikipedia context to your applications

Pricing

This actor uses pay-per-event pricing at $0.005 per article scraped.

Notes

Uses the official Wikipedia API (free, no auth required)
HTML is fetched for infobox and reference extraction
Rate-limited to be respectful of Wikipedia servers
Article content is capped at 50,000 characters per article

Wikipedia Article Extractor

johnlenflure/wikipedia-extractor

Extract structured content from Wikipedia articles. Get summaries, sections, categories, infobox data, images, and internal links in any language.

Sinan Donmez

Wikipedia Article Scraper

rupom888/wikipedia-article-scraper

Scrape Wikipedia articles using the official MediaWiki REST API. Search by keyword, look up specific titles, or scrape by URL. Extracts full article text, sections, infobox data, categories, references, images, and related articles. Supports 300+ languages.

Syed Rupom

Wikipedia Article Extractor

rambunctious_fingerprint/wikipedia-extractor

Casey Marsh

Wikipedia Article Scraper

kayhermes/wikipedia-scraper

Khoa Nguyen

Wikipedia Scraper

leftwinglautus/wikipedia-scraper

Scrape Wikipedia articles via the official Wikipedia API. Search articles, get summaries, full content, and categories.

Moeeze Hassan

Wikipedia Article Scraper

cloud9_ai/wikipedia-scraper

Scrape Wikipedia articles by search keyword or exact title. Returns summaries, full article text, categories, and links. Supports 300+ languages.

cloud9

Wikipedia Article Scraper

crawlerbros/wikipedia-scraper

Extract structured data from Wikipedia articles. Get summaries, categories, images, metadata, and descriptions using Wikipedia's official API. Supports 300+ languages.

Crawler Bros

Wikipedia Article Extractor Pro

noetic_caption/wikipedia-extractor

Extract full article content from Wikipedia — search, categories, or URLs. Rich structured output with sections, categories, links, images. No API key needed, 100+ languages. Perfect for AI training data, knowledge bases, research.

Kragent

Wikipedia Article Extractor

glassventures/wikipedia-article-extractor

Extract Wikipedia articles via MediaWiki API. Get full text, summaries, sections, categories, images, links. Multi-language. Perfect for AI/ML training data and RAG.

Glass Ventures

Wikipedia Pro Scraper - Sections, Infobox, References

wetyr_corporation/wikipedia-pro-scraper

Wikipedia scraper for AI/RAG. Extracts structured sections, infobox key-value data, references. Multilingual, batch-friendly. Ready for vector databases.