Pricing

from $0.01 / 1,000 results

Ai Training Data Curator

Crawl websites and curate high-quality training data for LLM fine-tuning. Automatic deduplication, quality scoring, and language detection. Export to JSONL, Parquet, or CSV formats ready for OpenAI, Claude, or Llama training.

Pricing

from $0.01 / 1,000 results

Rating

0.0

(0)

Developer

Eliud Munyala

Actor stats

Bookmarked

Total users

Monthly active users

2 days ago

Last modified

Features

Smart Content Extraction: Automatically detects and extracts main content, filtering out navigation, ads, and boilerplate
Bring Your Own Data (BYOD): Process your own text documents without crawling - perfect for existing datasets
Quality Scoring: Scores each document based on vocabulary diversity, sentence structure, and content density
Deduplication: Uses MinHash/Jaccard similarity to remove near-duplicate content
Flexible Crawling: Single page, same domain, same subdomain, or follow all links
Document Chunking: Split long documents into training-ready chunks with configurable overlap
Multiple Output Formats: JSONL (OpenAI compatible), JSON, Parquet, CSV, or HuggingFace Datasets format
Language Filtering: Filter content by language (ISO 639-1 codes)
Privacy Features: Optionally remove emails and URLs from extracted text

Use Cases

LLM Fine-tuning: Collect domain-specific training data for fine-tuning language models
RAG Systems: Build high-quality document collections for retrieval-augmented generation
Knowledge Bases: Create clean text corpora from documentation sites
Research: Gather datasets from academic or technical resources
Data Cleaning: Clean and deduplicate existing text datasets for ML training

Input Configuration

Mode Selection

The actor supports two modes - provide either start_urls (for crawling) or documents (for BYOD):

Field	Type	Default	Description
`start_urls`	array	-	URLs to start crawling from (Crawl mode)
`documents`	array	-	Your own documents to process (BYOD mode)

BYOD (Bring Your Own Data) Settings

Field	Type	Default	Description
`documents`	array	-	Array of text strings or objects with `text` field
`byod_text_field`	string	`text`	Field name containing text in document objects
`max_byod_documents`	integer	500	Maximum documents to process (hard limit)

Crawl Settings

Field	Type	Default	Description
`start_urls`	array	-	URLs to start crawling from
`crawl_mode`	string	`same_domain`	`single_page`, `same_domain`, `same_subdomain`, or `all_links`
`max_pages`	integer	100	Maximum pages to crawl
`max_depth`	integer	3	Maximum link depth from start URLs

Content Extraction

Field	Type	Default	Description
`content_selectors`	array	`["article", "main", ".content"]`	CSS selectors for main content
`exclude_selectors`	array	`["nav", "header", "footer", ".sidebar"]`	CSS selectors to exclude
`min_word_count`	integer	100	Minimum words per document
`max_word_count`	integer	50000	Maximum words per document

Quality & Deduplication

Field	Type	Default	Description
`deduplicate`	boolean	true	Remove duplicate/near-duplicate content
`dedup_threshold`	number	0.85	Similarity threshold (0.5-1.0)
`quality_filter`	boolean	true	Filter low-quality content
`min_quality_score`	number	0.5	Minimum quality score (0.0-1.0)
`language_filter`	array	`["en"]`	Languages to include (ISO codes)

Output Settings

Field	Type	Default	Description
`output_format`	string	`jsonl`	`jsonl`, `json`, `parquet`, `csv`, or `huggingface`
`text_field_name`	string	`text`	Name of the text field in output
`include_metadata`	boolean	true	Include URL, title, date metadata
`include_raw_html`	boolean	false	Also save original HTML

Chunking

Field	Type	Default	Description
`chunk_documents`	boolean	false	Split documents into chunks
`chunk_size`	integer	512	Target chunk size in tokens
`chunk_overlap`	integer	64	Overlap between chunks

Text Cleaning

Field	Type	Default	Description
`clean_html`	boolean	true	Remove HTML tags
`normalize_whitespace`	boolean	true	Collapse multiple spaces/newlines
`remove_urls`	boolean	false	Strip embedded URLs
`remove_emails`	boolean	true	Strip email addresses

Performance

Field	Type	Default	Description
`use_proxies`	boolean	false	Use residential proxies
`max_concurrency`	integer	10	Parallel requests
`request_delay_ms`	integer	500	Delay between requests
`respect_robots_txt`	boolean	true	Follow robots.txt rules

Output Format

Each document in the output contains:

{
  "text": "The cleaned document text content...",
  "doc_id": "abc123def456",
  "source_url": "https://example.com/page",
  "word_count": 1523,
  "quality_score": 0.847,
  "language": "en",
  "title": "Page Title",
  "description": "Meta description",
  "content_type": "documentation",
  "scraped_at": "2024-01-15T10:30:00Z"
}

If chunking is enabled, additional fields are included:

{
  "chunk_index": 0,
  "total_chunks": 5,
  "parent_doc_id": "abc123def456"
}

Quality Metrics

The quality scorer evaluates documents based on:

Word count: Penalizes very short documents
Sentence length: Flags very short (fragments) or very long sentences
Vocabulary diversity: Ratio of unique words to total words
Boilerplate ratio: Detection of common web boilerplate patterns
Character composition: Penalizes excessive uppercase, digits, or special characters

Documents with scores below min_quality_score are automatically filtered out.

Example Input

Crawl Python Documentation

{
  "start_urls": [
    { "url": "https://docs.python.org/3/tutorial/" }
  ],
  "crawl_mode": "same_subdomain",
  "max_pages": 500,
  "content_selectors": [".document", ".body"],
  "exclude_selectors": [".sphinxsidebar", ".related", "footer"],
  "output_format": "jsonl",
  "chunk_documents": true,
  "chunk_size": 1024
}

Build Knowledge Base from Blog

{
  "start_urls": [
    { "url": "https://example.com/blog/" }
  ],
  "crawl_mode": "same_domain",
  "max_pages": 100,
  "content_selectors": ["article", ".post-content"],
  "quality_filter": true,
  "min_quality_score": 0.6,
  "deduplicate": true,
  "output_format": "parquet"
}

BYOD: Process Your Own Documents

{
  "documents": [
    "This is a plain text document that will be processed...",
    {
      "text": "This document has metadata attached to it...",
      "source_id": "doc_001",
      "metadata": {
        "title": "My Document",
        "author": "John Doe",
        "language": "en"
      }
    }
  ],
  "deduplicate": true,
  "quality_filter": true,
  "min_quality_score": 0.5,
  "output_format": "jsonl"
}

BYOD: Clean Existing Dataset

{
  "documents": [
    {"text": "First document from your dataset..."},
    {"text": "Second document from your dataset..."},
    {"text": "Third document from your dataset..."}
  ],
  "byod_text_field": "text",
  "deduplicate": true,
  "dedup_threshold": 0.85,
  "chunk_documents": true,
  "chunk_size": 512,
  "output_format": "jsonl"
}

Tips for Best Results

Use specific content selectors: Better extraction with precise CSS selectors for your target site
Set appropriate word counts: Filter out navigation pages and indexes with min_word_count
Enable deduplication: Prevents training on repetitive content (common on content farms)
Adjust quality threshold: Lower for technical content, higher for prose
Use chunking for long documents: Better for training context windows
Start small: Test with max_pages: 20 before large crawls

Pricing

$0.01 per document - charged for each cleaned document (both crawled and BYOD)

Additional costs:

Proxy: ~$0.001-0.005 per request (if enabled)
Storage: ~$0.0001 per document

Support

AI Web Scraper - Powered by Crawl4AI

raizen/ai-web-scraper

A blazing-fast AI web scraper powered by Crawl4AI. Perfect for LLMs, AI agents, AI automation, model training, sentiment analysis, and content generation. Supports deep crawling, multiple extraction strategies and flexible output (Markdown/JSON). Seamlessly integrates with Make.com, n8n, and Zapier.

Raizen Technology

306

1.0

Website Content to Markdown for LLM Training

easyapi/website-content-to-markdown-for-llm-training

🚀 Transform web content into clean, LLM-ready Markdown! 📘 Scrape multiple pages, extract main content, and convert to Markdown format. Perfect for AI researchers, data scientists, and LLM developers. Fast, efficient, and customizable. Supercharge your AI training data today! 🌐📝🧠

EasyApi

235

5.0

Web Scraper and AI processor

scraping_samurai/web-scraper-and-ai-processor

Adaptive AI controller classifies page quality from fast HTTP fetches and selectively triggers headless rendering, then converts raw text into structured JSON from natural-language extraction prompts. Optimizes cost vs. accuracy with AI-guided escalation, retry, and thin/blocked content heuristics.

Scraping Samurai

Universal AI Web Scraper

stanvanrooy6/universal-ai-web-scraper

Turn any website into an API. Extract structured data using plain English. Features anti-bot bypass, dynamic rendering, and web search. No coding needed.

Stan Van Rooy

5.0

AI Training Data Curator

ryanclinton/ai-training-data-curator

Crawl websites and extract clean training data for LLMs. Quality scoring, deduplication, PII detection, markdown output. Built for fine-tuning and RAG pipelines.

ryan clinton

Scrape GPT - Universal AI Web Scraper Agent

paradox-analytics/scrape-gpt---universal-ai-web-scraper-agent

AI-powered universal web scraper that works on ANY website without configuration. Extract data from e-commerce, news sites, social media, and more using intelligent LLM-based field mapping. Features JSON-first extraction, automatic pagination, anti-bot bypass, and cost-effective caching.

Paradox Analytics

5.0

Ai Training Data Curator

lanky_quantifier/ai-training-data-curator

Curate high-quality training datasets for AI/ML models. Extract, clean & format text data from websites, papers & forums. Perfect for LLM training, RAG systems & research.

Vhub Systems

AI Web Scraper - Webscraper with AI based Summery or answer

sidjain/apify-webscrap

Web Page Scraper + AI Summary/Answer: Scrapes any URL, extracts content (text, links, images, tables, lists,raw html,tech stack), auto-falls back to headless browser for JS sites, and optionally generates an AI summary/answer from your prompt. Try with frontend at-https://aiscraperweb.netlify.app/

Siddharth Jain

Education & Research Email Scraper – Cheap & Advanced 🎓📧

scrapestorm/education-research-email-scraper---cheap-advanced

🔍 Scrape Education & Research Emails Easily Enter your search parameters (e.g. academic title, email domains & platform) to collect verified academic or institutional contacts along with role title, research snippet & more 📊 Perfect for academic outreach & education database enrichment 🧩

Storm_Scraper

5.0

Ai Web Scraper - Extract Data With Ease

eloquent_mountain/ai-web-scraper-extract-data-with-ease

Ai Web Scraper enables scraping for everyone, including non-techies! It uses Google's Gemini LLM to scrape websites with natural language commands. It dynamically extracts data, no selector input needed, handles dynamic content and cookie consent, avoids bot detection, outputs JSON or other formats.