AI Training Data Scraper avatar

AI Training Data Scraper

Pricing

from $2.00 / 1,000 results

Go to Apify Store
AI Training Data Scraper

AI Training Data Scraper

Curate high-quality training datasets for AI/ML models. Extract, clean & format text data from websites, papers & forums. Perfect for LLM training, RAG systems & research.

Pricing

from $2.00 / 1,000 results

Rating

0.0

(0)

Developer

Vhub Systems

Vhub Systems

Maintained by Community

Actor stats

0

Bookmarked

2

Total users

1

Monthly active users

11 days ago

Last modified

Share

Куратор обучающих данных для ИИ

Производственный Apify-актор для сбора чистого структурированного текста с веб-сайтов для создания наборов обучающих данных ИИ/МО и тонкой настройки языковых моделей.

Возможности

  • Умный краулинг: Обход ссылок из начальных URL с настраиваемыми ограничениями глубины
  • Чистое извлечение: Удаление навигации, футеров, скриптов, стилей и шаблонного контента
  • Фильтрация качества: Установка минимальной длины текста для исключения слабого контента
  • Структурированный вывод: Сохранение URL, заголовка, чистого текста, количества слов и временной метки
  • Гибкость экспорта: Вывод в формате JSONL (рекомендуется для LLM) или CSV

Конфигурация входных данных

{
"urls": ["https://example.com"],
"maxPagesPerCrawl": 100,
"minTextLength": 150,
"outputFormat": "jsonl",
"maxCrawlDepth": 3
}
ПараметрТипОбязательныйОписание
urlsstring[]ДаНачальные URL для обхода (поддерживает карты сайтов)
maxPagesPerCrawlintegerНетМаксимальное общее количество страниц для сканирования. По умолчанию: 100
minTextLengthintegerНетМинимальная длина текста в символах для включения. По умолчанию: 150
outputFormatstringНетФормат вывода: "jsonl" или "csv". По умолчанию: "jsonl"
maxCrawlDepthintegerНетМаксимальная глубина перехода по ссылкам от начальных URL. По умолчанию: 3

Совет: Начните с 10-20 страниц на URL для оценки объема данных перед масштабированием.

Структура вывода

Каждая сканированная страница создает одну запись набора данных:

{
"url": "https://example.com/page",
"title": "Заголовок страницы",
"text": "Чистый извлеченный текстовый контент без HTML, навигации или шаблонных элементов...",
"wordCount": 427,
"scrapedAt": "2024-01-01T12:34:56.789Z",
"domain": "example.com"
}

Поля:

  • url: Канонический URL страницы
  • title: Заголовок страницы или первый H1
  • text: Очищенный текстовый контент с нормализованными пробелами
  • wordCount: Количество слов в извлеченном тексте
  • scrapedAt: Временная метка извлечения в формате ISO 8601
  • domain: Домен источника для лучшей организации данных