AI Training Data Scraper
Pricing
from $2.00 / 1,000 results
Go to Apify Store

AI Training Data Scraper
Curate high-quality training datasets for AI/ML models. Extract, clean & format text data from websites, papers & forums. Perfect for LLM training, RAG systems & research.
Pricing
from $2.00 / 1,000 results
Rating
0.0
(0)
Developer

Vhub Systems
Maintained by Community
Actor stats
0
Bookmarked
2
Total users
1
Monthly active users
11 days ago
Last modified
Categories
Share
Куратор обучающих данных для ИИ
Производственный Apify-актор для сбора чистого структурированного текста с веб-сайтов для создания наборов обучающих данных ИИ/МО и тонкой настройки языковых моделей.
Возможности
- Умный краулинг: Обход ссылок из начальных URL с настраиваемыми ограничениями глубины
- Чистое извлечение: Удаление навигации, футеров, скриптов, стилей и шаблонного контента
- Фильтрация качества: Установка минимальной длины текста для исключения слабого контента
- Структурированный вывод: Сохранение URL, заголовка, чистого текста, количества слов и временной метки
- Гибкость экспорта: Вывод в формате JSONL (рекомендуется для LLM) или CSV
Конфигурация входных данных
{"urls": ["https://example.com"],"maxPagesPerCrawl": 100,"minTextLength": 150,"outputFormat": "jsonl","maxCrawlDepth": 3}
| Параметр | Тип | Обязательный | Описание |
|---|---|---|---|
urls | string[] | Да | Начальные URL для обхода (поддерживает карты сайтов) |
maxPagesPerCrawl | integer | Нет | Максимальное общее количество страниц для сканирования. По умолчанию: 100 |
minTextLength | integer | Нет | Минимальная длина текста в символах для включения. По умолчанию: 150 |
outputFormat | string | Нет | Формат вывода: "jsonl" или "csv". По умолчанию: "jsonl" |
maxCrawlDepth | integer | Нет | Максимальная глубина перехода по ссылкам от начальных URL. По умолчанию: 3 |
Совет: Начните с 10-20 страниц на URL для оценки объема данных перед масштабированием.
Структура вывода
Каждая сканированная страница создает одну запись набора данных:
{"url": "https://example.com/page","title": "Заголовок страницы","text": "Чистый извлеченный текстовый контент без HTML, навигации или шаблонных элементов...","wordCount": 427,"scrapedAt": "2024-01-01T12:34:56.789Z","domain": "example.com"}
Поля:
url: Канонический URL страницыtitle: Заголовок страницы или первый H1text: Очищенный текстовый контент с нормализованными пробеламиwordCount: Количество слов в извлеченном текстеscrapedAt: Временная метка извлечения в формате ISO 8601domain: Домен источника для лучшей организации данных