Arxiv Paper Intelligence avatar

Arxiv Paper Intelligence

Pricing

Pay per usage

Go to Apify Store
Arxiv Paper Intelligence

Arxiv Paper Intelligence

Search and extract ArXiv papers, abstracts, authors, and citations. Track research trends across any scientific field. AI-powered analysis.

Pricing

Pay per usage

Rating

5.0

(3)

Developer

viralanalyzer

viralanalyzer

Maintained by Community

Actor stats

0

Bookmarked

2

Total users

1

Monthly active users

2 days ago

Last modified

Categories

Share

📄 ArXiv Paper Intelligence — Academic Paper Scraper & Research Monitor

🔗 View on Apify Store | 🇺🇸 English | 🇧🇷 Português

Scrape academic papers from ArXiv using the public Atom API. Search by keyword, browse by category (cs.AI, cs.LG, stat.ML, etc.), or fetch specific papers by ArXiv ID — with titles, abstracts, authors, categories, and PDF links.

✨ Features

  • 🔍 Keyword search — Use ArXiv query syntax (ti:transformer+AND+ti:attention, all:machine+learning)
  • 📂 Browse by category — cs.AI, cs.LG, cs.CL, cs.CV, stat.ML, math.OC, physics.comp-ph, and more
  • 🆔 Fetch by ArXiv ID — Get specific papers by their ArXiv identifier (e.g., 2301.12345)
  • 📑 Rich metadata — Title, abstract (trimmed to 500 chars), authors, categories, dates
  • 📥 Direct PDF links — Each paper includes its PDF download URL
  • 🔄 Sorting options — Sort by relevance, last updated, or submission date
  • Rate-limit compliant — Respects ArXiv's 1 request per 3 seconds policy
  • 🛡️ Anti-placeholder guardrails — Only real data, never fake results

📥 Input

ParameterTypeRequiredDefaultDescription
modeStringYessearchScraping mode: search, by_category, or by_ids
searchQueriesArrayOnly in search modeKeywords to search for (max 10 queries)
categoriesArrayOnly in by_category modeArXiv category codes (e.g., cs.AI, cs.LG) (max 5)
arxivIdsArrayOnly in by_ids modeSpecific ArXiv paper IDs (max 50)
sortByStringNorelevanceSort order: relevance, lastUpdatedDate, or submittedDate
maxItemsIntegerNo50Maximum number of papers to scrape (1–200)

Input Example

{
"mode": "search",
"searchQueries": ["all:large+language+model", "ti:transformer+AND+ti:attention"],
"sortBy": "submittedDate",
"maxItems": 20
}

📤 Output

FieldTypeDescription
arxivIdStringArXiv paper identifier (e.g., 2301.12345)
titleStringPaper title
abstractStringPaper abstract (trimmed to 500 characters)
authorsArrayList of author names
primaryCategoryStringPrimary ArXiv category (e.g., cs.CL)
categoriesArrayAll ArXiv categories for the paper
publishedDateStringOriginal publication date (ISO 8601)
updatedDateStringLast update date (ISO 8601)
pdfUrlStringDirect link to PDF download
arxivUrlStringArXiv abstract page URL
platformStringAlways arxiv
scrapedAtStringTimestamp of data extraction (ISO 8601)

Output Example

{
"arxivId": "2303.08774",
"title": "GPT-4 Technical Report",
"abstract": "We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers...",
"authors": ["OpenAI", "Josh Achiam", "Steven Adler", "Sandhini Agarwal"],
"primaryCategory": "cs.CL",
"categories": ["cs.CL", "cs.AI"],
"publishedDate": "2023-03-15T17:15:04Z",
"updatedDate": "2024-03-04T03:44:33Z",
"pdfUrl": "http://arxiv.org/pdf/2303.08774v6",
"arxivUrl": "http://arxiv.org/abs/2303.08774",
"platform": "arxiv",
"scrapedAt": "2026-03-06T14:30:00.000Z"
}

📋 Use Cases

  • 📊 Research monitoring — Track new papers in your field (AI, ML, NLP, physics, math)
  • 🏢 Competitive intelligence — Monitor publications from specific research labs or companies
  • 📈 Trend analysis — Identify hot topics by analyzing paper volumes across categories
  • 🎓 Literature reviews — Bulk-collect papers for systematic reviews or meta-analyses
  • 🤖 AI dataset building — Feed paper metadata into recommendation engines or knowledge graphs
  • 📰 Newsletter curation — Automatically find the latest papers for research digests

❓ FAQ

Q: What ArXiv query syntax is supported? A: You can use ArXiv's standard query syntax — ti: for title, au: for author, abs: for abstract, all: for all fields. Combine with +AND+, +OR+, +ANDNOT+. Example: ti:transformer+AND+au:vaswani.

Q: How many papers can I scrape per run? A: Up to 200 papers per run (maxItems parameter). For larger datasets, run multiple times with different queries or categories.

Q: Does this actor respect ArXiv rate limits? A: Yes, the actor enforces a minimum 3.1-second delay between API requests, complying with ArXiv's policy of 1 request per 3 seconds. Retries with exponential backoff on 429/503 errors.

Q: What happens if a search returns zero results? A: The actor throws an explicit error instead of returning silently — you will always know if your query produced no matches. Check your query syntax or try broader terms.

Q: Are abstracts complete or truncated? A: Abstracts are trimmed to 500 characters to keep the dataset compact. The full abstract is available at the arxivUrl link.

💰 Pricing

This actor uses Pay Per Event (PPE) pricing:

MetricCost
Per paper scraped$0.03

📝 Changelog

v1.0 (Current)

  • ✅ Search by keyword with ArXiv query syntax
  • ✅ Browse by ArXiv category (cs.AI, cs.LG, stat.ML, etc.)
  • ✅ Fetch specific papers by ArXiv ID (batch of up to 50)
  • ✅ Sorting by relevance, last updated, or submission date
  • ✅ Rate-limit compliant (1 req / 3s with exponential backoff)
  • ✅ Anti-placeholder guardrails — real data only
  • ✅ PPE billing via Actor.charge()

📄 ArXiv Paper Intelligence — Extrator de Artigos Acadêmicos e Monitor de Pesquisas

🇺🇸 English | 🇧🇷 Português

Extraia artigos acadêmicos do ArXiv usando a API pública Atom. Pesquise por palavra-chave, navegue por categoria (cs.AI, cs.LG, stat.ML, etc.), ou busque artigos específicos por ID do ArXiv — com títulos, resumos, autores, categorias e links para PDF.

✨ Funcionalidades

  • 🔍 Pesquisa por palavra-chave — Use a sintaxe de consulta do ArXiv (ti:transformer+AND+ti:attention, all:machine+learning)
  • 📂 Navegação por categoria — cs.AI, cs.LG, cs.CL, cs.CV, stat.ML, math.OC, physics.comp-ph e mais
  • 🆔 Busca por ID do ArXiv — Obtenha artigos específicos pelo identificador (ex.: 2301.12345)
  • 📑 Metadados completos — Título, resumo (limitado a 500 caracteres), autores, categorias, datas
  • 📥 Links diretos para PDF — Cada artigo inclui a URL de download do PDF
  • 🔄 Opções de ordenação — Ordene por relevância, última atualização ou data de submissão
  • Conformidade com rate limit — Respeita a política do ArXiv de 1 requisição a cada 3 segundos
  • 🛡️ Proteção anti-placeholder — Apenas dados reais, nunca resultados falsos

📥 Entrada

ParâmetroTipoObrigatórioPadrãoDescrição
modeStringSimsearchModo de extração: search, by_category ou by_ids
searchQueriesArrayApenas no modo searchPalavras-chave para pesquisar (máximo 10 consultas)
categoriesArrayApenas no modo by_categoryCódigos de categoria do ArXiv (ex.: cs.AI, cs.LG) (máximo 5)
arxivIdsArrayApenas no modo by_idsIDs específicos de artigos do ArXiv (máximo 50)
sortByStringNãorelevanceOrdenação: relevance, lastUpdatedDate ou submittedDate
maxItemsIntegerNão50Número máximo de artigos para extrair (1–200)

Exemplo de Entrada

{
"mode": "search",
"searchQueries": ["all:large+language+model", "ti:transformer+AND+ti:attention"],
"sortBy": "submittedDate",
"maxItems": 20
}

📤 Saída

CampoTipoDescrição
arxivIdStringIdentificador do artigo no ArXiv (ex.: 2301.12345)
titleStringTítulo do artigo
abstractStringResumo do artigo (limitado a 500 caracteres)
authorsArrayLista de nomes dos autores
primaryCategoryStringCategoria principal do ArXiv (ex.: cs.CL)
categoriesArrayTodas as categorias do ArXiv para o artigo
publishedDateStringData de publicação original (ISO 8601)
updatedDateStringData da última atualização (ISO 8601)
pdfUrlStringLink direto para download do PDF
arxivUrlStringURL da página de resumo no ArXiv
platformStringSempre arxiv
scrapedAtStringTimestamp da extração dos dados (ISO 8601)

Exemplo de Saída

{
"arxivId": "2303.08774",
"title": "GPT-4 Technical Report",
"abstract": "We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers...",
"authors": ["OpenAI", "Josh Achiam", "Steven Adler", "Sandhini Agarwal"],
"primaryCategory": "cs.CL",
"categories": ["cs.CL", "cs.AI"],
"publishedDate": "2023-03-15T17:15:04Z",
"updatedDate": "2024-03-04T03:44:33Z",
"pdfUrl": "http://arxiv.org/pdf/2303.08774v6",
"arxivUrl": "http://arxiv.org/abs/2303.08774",
"platform": "arxiv",
"scrapedAt": "2026-03-06T14:30:00.000Z"
}

📋 Casos de Uso

  • 📊 Monitoramento de pesquisas — Acompanhe novos artigos na sua área (IA, ML, NLP, física, matemática)
  • 🏢 Inteligência competitiva — Monitore publicações de laboratórios de pesquisa ou empresas específicas
  • 📈 Análise de tendências — Identifique tópicos quentes analisando volumes de artigos por categoria
  • 🎓 Revisões de literatura — Colete artigos em massa para revisões sistemáticas ou meta-análises
  • 🤖 Construção de datasets de IA — Alimente metadados de artigos em motores de recomendação ou grafos de conhecimento
  • 📰 Curadoria de newsletters — Encontre automaticamente os artigos mais recentes para resumos de pesquisa

❓ Perguntas Frequentes

P: Qual sintaxe de consulta do ArXiv é suportada? R: Você pode usar a sintaxe padrão de consulta do ArXiv — ti: para título, au: para autor, abs: para resumo, all: para todos os campos. Combine com +AND+, +OR+, +ANDNOT+. Exemplo: ti:transformer+AND+au:vaswani.

P: Quantos artigos posso extrair por execução? R: Até 200 artigos por execução (parâmetro maxItems). Para conjuntos de dados maiores, execute várias vezes com consultas ou categorias diferentes.

P: Este actor respeita os limites de taxa do ArXiv? R: Sim, o actor impõe um atraso mínimo de 3,1 segundos entre requisições à API, cumprindo a política do ArXiv de 1 requisição a cada 3 segundos. Tentativas com backoff exponencial em erros 429/503.

P: O que acontece se uma pesquisa retornar zero resultados? R: O actor lança um erro explícito em vez de retornar silenciosamente — você sempre saberá se sua consulta não produziu resultados. Verifique a sintaxe da consulta ou tente termos mais amplos.

P: Os resumos são completos ou truncados? R: Os resumos são limitados a 500 caracteres para manter o dataset compacto. O resumo completo está disponível no link arxivUrl.

💰 Preços

Este actor usa precificação Pay Per Event (PPE):

MétricaCusto
Por artigo extraído$0,03

🔗 Actors Relacionados

📝 Changelog

v1.0 (Atual)

  • ✅ Pesquisa por palavra-chave com sintaxe de consulta do ArXiv
  • ✅ Navegação por categoria do ArXiv (cs.AI, cs.LG, stat.ML, etc.)
  • ✅ Busca de artigos específicos por ID do ArXiv (lote de até 50)
  • ✅ Ordenação por relevância, última atualização ou data de submissão
  • ✅ Conformidade com rate limit (1 req / 3s com backoff exponencial)
  • ✅ Proteção anti-placeholder — apenas dados reais
  • ✅ Cobrança PPE via Actor.charge()