Áreas de Pesquisa — 5 Domínios
A Open LLMO Research Initiative organiza seu trabalho em cinco áreas de pesquisa. Cada área roda de forma independente, mas alimenta o conjunto de métricas definido pelo LLMOFramework Score.
Visão geral
Seção intitulada “Visão geral”| Área | Pergunta central |
|---|---|
| 1. AI Citation Analysis | Que conteúdo LLMs citam, e em que condições? |
| 2. Grounding Visibility | Como tornar visíveis as fontes de grounding da IA? |
| 3. LLM Retrieval Optimization | Como otimizar documentos para a camada de retrieval de LLMs? |
| 4. AI-native Documentation | Que formatos de documento LLMs processam melhor? |
| 5. Agent-oriented Information Architecture | Que estruturas de informação são mais fáceis de navegar para agentes de IA? |
1. AI Citation Analysis
Seção intitulada “1. AI Citation Analysis”Análise de qual conteúdo é citado por LLMs (ChatGPT, Claude, Gemini, Perplexity) para um dado tópico. As observações cobrem frequência de citação, características estruturais dos documentos citados e o caminho de retrieval que levou à citação.
Perguntas-chave
Seção intitulada “Perguntas-chave”- Quanto os domínios citados se sobrepõem entre LLMs para o mesmo tópico?
- É possível identificar as características estruturais (hierarquia de headings, tabelas, densidade estatística, contagem de links externos) dos documentos citados?
- É possível construir um checklist a posteriori para tornar conteúdo mais provável de ser citado?
Direção atual
Seção intitulada “Direção atual”A coleta de dados para observação de citações por IA está em curso. Plano para Phase 1: enviar Citation Visibility como métrica no OSS llmo-checker.
2. Grounding Visibility
Seção intitulada “2. Grounding Visibility”Visualização de grounding para respostas de IA. Cobre em que um LLM se apoiou para produzir uma resposta e se essa fonte pode ser rastreada até uma referência primária verificável.
Perguntas-chave
Seção intitulada “Perguntas-chave”- É possível definir um método-padrão de reverse lookup da resposta da IA até o documento fonte?
- Tornar o grounding “visível” no site (fontes explícitas, referências de dados, formatação de citação) correlaciona com taxas mais altas de citação por IA?
- Há correlação entre alucinação e grounding fraco?
Direção atual
Seção intitulada “Direção atual”Parcialmente abordado como Citation Signals (o quinto componente do LLMO Framework). Plano para Phase 1: quantificar como métrica de Grounding Stability.
3. LLM Retrieval Optimization
Seção intitulada “3. LLM Retrieval Optimization”Otimização no lado do documento para a camada de retrieval de LLMs (RAG, embedding retrieval, plugins de busca na web, etc.). Cobre estratégia de chunking, estrutura semântica, comprimento de documento e design de headings.
Perguntas-chave
Seção intitulada “Perguntas-chave”- Como varia a relação entre tamanho de chunk e precisão de retrieval entre tópicos?
- Qual é a diferença de eficiência de retrieval entre Markdown, HTML e JSON-LD?
- Como a densidade de links internos contribui para expansão de contexto em busca por IA?
Direção atual
Seção intitulada “Direção atual”O próprio llmoframework.com serve como referência de implementação. Plano para Phase 1: publicar um experimento de comparação de chunking.
4. AI-native Documentation
Seção intitulada “4. AI-native Documentation”Pesquisa sobre formatos de documento que LLMs leem e escrevem bem. Cobre llms.txt, convenções de Markdown e a forma ótima de metadados orientados a IA.
Perguntas-chave
Seção intitulada “Perguntas-chave”- Quais LLMs e crawlers realmente consultam llms.txt?
- Onde fica o balanço ótimo entre eficiência de retrieval e poder expressivo entre Markdown e HTML?
- Metadados estruturados para IA (JSON-LD, etc.) afetam taxas de citação?
Direção atual
Seção intitulada “Direção atual”Implementação e medição de efeito de llms.txt em curso. Plano para Phase 1: publicar a ferramenta OSS llms.txt-validator.
5. Agent-oriented Information Architecture
Seção intitulada “5. Agent-oriented Information Architecture”Pesquisa sobre arquitetura da informação para agentes de IA (Claude Code, Cursor, agentes autônomos, etc.). Cobre exposição de MCP (Model Context Protocol), design de documentação de API e descobribilidade.
Perguntas-chave
Seção intitulada “Perguntas-chave”- Sites que expõem servidores MCP têm vantagem em visibilidade na busca por IA?
- Docs de API agent-readable (OpenAPI + linguagem natural) são mais descobríveis do que referências de API puras?
- É possível estabelecer métodos para observar comportamento de exploração de agentes autônomos?
Direção atual
Seção intitulada “Direção atual”Experimentos sobre o impacto da exposição de MCP na visibilidade de busca em curso. Plano para Phase 1: propor métrica preliminar de Agent Visibility.
Mapeamento para Phases
Seção intitulada “Mapeamento para Phases”| Área | Entrega planejada para Phase 1 |
|---|---|
| AI Citation Analysis | Métrica Citation Visibility no llmo-checker |
| Grounding Visibility | Métrica Grounding Stability + dataset de avaliação |
| LLM Retrieval Optimization | Relatório de experimento de comparação de chunking |
| AI-native Documentation | OSS llms.txt-validator |
| Agent-oriented IA | Métrica preliminar de Agent Visibility |
O progresso de cada área é publicado no Changelog e nas GitHub Issues.