Domaines de recherche — 5 axes
L’Open LLMO Research Initiative organise son travail en cinq domaines de recherche. Chaque domaine progresse de façon indépendante mais alimente in fine l’ensemble de métriques défini par le LLMOFramework Score.
Vue d’ensemble
Section intitulée « Vue d’ensemble »| Domaine | Question centrale |
|---|---|
| 1. AI Citation Analysis | Quel contenu les LLM citent-ils, et dans quelles conditions ? |
| 2. Grounding Visibility | Comment rendre visibles les sources de grounding de l’IA ? |
| 3. LLM Retrieval Optimization | Comment optimiser les documents pour la couche de retrieval des LLM ? |
| 4. AI-native Documentation | Quels formats de document les LLM traitent-ils le mieux ? |
| 5. Agent-oriented Information Architecture | Quelles structures d’information sont les plus faciles à naviguer pour les agents d’IA ? |
1. AI Citation Analysis
Section intitulée « 1. AI Citation Analysis »Analyse du contenu cité par les LLM (ChatGPT, Claude, Gemini, Perplexity) pour un sujet donné. Les observations couvrent la fréquence de citation, les caractéristiques structurelles des documents cités et le chemin de retrieval qui a mené à la citation.
Questions clés
Section intitulée « Questions clés »- À quel point les domaines cités se recoupent-ils entre LLM pour un même sujet ?
- Peut-on identifier les caractéristiques structurelles (hiérarchie des headings, tableaux, densité statistique, nombre de liens externes) des documents cités ?
- Peut-on construire a posteriori une checklist pour rendre le contenu plus susceptible d’être cité ?
Direction actuelle
Section intitulée « Direction actuelle »La collecte de données pour l’observation des citations IA est en cours. Plan pour la Phase 1 : livrer Citation Visibility comme métrique dans l’OSS llmo-checker.
2. Grounding Visibility
Section intitulée « 2. Grounding Visibility »Visualisation du grounding pour les réponses de l’IA. Couvre ce sur quoi un LLM s’est appuyé pour produire une réponse et si cette source peut être tracée jusqu’à une référence primaire vérifiable.
Questions clés
Section intitulée « Questions clés »- Peut-on définir une méthode standard de reverse lookup depuis la réponse IA jusqu’au document source ?
- Rendre le grounding « visible » sur un site (sources explicites, références aux données, formatage des citations) corrèle-t-il avec un taux de citation IA plus élevé ?
- L’hallucination est-elle corrélée à un grounding faible ?
Direction actuelle
Section intitulée « Direction actuelle »Déjà partiellement traité comme Citation Signals (le cinquième composant du LLMO Framework). Plan pour la Phase 1 : quantifier comme métrique Grounding Stability.
3. LLM Retrieval Optimization
Section intitulée « 3. LLM Retrieval Optimization »Optimisation côté document pour la couche de retrieval des LLM (RAG, embedding retrieval, plugins de recherche web, etc.). Couvre la stratégie de chunking, la structure sémantique, la longueur de document et le design des headings.
Questions clés
Section intitulée « Questions clés »- Comment varie la relation entre taille de chunk et précision de retrieval selon les sujets ?
- Quel est l’écart d’efficacité de retrieval entre Markdown, HTML et JSON-LD ?
- Comment la densité de liens internes contribue-t-elle à l’expansion de contexte dans la recherche IA ?
Direction actuelle
Section intitulée « Direction actuelle »llmoframework.com sert lui-même de référence d’implémentation. Plan pour la Phase 1 : publier une expérience comparative de chunking.
4. AI-native Documentation
Section intitulée « 4. AI-native Documentation »Recherche sur les formats de document que les LLM lisent et écrivent bien. Couvre llms.txt, les conventions Markdown et la forme optimale des métadonnées ciblant l’IA.
Questions clés
Section intitulée « Questions clés »- Quels LLM et crawlers consultent réellement llms.txt ?
- Où se situe l’équilibre optimal entre efficacité de retrieval et puissance expressive entre Markdown et HTML ?
- Les métadonnées structurées orientées IA (JSON-LD, etc.) affectent-elles les taux de citation ?
Direction actuelle
Section intitulée « Direction actuelle »L’implémentation et la mesure d’effet de llms.txt sont en cours. Plan pour la Phase 1 : publier l’outil OSS llms.txt-validator.
5. Agent-oriented Information Architecture
Section intitulée « 5. Agent-oriented Information Architecture »Recherche sur l’architecture de l’information pour les agents d’IA (Claude Code, Cursor, agents autonomes, etc.). Couvre l’exposition de MCP (Model Context Protocol), le design de la documentation d’API et la découvrabilité.
Questions clés
Section intitulée « Questions clés »- Les sites qui exposent des serveurs MCP ont-ils un avantage sur la visibilité en recherche IA ?
- Les docs d’API agent-readable (OpenAPI + langage naturel) sont-elles plus découvrables que des références d’API simples ?
- Peut-on établir des méthodes pour observer le comportement d’exploration des agents autonomes ?
Direction actuelle
Section intitulée « Direction actuelle »Des expériences sur l’impact de l’exposition MCP sur la visibilité en recherche sont en cours. Plan pour la Phase 1 : proposer une métrique préliminaire d’Agent Visibility.
Mapping vers les Phases
Section intitulée « Mapping vers les Phases »| Domaine | Livrable planifié pour la Phase 1 |
|---|---|
| AI Citation Analysis | Métrique Citation Visibility dans llmo-checker |
| Grounding Visibility | Métrique Grounding Stability + dataset d’évaluation |
| LLM Retrieval Optimization | Rapport d’expérience comparative de chunking |
| AI-native Documentation | OSS llms.txt-validator |
| Agent-oriented IA | Métrique préliminaire d’Agent Visibility |
L’avancement de chaque domaine est publié dans le Changelog et les GitHub Issues.