コンテンツにスキップ

3. Retrieval Signals

Retrieval Signalsは、AIシステムがコンテンツを発見しアクセスするための指標と仕組みである。従来のクロール可能性と、より新しいAI固有の発見方法の両方が含まれる。

どれほど明確で構造化されたコンテンツであっても、AIシステムがそれを見つけられなければ意味がない。LLMがRAG(Retrieval-Augmented Generation)、Webブラウジング、ツール利用を活用する場面が増える中、コンテンツは複数のチャネルから発見可能である必要がある。

1. 基本的なクロール可能性を確保する

Section titled “1. 基本的なクロール可能性を確保する”
  • AIクローラーを許可する最新のrobots.txtを維持する
  • sitemap.xmlを生成し送信する
  • 可能な限りJavaScriptなしでページが読み込まれるようにする(SSG/SSR)

サイトの簡潔な要約、主要ページ、コンテンツのナビゲーション方法を提供する/llms.txtファイルを作成する。これはサイトの「About」ページに相当するAI向けのものである。

3. 機械可読なエンドポイントを提供する

Section titled “3. 機械可読なエンドポイントを提供する”

AIシステムが容易に消費できるフォーマットでコンテンツを提供する:

  • 主要ページのMarkdownバージョン
  • 構造化データ用のAPIエンドポイント
  • 更新情報用のRSS/Atomフィード

Perplexity、SearchGPT、Google AI OverviewsなどのAI搭載検索ツールにコンテンツが表示されるよう、それぞれのガイドラインに従う。

5. プラットフォーム間で相互参照する

Section titled “5. プラットフォーム間で相互参照する”

複数のプラットフォーム(Webサイト、GitHub、LinkedInなど)で一貫した情報を公開し、AIシステムが複数のソースからコンテンツを三角検証できるようにする。

最小限のRetrieval構成:

/robots.txt — Allow crawlers
/sitemap.xml — List all pages
/llms.txt — AI-specific summary
/feed.xml — RSS feed

強化されたRetrieval構成:

/api/info.json — Structured data endpoint
/docs/overview.md — Markdown version of docs
  • robots.txtが主要なAIクローラーを許可している
  • sitemap.xmlが生成され最新の状態である
  • 正確なサイト要約を含むllms.txtファイルが存在する
  • 主要コンテンツがJavaScriptなしで利用可能である
  • 相互参照のために複数のプラットフォームでコンテンツが公開されている