METHODOLOGY

決定論 × LLM × 人間
3層で品質を診断する

生成AIの判定だけに品質評価を委ねるべきではない、というのが私たちの立場です。ui.design の診断エンジンは「機械が実測できることは機械が確定し、文脈の判断はLLMが補い、最終責任は人間が持つ」という3層構造で設計されています。

決定論層 — 機械が実測し、確定する

ブラウザ（Chromium）で実際にページをレンダリングし、機械が再現可能な方法で実測します。axe-core 全ルール（WCAG 2.0/2.1/2.2 A・AA＋ベストプラクティス）、文書構造（見出し階層・ランドマーク・画像alt・lang・iframe title）、コントラスト（computed-style 推定に加えてスクリーンショットのピクセル実測）、タップターゲット寸法、320px幅リフロー、テキスト間隔調整への耐性、キーボードフォーカスの完全走査（トラップ・可視性・隠蔽）、メタ情報・well-known ファイルなどを検査します。

実測根拠を持つ所見だけが confidence=confirmed（確定）を名乗れます。

LLM層 — 文脈を読む、ただし薄く

スクリーンショット・DOM抜粋・決定論層の所見上位をLLMに渡し、視覚階層やタイポグラフィなど機械では確定しづらい品質の批評、文脈依存の「要確認」付与、優先度のトリアージを行います。LLMはAPI経由で利用し、いつでも差し替えられる薄い層として設計しています。判定の校正は人間検証済みデータ（ゴールデンセット）への回帰テストで行います。

LLM層の所見は confirmed を名乗れません（最大 likely）。総合スコアへの寄与は30%が上限です。

人間層 — 最終責任のゲート

有償納品物（UI Audit のレポート、UI Monitor の重大アラート）は、公開・送付の前に必ず人間の専門家が確認します。人間の最終判定はゴールデンセットに蓄積し、決定論層・LLM層の精度改善に還元します。

無料のUI Scanは自動処理のみで完結します（人間レビューは含まれません）。

スコアリング

各層100点からの減点法: 致命的(critical)=15点 / 重大(serious)=8点 / 中程度(moderate)=3点 / 軽微(minor)=1点（各層の下限は0点）
総合スコア = 決定論層 70% + LLM層 30%。LLM所見がない場合は決定論層のみで100%換算し、その旨を結果に明記します
等級: A（90以上）/ B（80以上）/ C（65以上）/ D（50以上）/ E（50未満）
減点の重みは人間検証済みデータ（ゴールデンセット）の蓄積に合わせて校正していきます

所見の確信度（confidence）

すべての所見に、どの程度確かなのかを示す確信度を付与します。「自動検査がどこまで言えるか」を誤魔化さないための仕組みです。

confirmed（確定）	決定論的検査が実測値（ピクセル計測・DOM計測等）に基づき確認した所見。原則として再実行で再現します。
likely（高確度）	検出ロジック上はほぼ確実ですが、意図的なデザインや例外条件の可能性がわずかに残る所見。
needs-review（要確認）	自動判定では断定できないため、人間による確認を推奨する所見。

スコープ定義（公開版）

すべてのレポートに、次のスコープ定義を必ず含めます。診断は「検査した範囲についての所見」であり、それ以上を名乗りません。

検査するもの: 対象ページが診断時点でブラウザ（Chromium、デスクトップ 1440×900／モバイル 390×844）に描画した内容に対する自動検査。決定論層の全チェックと、APIキー設定時のみLLMによる視覚批評を実行します。
検査しないもの: ログイン後の画面、フォーム送信等の操作で遷移・出現するUI、クロール対象外のページ、PDF・動画・音声コンテンツの内部、支援技術（スクリーンリーダー等）実機での確認、人間の専門家による精査（無料のScanの場合）。
第三者タグの扱い: 広告・計測タグ・SNS埋め込み等の第三者配信コンテンツは、診断時点でページ上に描画されていた範囲のみ検査対象に含まれます。第三者コード自体の品質や配信内容の変動は検査対象外です。
結果の位置づけ: 本診断はWCAG等の基準への準拠を保証するものではありません。診断・所見の提供までを行います。

運用原則

01「準拠保証」「準拠率○%」という表現は使いません。confidence=confirmed は決定論層の所見のみに付与します
02すべてのレポートに、検査した範囲・していない範囲・第三者タグの扱い（スコープ定義）を明記します
03知見はLLMのプロンプトではなく、検査ロジックと人間検証済みデータに蓄積します
04公開サイトの分析は建設的なトーンで、公開ページのみを対象に、レート制限を守って行います
05スコア・順位・将来の認証は金銭で変わりません

この方法論で、あなたのサイトを診断できます。

無料でサイトを診断する

決定論 × LLM × 人間3層で品質を診断する