本文へスキップ
ui.design

METHODOLOGY

決定論 × LLM × 人間
3層で品質を診断する

生成AIの判定だけに品質評価を委ねるべきではない、というのが私たちの立場です。ui.design の診断エンジンは「機械が実測できることは機械が確定し、文脈の判断はLLMが補い、最終責任は人間が持つ」という3層構造で設計されています。

01

決定論層 — 機械が実測し、確定する

ブラウザ(Chromium)で実際にページをレンダリングし、機械が再現可能な方法で実測します。axe-core 全ルール(WCAG 2.0/2.1/2.2 A・AA+ベストプラクティス)、文書構造(見出し階層・ランドマーク・画像alt・lang・iframe title)、コントラスト(computed-style 推定に加えてスクリーンショットのピクセル実測)、タップターゲット寸法、320px幅リフロー、テキスト間隔調整への耐性、キーボードフォーカスの完全走査(トラップ・可視性・隠蔽)、メタ情報・well-known ファイルなどを検査します。

実測根拠を持つ所見だけが confidence=confirmed(確定)を名乗れます。

02

LLM層 — 文脈を読む、ただし薄く

スクリーンショット・DOM抜粋・決定論層の所見上位をLLMに渡し、視覚階層やタイポグラフィなど機械では確定しづらい品質の批評、文脈依存の「要確認」付与、優先度のトリアージを行います。LLMはAPI経由で利用し、いつでも差し替えられる薄い層として設計しています。判定の校正は人間検証済みデータ(ゴールデンセット)への回帰テストで行います。

LLM層の所見は confirmed を名乗れません(最大 likely)。総合スコアへの寄与は30%が上限です。

03

人間層 — 最終責任のゲート

有償納品物(UI Audit のレポート、UI Monitor の重大アラート)は、公開・送付の前に必ず人間の専門家が確認します。人間の最終判定はゴールデンセットに蓄積し、決定論層・LLM層の精度改善に還元します。

無料のUI Scanは自動処理のみで完結します(人間レビューは含まれません)。

スコアリング

  • 各層100点からの減点法: 致命的(critical)=15点 / 重大(serious)=8点 / 中程度(moderate)=3点 / 軽微(minor)=1点(各層の下限は0点)
  • 総合スコア = 決定論層 70% + LLM層 30%。LLM所見がない場合は決定論層のみで100%換算し、その旨を結果に明記します
  • 等級: A(90以上)/ B(80以上)/ C(65以上)/ D(50以上)/ E(50未満)
  • 減点の重みは人間検証済みデータ(ゴールデンセット)の蓄積に合わせて校正していきます

所見の確信度(confidence)

すべての所見に、どの程度確かなのかを示す確信度を付与します。「自動検査がどこまで言えるか」を誤魔化さないための仕組みです。

confirmed(確定)決定論的検査が実測値(ピクセル計測・DOM計測等)に基づき確認した所見。原則として再実行で再現します。
likely(高確度)検出ロジック上はほぼ確実ですが、意図的なデザインや例外条件の可能性がわずかに残る所見。
needs-review(要確認)自動判定では断定できないため、人間による確認を推奨する所見。

スコープ定義(公開版)

すべてのレポートに、次のスコープ定義を必ず含めます。診断は「検査した範囲についての所見」であり、それ以上を名乗りません。

検査するもの
対象ページが診断時点でブラウザ(Chromium、デスクトップ 1440×900/モバイル 390×844)に描画した内容に対する自動検査。決定論層の全チェックと、APIキー設定時のみLLMによる視覚批評を実行します。
検査しないもの
ログイン後の画面、フォーム送信等の操作で遷移・出現するUI、クロール対象外のページ、PDF・動画・音声コンテンツの内部、支援技術(スクリーンリーダー等)実機での確認、人間の専門家による精査(無料のScanの場合)。
第三者タグの扱い
広告・計測タグ・SNS埋め込み等の第三者配信コンテンツは、診断時点でページ上に描画されていた範囲のみ検査対象に含まれます。第三者コード自体の品質や配信内容の変動は検査対象外です。
結果の位置づけ
本診断はWCAG等の基準への準拠を保証するものではありません。診断・所見の提供までを行います。

運用原則

  1. 01「準拠保証」「準拠率○%」という表現は使いません。confidence=confirmed は決定論層の所見のみに付与します
  2. 02すべてのレポートに、検査した範囲・していない範囲・第三者タグの扱い(スコープ定義)を明記します
  3. 03知見はLLMのプロンプトではなく、検査ロジックと人間検証済みデータに蓄積します
  4. 04公開サイトの分析は建設的なトーンで、公開ページのみを対象に、レート制限を守って行います
  5. 05スコア・順位・将来の認証は金銭で変わりません

この方法論で、あなたのサイトを診断できます。

無料でサイトを診断する