AI用語集
人工知能の完全辞典
忠実度スコア
生成された回答が提供されたコンテキストに対してどの程度忠実であるかを評価する指標。主張が検索されたソースによって事実的に裏付けられているかどうかを測定する。
コンテキスト関連性
検索された文書やパッセージが元のクエリに対してどの程度関連しているかを定量化する指標。RAGシステムの検索コンポーネントの品質評価に不可欠。
回答関連性
生成された回答が質問に直接的かつ完全に答えている程度を測定するスコア。事実の真実性とは独立して評価される。
検索精度
検索された全文書中の関連文書の割合。システムが有用な情報のみを返す効率性を評価する。
検索再現率
検索された関連文書数とナレッジベース内で利用可能な全関連文書数の比率。
ナレッジF1スコア
検索されたナレッジの精度と再現率の調和平均。RAGシステムの全体的な性能のバランスの取れた測定値を提供する。
コンテキスト利用率
検索されたコンテキストの関連情報のうち、最終回答で実際に使用されている割合。ソース利用の効率性を測定する。
幻覚率
モデルが提供されたコンテキストによって裏付けられていない情報を生成する頻度。RAGシステムの信頼性の重要な指標。
意味的類似性スコア
生成された回答と参照回答間の意味的類似性の測定。意味のニュアンスを捉えるために埋め込みを使用。
回答の完全性
生成された回答が質問のすべての関連側面をカバーしているかの評価。網羅的な回答を保証。
検索レイテンシ
知識ベースから関連文書を取得するのに必要な時間。本番環境でのユーザー体験にとって重要な基準。
トークン効率比率
使用された関連トークン数と生成された総トークン数の比率。RAGシステムの経済的効率を測定。
根拠性スコア
回答内の各主張が検索されたソース内の明示的な証拠によってどの程度裏付けられているかを評価する指標。
ソース帰属精度
システムが回答の各部分を検索されたコンテキスト内の適切な文書ソースに正しく帰属させる精度。
回答の一貫性
生成された回答の内部一貫性の測定。回答の異なる部分間の矛盾のなさを評価。
クエリ曖昧性解決
RAGシステムがユーザークエリの曖昧性を解釈し解決して、最も関連性の高い情報を検索する能力。
情報重複スコア
回答に含まれる情報と検索された文脈内で利用可能な情報との重複度を測定し、冗長性を回避する。
回答精度
生成された回答の事実的正確性を、グランドトゥルースまたは検証済みの参照ソースと比較して評価する。
検索カバレッジ
検索システムが実際にアクセス可能な知識ベースの範囲。多様な質問に回答する能力に影響を与える。
回答の一貫性
生成された回答の論理的構造と物語の流れの質。情報を明確かつ理解しやすく提示することを保証する。