RAG 质量保障体系构建

RAG 系统的质量直接影响用户体验。如何建立完整的质量保障体系？如何持续监控和改进质量？本文详解 RAG 质量保障体系的构建方法。

一、质量保障框架

1.1 质量维度

RAG 质量维度：

┌─────────────────────────────────────┐
│ 1. 检索质量（Retrieval Quality）     │
│    - 相关性                          │
│    - 召回率                          │
│    - 覆盖率                          │
├─────────────────────────────────────┤
│ 2. 生成质量（Generation Quality）    │
│    - 准确性                          │
│    - 连贯性                          │
│    - 有用性                          │
├─────────────────────────────────────┤
│ 3. 端到端质量（End-to-End Quality）  │
│    - 答案正确性                      │
│    - 用户满意度                      │
│    - 任务完成率                      │
├─────────────────────────────────────┤
│ 4. 系统质量（System Quality）        │
│    - 性能                            │
│    - 可靠性                          │
│    - 安全性                          │
└─────────────────────────────────────┘

1.2 质量保障流程

# qa_framework.py
from typing import Dict, List
from enum import Enum

class QualityStage(Enum):
    """质量阶段"""
    DEVELOPMENT = "development"  # 开发阶段
    STAGING = "staging"          # 预发布阶段
    PRODUCTION = "production"    # 生产阶段
    MONITORING = "monitoring"    # 监控阶段

class RAGQualityFramework:
    """RAG 质量保障框架"""
    
    def __init__(self):
        self.stages = {
            QualityStage.DEVELOPMENT: self._development_qa(),
            QualityStage.STAGING: self._staging_qa(),
            QualityStage.PRODUCTION: self._production_qa(),
            QualityStage.MONITORING: self._monitoring_qa()
        }
    
    def _development_qa(self) -> Dict:
        """开发阶段 QA"""
        return {
            'activities': [
                '单元测试',
                '集成测试',
                'Prompt 测试',
                '性能基准测试'
            ],
            'gates': [
                '测试覆盖率 > 80%',
                '性能基准达标',
                '代码审查通过'
            ]
        }
    
    def _staging_qa(self) -> Dict:
        """预发布阶段 QA"""
        return {
            'activities': [
                'E2E 测试',
                '回归测试',
                '用户验收测试',
                '负载测试'
            ],
            'gates': [
                'E2E 测试通过率 > 95%',
                '无 P0/P1 缺陷',
                '性能指标达标'
            ]
        }
    
    def _production_qa(self) -> Dict:
        """生产阶段 QA"""
        return {
            'activities': [
                '金丝雀发布',
                'A/B 测试',
                '监控告警',
                '用户反馈收集'
            ],
            'gates': [
                '错误率 < 1%',
                '用户满意度 > 4.0',
                '性能指标稳定'
            ]
        }
    
    def _monitoring_qa(self) -> Dict:
        """监控阶段 QA"""
        return {
            'activities': [
                '实时质量监控',
                '定期质量评估',
                '根因分析',
                '持续改进'
            ],
            'metrics': [
                '检索质量指标',
                '生成质量指标',
                '系统性能指标',
                '用户满意度指标'
            ]
        }

二、检索质量保障

2.1 检索质量指标

# retrieval_metrics.py
from typing import Dict, List
import numpy as np

class RetrievalMetrics:
    """检索质量指标"""
    
    def __init__(self):
        pass
    
    def calculate_precision_at_k(
        self,
        retrieved_docs: List[Dict],
        relevant_docs: List[str],
        k: int
    ) -> float:
        """计算 Precision@K"""
        top_k = retrieved_docs[:k]
        retrieved_ids = [doc['id'] for doc in top_k]
        
        relevant_in_top_k = sum(
            1 for doc_id in retrieved_ids
            if doc_id in relevant_docs
        )
        
        return relevant_in_top_k / k
    
    def calculate_recall_at_k(
        self,
        retrieved_docs: List[Dict],
        relevant_docs: List[str],
        k: int
    ) -> float:
        """计算 Recall@K"""
        top_k = retrieved_docs[:k]
        retrieved_ids = [doc['id'] for doc in top_k]
        
        relevant_retrieved = sum(
            1 for doc_id in retrieved_ids
            if doc_id in relevant_docs
        )
        
        return relevant_retrieved / len(relevant_docs) if relevant_docs else 0
    
    def calculate_ndcg_at_k(
        self,
        retrieved_docs: List[Dict],
        relevance_scores: Dict[str, int],
        k: int
    ) -> float:
        """计算 NDCG@K"""
        # DCG
        dcg = 0
        for i, doc in enumerate(retrieved_docs[:k]):
            relevance = relevance_scores.get(doc['id'], 0)
            dcg += (2 ** relevance - 1) / np.log2(i + 2)
        
        # IDCG
        ideal_relevance = sorted(
            relevance_scores.values(),
            reverse=True
        )[:k]
        idcg = sum(
            (2 ** rel - 1) / np.log2(i + 2)
            for i, rel in enumerate(ideal_relevance)
        )
        
        return dcg / idcg if idcg > 0 else 0
    
    def calculate_mrr(
        self,
        retrieved_docs: List[Dict],
        relevant_docs: List[str]
    ) -> float:
        """计算 MRR"""
        for i, doc in enumerate(retrieved_docs, 1):
            if doc['id'] in relevant_docs:
                return 1.0 / i
        return 0
    
    def calculate_coverage(
        self,
        queries: List[str],
        retrieved_docs_list: List[List[Dict]]
    ) -> float:
        """计算覆盖率"""
        # 计算有多少查询检索到了相关文档
        queries_with_relevant = 0
        
        for query, retrieved_docs in zip(queries, retrieved_docs_list):
            if len(retrieved_docs) > 0:
                queries_with_relevant += 1
        
        return queries_with_relevant / len(queries) if queries else 0

2.2 检索质量测试

# retrieval_quality_tests.py
from typing import Dict, List

class RetrievalQualityTests:
    """检索质量测试"""
    
    def __init__(self, retriever, metrics: RetrievalMetrics):
        self.retriever = retriever
        self.metrics = metrics
    
    def run_quality_tests(
        self,
        test_dataset: List[Dict]
    ) -> Dict:
        """运行质量测试"""
        results = {
            'precision_at_1': [],
            'precision_at_5': [],
            'recall_at_5': [],
            'recall_at_10': [],
            'ndcg_at_10': [],
            'mrr': []
        }
        
        for test_case in test_dataset:
            query = test_case['query']
            relevant_docs = test_case['relevant_docs']
            
            # 执行检索
            retrieved_docs = self.retriever.search(query, top_k=10)
            
            # 计算指标
            results['precision_at_1'].append(
                self.metrics.calculate_precision_at_k(
                    retrieved_docs, relevant_docs, k=1
                )
            )
            results['precision_at_5'].append(
                self.metrics.calculate_precision_at_k(
                    retrieved_docs, relevant_docs, k=5
                )
            )
            results['recall_at_5'].append(
                self.metrics.calculate_recall_at_k(
                    retrieved_docs, relevant_docs, k=5
                )
            )
            results['recall_at_10'].append(
                self.metrics.calculate_recall_at_k(
                    retrieved_docs, relevant_docs, k=10
                )
            )
            results['ndcg_at_10'].append(
                self.metrics.calculate_ndcg_at_k(
                    retrieved_docs,
                    {doc: 1 for doc in relevant_docs},
                    k=10
                )
            )
            results['mrr'].append(
                self.metrics.calculate_mrr(
                    retrieved_docs, relevant_docs
                )
            )
        
        # 计算平均值
        summary = {
            metric: sum(values) / len(values) if values else 0
            for metric, values in results.items()
        }
        
        return {
            'summary': summary,
            'detailed_results': results
        }
    
    def identify_failure_cases(
        self,
        test_dataset: List[Dict],
        threshold: float = 0.5
    ) -> List[Dict]:
        """识别失败案例"""
        failure_cases = []
        
        for test_case in test_dataset:
            query = test_case['query']
            relevant_docs = test_case['relevant_docs']
            
            retrieved_docs = self.retriever.search(query, top_k=10)
            
            recall = self.metrics.calculate_recall_at_k(
                retrieved_docs, relevant_docs, k=10
            )
            
            if recall < threshold:
                failure_cases.append({
                    'query': query,
                    'relevant_docs': relevant_docs,
                    'retrieved_docs': [doc['id'] for doc in retrieved_docs],
                    'recall': recall,
                    'analysis': self._analyze_failure(
                        query, relevant_docs, retrieved_docs
                    )
                })
        
        return failure_cases
    
    def _analyze_failure(
        self,
        query: str,
        relevant_docs: List[str],
        retrieved_docs: List[Dict]
    ) -> Dict:
        """分析失败原因"""
        retrieved_ids = [doc['id'] for doc in retrieved_docs]
        
        # 分析未检索到的相关文档
        missed_docs = [
            doc_id for doc_id in relevant_docs
            if doc_id not in retrieved_ids
        ]
        
        return {
            'missed_docs_count': len(missed_docs),
            'possible_reasons': self._identify_reasons(query, missed_docs)
        }
    
    def _identify_reasons(
        self,
        query: str,
        missed_docs: List[str]
    ) -> List[str]:
        """识别可能原因"""
        reasons = []
        
        # 分析查询特点
        if len(query.split()) < 3:
            reasons.append('查询过短，信息不足')
        
        # 分析文档特点
        # ...
        
        return reasons

三、生成质量保障

3.1 生成质量指标

# generation_metrics.py
from typing import Dict, List

class GenerationMetrics:
    """生成质量指标"""
    
    def __init__(self, llm, embedding_model):
        self.llm = llm
        self.embedding_model = embedding_model
    
    def calculate_faithfulness(
        self,
        answer: str,
        contexts: List[str]
    ) -> float:
        """计算忠实度"""
        # 使用 LLM 评估答案是否基于上下文
        prompt = f"""
请评估以下答案是否基于提供的上下文：

上下文：
{" ".join(contexts)}

答案：
{answer}

答案是否完全基于上下文？（0-1 之间的分数）
"""
        response = self.llm.generate(prompt)
        
        # 解析分数
        try:
            score = float(response.strip())
            return max(0, min(1, score))
        except:
            return 0.5
    
    def calculate_answer_relevance(
        self,
        query: str,
        answer: str
    ) -> float:
        """计算答案相关性"""
        query_embedding = self.embedding_model.encode([query])[0]
        answer_embedding = self.embedding_model.encode([answer])[0]
        
        # 计算余弦相似度
        similarity = self._cosine_similarity(
            query_embedding,
            answer_embedding
        )
        
        return similarity
    
    def calculate_context_relevance(
        self,
        query: str,
        contexts: List[str]
    ) -> float:
        """计算上下文相关性"""
        query_embedding = self.embedding_model.encode([query])[0]
        
        relevance_scores = []
        for context in contexts:
            context_embedding = self.embedding_model.encode([context])[0]
            similarity = self._cosine_similarity(
                query_embedding,
                context_embedding
            )
            relevance_scores.append(similarity)
        
        return sum(relevance_scores) / len(relevance_scores) if relevance_scores else 0
    
    def calculate_hallucination_rate(
        self,
        answers: List[str],
        contexts: List[List[str]]
    ) -> float:
        """计算幻觉率"""
        hallucination_count = 0
        
        for answer, context_list in zip(answers, contexts):
            faithfulness = self.calculate_faithfulness(answer, context_list)
            if faithfulness < 0.5:
                hallucination_count += 1
        
        return hallucination_count / len(answers) if answers else 0
    
    def _cosine_similarity(
        self,
        vec1: List[float],
        vec2: List[float]
    ) -> float:
        """计算余弦相似度"""
        import numpy as np
        
        dot_product = np.dot(vec1, vec2)
        norm1 = np.linalg.norm(vec1)
        norm2 = np.linalg.norm(vec2)
        
        if norm1 == 0 or norm2 == 0:
            return 0.0
        
        return dot_product / (norm1 * norm2)

3.2 生成质量测试

# generation_quality_tests.py
from typing import Dict, List

class GenerationQualityTests:
    """生成质量测试"""
    
    def __init__(self, generator, metrics: GenerationMetrics):
        self.generator = generator
        self.metrics = metrics
    
    def run_quality_tests(
        self,
        test_dataset: List[Dict]
    ) -> Dict:
        """运行质量测试"""
        results = {
            'faithfulness': [],
            'answer_relevance': [],
            'context_relevance': [],
            'hallucination_rate': []
        }
        
        all_answers = []
        all_contexts = []
        
        for test_case in test_dataset:
            query = test_case['query']
            contexts = test_case['contexts']
            
            # 生成答案
            answer = self.generator.generate(query, contexts)
            
            all_answers.append(answer)
            all_contexts.append(contexts)
            
            # 计算指标
            results['faithfulness'].append(
                self.metrics.calculate_faithfulness(answer, contexts)
            )
            results['answer_relevance'].append(
                self.metrics.calculate_answer_relevance(query, answer)
            )
            results['context_relevance'].append(
                self.metrics.calculate_context_relevance(query, contexts)
            )
        
        # 计算幻觉率
        results['hallucination_rate'] = self.metrics.calculate_hallucination_rate(
            all_answers, all_contexts
        )
        
        # 计算平均值
        summary = {
            metric: (sum(values) / len(values) if isinstance(values, list) else values)
            for metric, values in results.items()
        }
        
        return {
            'summary': summary,
            'detailed_results': results
        }
    
    def identify_quality_issues(
        self,
        test_dataset: List[Dict],
        faithfulness_threshold: float = 0.7,
        relevance_threshold: float = 0.7
    ) -> List[Dict]:
        """识别质量问题"""
        issues = []
        
        for test_case in test_dataset:
            query = test_case['query']
            contexts = test_case['contexts']
            
            answer = self.generator.generate(query, contexts)
            
            faithfulness = self.metrics.calculate_faithfulness(answer, contexts)
            relevance = self.metrics.calculate_answer_relevance(query, answer)
            
            if faithfulness < faithfulness_threshold:
                issues.append({
                    'type': 'low_faithfulness',
                    'query': query,
                    'answer': answer,
                    'faithfulness': faithfulness,
                    'severity': 'high'
                })
            
            if relevance < relevance_threshold:
                issues.append({
                    'type': 'low_relevance',
                    'query': query,
                    'answer': answer,
                    'relevance': relevance,
                    'severity': 'medium'
                })
        
        return issues

四、端到端质量保障

4.1 端到端评估

# end_to_end_evaluation.py
from typing import Dict, List

class EndToEndEvaluation:
    """端到端评估"""
    
    def __init__(self, rag_system):
        self.rag_system = rag_system
    
    def evaluate_answer_correctness(
        self,
        test_dataset: List[Dict]
    ) -> Dict:
        """评估答案正确性"""
        results = []
        
        for test_case in test_dataset:
            query = test_case['query']
            expected_answer = test_case['expected_answer']
            
            # 获取系统答案
            system_response = self.rag_system.query(query)
            actual_answer = system_response['answer']
            
            # 评估正确性
            correctness = self._evaluate_correctness(
                actual_answer,
                expected_answer
            )
            
            results.append({
                'query': query,
                'expected': expected_answer,
                'actual': actual_answer,
                'correctness': correctness
            })
        
        # 计算平均正确性
        avg_correctness = sum(r['correctness'] for r in results) / len(results)
        
        return {
            'avg_correctness': avg_correctness,
            'detailed_results': results
        }
    
    def _evaluate_correctness(
        self,
        actual: str,
        expected: str
    ) -> float:
        """评估正确性"""
        # 使用语义相似度评估
        from sentence_transformers import SentenceTransformer
        
        model = SentenceTransformer('all-MiniLM-L6-v2')
        
        actual_embedding = model.encode([actual])[0]
        expected_embedding = model.encode([expected])[0]
        
        # 计算余弦相似度
        from sklearn.metrics.pairwise import cosine_similarity
        
        similarity = cosine_similarity(
            [actual_embedding],
            [expected_embedding]
        )[0][0]
        
        return similarity
    
    def collect_user_feedback(
        self,
        query: str,
        response: Dict
    ):
        """收集用户反馈"""
        # 实现用户反馈收集
        pass

4.2 用户满意度评估

# user_satisfaction.py
from typing import Dict, List

class UserSatisfactionEvaluator:
    """用户满意度评估"""
    
    def __init__(self):
        self.feedback_history: List[Dict] = []
    
    def record_feedback(
        self,
        query: str,
        response: Dict,
        rating: int,
        feedback_text: str = None
    ):
        """记录用户反馈"""
        self.feedback_history.append({
            'query': query,
            'response': response,
            'rating': rating,  # 1-5
            'feedback_text': feedback_text,
            'timestamp': datetime.now().isoformat()
        })
    
    def calculate_satisfaction_score(self) -> Dict:
        """计算满意度分数"""
        if not self.feedback_history:
            return {'avg_rating': 0, 'total_feedback': 0}
        
        ratings = [f['rating'] for f in self.feedback_history]
        
        return {
            'avg_rating': sum(ratings) / len(ratings),
            'total_feedback': len(ratings),
            'rating_distribution': self._calculate_distribution(ratings),
            'trend': self._calculate_trend(ratings)
        }
    
    def _calculate_distribution(self, ratings: List[int]) -> Dict:
        """计算评分分布"""
        distribution = {1: 0, 2: 0, 3: 0, 4: 0, 5: 0}
        
        for rating in ratings:
            distribution[rating] += 1
        
        return distribution
    
    def _calculate_trend(self, ratings: List[int]) -> str:
        """计算趋势"""
        if len(ratings) < 2:
            return 'insufficient_data'
        
        first_half = ratings[:len(ratings)//2]
        second_half = ratings[len(ratings)//2:]
        
        avg_first = sum(first_half) / len(first_half)
        avg_second = sum(second_half) / len(second_half)
        
        if avg_second > avg_first + 0.2:
            return 'improving'
        elif avg_second < avg_first - 0.2:
            return 'declining'
        else:
            return 'stable'
    
    def identify_pain_points(self) -> List[Dict]:
        """识别痛点"""
        pain_points = []
        
        # 分析低评分反馈
        low_ratings = [
            f for f in self.feedback_history
            if f['rating'] <= 2
        ]
        
        # 分析反馈文本
        for feedback in low_ratings:
            if feedback.get('feedback_text'):
                pain_points.append({
                    'query': feedback['query'],
                    'rating': feedback['rating'],
                    'feedback': feedback['feedback_text']
                })
        
        return pain_points

五、持续改进

5.1 质量监控

# quality_monitoring.py
from typing import Dict, List

class QualityMonitor:
    """质量监控器"""
    
    def __init__(self):
        self.quality_metrics: Dict[str, List[float]] = {}
        self.alert_thresholds: Dict[str, float] = {}
    
    def set_threshold(
        self,
        metric_name: str,
        threshold: float
    ):
        """设置告警阈值"""
        self.alert_thresholds[metric_name] = threshold
    
    def record_metric(
        self,
        metric_name: str,
        value: float
    ):
        """记录指标"""
        if metric_name not in self.quality_metrics:
            self.quality_metrics[metric_name] = []
        
        self.quality_metrics[metric_name].append(value)
        
        # 检查是否触发告警
        if metric_name in self.alert_thresholds:
            if value < self.alert_thresholds[metric_name]:
                self._trigger_alert(metric_name, value)
    
    def _trigger_alert(
        self,
        metric_name: str,
        value: float
    ):
        """触发告警"""
        # 实现告警逻辑
        pass
    
    def get_quality_trend(
        self,
        metric_name: str,
        days: int = 7
    ) -> Dict:
        """获取质量趋势"""
        if metric_name not in self.quality_metrics:
            return {}
        
        recent_values = self.quality_metrics[metric_name][-days:]
        
        return {
            'avg': sum(recent_values) / len(recent_values),
            'min': min(recent_values),
            'max': max(recent_values),
            'trend': 'improving' if recent_values[-1] > recent_values[0] else 'declining'
        }

5.2 改进流程

# improvement_process.py
from typing import Dict, List

class ImprovementProcess:
    """改进流程"""
    
    def __init__(self):
        self.improvement_items: List[Dict] = []
    
    def create_improvement_item(
        self,
        issue_type: str,
        description: str,
        priority: str,
        impact: float
    ) -> Dict:
        """创建改进项"""
        item = {
            'id': self._generate_id(),
            'issue_type': issue_type,
            'description': description,
            'priority': priority,
            'impact': impact,
            'status': 'open',
            'actions': []
        }
        
        self.improvement_items.append(item)
        return item
    
    def add_action(
        self,
        item_id: str,
        action: str,
        owner: str
    ):
        """添加改进行动"""
        for item in self.improvement_items:
            if item['id'] == item_id:
                item['actions'].append({
                    'action': action,
                    'owner': owner,
                    'status': 'pending'
                })
                break
    
    def track_progress(self) -> Dict:
        """跟踪进度"""
        total = len(self.improvement_items)
        closed = sum(
            1 for item in self.improvement_items
            if item['status'] == 'closed'
        )
        
        return {
            'total_items': total,
            'closed_items': closed,
            'completion_rate': closed / total if total > 0 else 0
        }

六、总结

6.1 核心要点

检索质量
- Precision/Recall
- NDCG
- 覆盖率
生成质量
- 忠实度
- 相关性
- 幻觉率
端到端质量
- 答案正确性
- 用户满意度
- 任务完成率

6.2 最佳实践

全面监控
- 多维度指标
- 实时监控
- 告警机制
持续改进
- 定期评估
- 根因分析
- 改进行动
用户中心
- 收集反馈
- 分析痛点
- 优先改进

参考资料