智能应用质量与安全测试研习 - 个人学习记录空间

🔍 研习方向：智能应用自动化评估

在 LLM 应用开发周期中，质量保障（QA）是确保应用可靠性的核心。本研习空间旨在探索如何构建标准化的算法评测基准，通过自动化手段检测模型在特定场景下的回答漂移与幻觉现象。研究重点涵盖：基于 RAG 架构的检索一致性测试、大模型输出的安全对齐评估、以及针对生成式内容的合规性扫描流程，致力于提升智能应用的稳健性与可解释性。

📝 测试研习笔记：前沿方法论

2025-03-12 深度解读：生成式 AI 时代的软件质量保障（QA）新挑战 测试理论

2025-05-18 工程实践：深度测评 RAG 应用评估框架指标最全面的 RAGas 实战指南

2025-09-10 健壮性研究：大模型安全加固方案：对抗训练与后门攻击防御实践 稳健性评估

2025-10-15 行业标准：国内外模型安全评估丨多个大模型安全榜单揭晓 合规评测

2025-12-15 测试实战：LLM Evaluation 如何评估一个大模型 质量评估

🛠 研习工具栈

Python 3.10+（应用开发） Pytest (单元测试) OpenCompass (算法评测) Ragas (RAG评估) LangChain (运行框架) Ollama (本地测试)