智能应用质量与安全测试研习

专注于 AI 算法稳定性评估 · RAG 架构测试方法论 · 内容合规性技术研究

📌 合规声明: 本站为个人学术笔记,专注于 AI 质量保证(QA)技术研习。不涉及商业服务,不提供非法攻击工具。

🔍 研习方向:智能应用自动化评估

在 LLM 应用开发周期中,质量保障(QA)是确保应用可靠性的核心。本研习空间旨在探索如何构建标准化的算法评测基准,通过自动化手段检测模型在特定场景下的回答漂移与幻觉现象。研究重点涵盖:基于 RAG 架构的检索一致性测试、大模型输出的安全对齐评估、以及针对生成式内容的合规性扫描流程,致力于提升智能应用的稳健性与可解释性。

📝 测试研习笔记:前沿方法论

深度解读:生成式 AI 时代的软件质量保障(QA)新挑战 测试理论
工程实践:深度测评 RAG 应用评估框架指标最全面的 RAGas 实战指南
健壮性研究:大模型安全加固方案:对抗训练与后门攻击防御实践 稳健性评估
行业标准:国内外模型安全评估丨多个大模型安全榜单揭晓 合规评测
测试实战:LLM Evaluation 如何评估一个大模型 质量评估

🛠 研习工具栈

Python 3.10+(应用开发) Pytest (单元测试) OpenCompass (算法评测) Ragas (RAG评估) LangChain (运行框架) Ollama (本地测试)