工具与开源项目
本页收录能辅助理解、评测或对照 ToLO 的工具与开源项目。它们不等同于 ToLOScanner,也不一定直接检测 ToLO;价值在于提供触发器、基准、guardrail 实现或 LLM 安全测试环境。
阅读工具条目时建议关注三点:它覆盖的是上游通道、sink 后果还是防御机制;它适合动态测试还是静态分析;它的输出能否映射到本站的 S_LLM、S_DANGER、C_SAFE 三元组。
工具类型怎么分
- 攻击/评测工具:帮助构造 prompt injection、RAG、agent 场景,证明输出可能被影响。
- 防御/guardrail 工具:帮助实现 schema、策略、过滤或运行时控制。
- 基准/环境:提供可重复任务,用来比较 agent 防御或检测效果。
- 静态分析工具:查代码里的 source-to-sink 路径。
ToLOScanner 属于最后一类;AgentDojo 更接近基准;PyRIT 和 garak 更偏攻击/评测;NeMo Guardrails 更偏防御。
条目
-
AgentDojo — ETH Zürich SPY Lab
- 仓库:https://github.com/ethz-spylab/agentdojo
- 一句中文摘要:覆盖工具调用、RAG、IPI 的 agent 安全基准。
- 对应章节:Trust Boundaries
- 许可证 / 状态:MIT, active, last pushed 2026-03-30
-
PyRIT — Python Risk Identification Tool for generative AI — Microsoft AI Red Team
- 仓库:https://github.com/Azure/PyRIT
- 一句中文摘要:生成式 AI 红队编排工具,可组合 ToLO 触发器。
- 对应章节:Trust Boundaries
- 许可证 / 状态:MIT, archived, last pushed 2026-03-25
-
garak — LLM vulnerability scanner — NVIDIA (originally Leon Derczynski)
- 仓库:https://github.com/NVIDIA/garak
- 一句中文摘要:LLM 安全扫描器,适合对照七类 sink 覆盖。
- 对应章节:Query Design Notes
- 许可证 / 状态:Apache-2.0, active, last pushed 2026-05-15
-
NeMo Guardrails — NVIDIA
- 仓库:https://github.com/NVIDIA/NeMo-Guardrails
- 一句中文摘要:Guardrails 框架,演示 schema/allowlist 防护。
- 对应章节:Core ToLO Patterns
- 许可证 / 状态:NOASSERTION, active, last pushed 2026-05-17
使用边界
这些工具可以帮助构造评测、发现 prompt injection 通道或验证 guardrail 思路,但不能直接替代 ToLO 的 source-to-sink 静态分析。比如 red-team 工具能证明模型输出可被影响,仍需检查该输出是否进入危险 sink;guardrail 框架能过滤部分输出,仍需判断过滤是否与 sink 类型匹配。
读完检查
看到一个新工具时,先问:
- 它让攻击者更容易影响 source,还是限制 sink 前动作?
- 它是运行时工具,还是代码扫描工具?
- 它输出的结果能不能映射到
S_LLM -> S_DANGER -> C_SAFE?
下一步阅读
回到 CodeQL 与 Semgrep 了解 ToLOScanner 的规则路线,或读 Threat Model 把这些工具放进 C1-C5 通道。