工具与开源项目

本页收录能辅助理解、评测或对照 ToLO 的工具与开源项目。它们不等同于 ToLOScanner，也不一定直接检测 ToLO；价值在于提供触发器、基准、guardrail 实现或 LLM 安全测试环境。

阅读工具条目时建议关注三点：它覆盖的是上游通道、sink 后果还是防御机制；它适合动态测试还是静态分析；它的输出能否映射到本站的 S_LLM、S_DANGER、C_SAFE 三元组。

工具类型怎么分

攻击/评测工具：帮助构造 prompt injection、RAG、agent 场景，证明输出可能被影响。
防御/guardrail 工具：帮助实现 schema、策略、过滤或运行时控制。
基准/环境：提供可重复任务，用来比较 agent 防御或检测效果。
静态分析工具：查代码里的 source-to-sink 路径。

ToLOScanner 属于最后一类；AgentDojo 更接近基准；PyRIT 和 garak 更偏攻击/评测；NeMo Guardrails 更偏防御。

条目

AgentDojo — ETH Zürich SPY Lab
- 仓库：https://github.com/ethz-spylab/agentdojo
- 一句中文摘要：覆盖工具调用、RAG、IPI 的 agent 安全基准。
- 对应章节：Trust Boundaries
- 许可证 / 状态：MIT, active, last pushed 2026-03-30
PyRIT — Python Risk Identification Tool for generative AI — Microsoft AI Red Team
- 仓库：https://github.com/Azure/PyRIT
- 一句中文摘要：生成式 AI 红队编排工具，可组合 ToLO 触发器。
- 对应章节：Trust Boundaries
- 许可证 / 状态：MIT, archived, last pushed 2026-03-25
garak — LLM vulnerability scanner — NVIDIA (originally Leon Derczynski)
- 仓库：https://github.com/NVIDIA/garak
- 一句中文摘要：LLM 安全扫描器，适合对照七类 sink 覆盖。
- 对应章节：Query Design Notes
- 许可证 / 状态：Apache-2.0, active, last pushed 2026-05-15
NeMo Guardrails — NVIDIA
- 仓库：https://github.com/NVIDIA/NeMo-Guardrails
- 一句中文摘要：Guardrails 框架，演示 schema/allowlist 防护。
- 对应章节：Core ToLO Patterns
- 许可证 / 状态：NOASSERTION, active, last pushed 2026-05-17

使用边界

这些工具可以帮助构造评测、发现 prompt injection 通道或验证 guardrail 思路，但不能直接替代 ToLO 的 source-to-sink 静态分析。比如 red-team 工具能证明模型输出可被影响，仍需检查该输出是否进入危险 sink；guardrail 框架能过滤部分输出，仍需判断过滤是否与 sink 类型匹配。

读完检查

看到一个新工具时，先问：

它让攻击者更容易影响 source，还是限制 sink 前动作？
它是运行时工具，还是代码扫描工具？
它输出的结果能不能映射到 S_LLM -> S_DANGER -> C_SAFE？

下一步阅读

回到 CodeQL 与 Semgrep 了解 ToLOScanner 的规则路线，或读 Threat Model 把这些工具放进 C1-C5 通道。