Skip to content

工具与开源项目

本页收录能辅助理解、评测或对照 ToLO 的工具与开源项目。它们不等同于 ToLOScanner,也不一定直接检测 ToLO;价值在于提供触发器、基准、guardrail 实现或 LLM 安全测试环境。

阅读工具条目时建议关注三点:它覆盖的是上游通道、sink 后果还是防御机制;它适合动态测试还是静态分析;它的输出能否映射到本站的 S_LLMS_DANGERC_SAFE 三元组。

工具类型怎么分

  • 攻击/评测工具:帮助构造 prompt injection、RAG、agent 场景,证明输出可能被影响。
  • 防御/guardrail 工具:帮助实现 schema、策略、过滤或运行时控制。
  • 基准/环境:提供可重复任务,用来比较 agent 防御或检测效果。
  • 静态分析工具:查代码里的 source-to-sink 路径。

ToLOScanner 属于最后一类;AgentDojo 更接近基准;PyRIT 和 garak 更偏攻击/评测;NeMo Guardrails 更偏防御。

条目

  • AgentDojo — ETH Zürich SPY Lab

  • PyRIT — Python Risk Identification Tool for generative AI — Microsoft AI Red Team

  • garak — LLM vulnerability scanner — NVIDIA (originally Leon Derczynski)

  • NeMo Guardrails — NVIDIA

使用边界

这些工具可以帮助构造评测、发现 prompt injection 通道或验证 guardrail 思路,但不能直接替代 ToLO 的 source-to-sink 静态分析。比如 red-team 工具能证明模型输出可被影响,仍需检查该输出是否进入危险 sink;guardrail 框架能过滤部分输出,仍需判断过滤是否与 sink 类型匹配。

读完检查

看到一个新工具时,先问:

  • 它让攻击者更容易影响 source,还是限制 sink 前动作?
  • 它是运行时工具,还是代码扫描工具?
  • 它输出的结果能不能映射到 S_LLM -> S_DANGER -> C_SAFE

下一步阅读

回到 CodeQL 与 Semgrep 了解 ToLOScanner 的规则路线,或读 Threat Model 把这些工具放进 C1-C5 通道。