AIエージェントの安全性
概要
AIエージェントの安全性は、AIエージェント が 意図しない・有害な行動を取らないよう統制する 取り組みです。エージェントが外部ツールを操作し(ツール利用)、状態を変更(書き込み・実行)できるようになるほど、ガードレールと人間の監督が重要になります。
主な仕組み
- 事前実行の安全ゲート(Pre-Execution Safety Gates) — 危険な操作を実行前に検査・承認する
- ガードレール / 検証 — 出力やアクションを制約(Palantir AIP の検証&ガードレール、AIP Automate の承認/自律制御)
- 人間参加型(Human-in-the-Loop) — 重要な操作を人間が承認
- 実行境界と証拠チェーン — 何をしたかを追跡可能にする(監査)
- 権限の最小化 — スコープを限定した操作のみツール化(ツール利用 / MCP のセキュリティ)
関連する論点
- 拒否(Refusal)の適切さ — 不当・無意味なルールへの過剰な追従/拒否のバランス
- 時間的認可 — セッション単位のリスクに応じた認可(Session Risk Memory)
- ミスアライメントの検出・緩和 — モデル内部の活性化に「不安全な挙動の方向」を見つけ、減算して抑えるアプローチ(アクティベーションステアリング)。重みを更新せず推論時に介入できるため監査・防御に使える
- LLM 自体への攻撃面は プロンプトインジェクション を参照
実践:爆発半径を限定する構成
個人のホームラボに AI 開発プラットフォームを組んだ事例(My Homelab AI Dev Platform)は、エージェントに権限を与えつつ被害を局所化する設計の好例です。
- AI には 専用の Git ユーザーと SSH 鍵 を割り当て、フィーチャーブランチへの push のみ許可(本番ブランチへの直接 push は禁止)
- PR 承認を必須化 し、人間のレビュー段階を挟む(Human-in-the-Loop)
- VM を ネットワーク隔離 し、実サービスには直接到達できない構成で 爆発半径(blast radius)を限定
- GitOps で「計画→テスト→push→PR→マージ→自動デプロイ」の検証可能なワークフローに落とす
- 参考: My Homelab AI Dev Platform
研究テーマ(Daily フィード)
- “Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates”
- “OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains”
- “Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules”
関連ページ
参考資料(Daily フィード)
- “Session Risk Memory (SRM)” / “OpenKedge” / “Blind Refusal”