AIエージェントの安全性

概要

AIエージェントの安全性は、AIエージェントが 意図しない・有害な行動を取らないよう統制する 取り組みです。エージェントが外部ツールを操作し（ツール利用）、状態を変更（書き込み・実行）できるようになるほど、ガードレールと人間の監督が重要になります。

主な仕組み

事前実行の安全ゲート（Pre-Execution Safety Gates） — 危険な操作を実行前に検査・承認する
ガードレール / 検証 — 出力やアクションを制約（Palantir AIP の検証＆ガードレール、AIP Automate の承認/自律制御）
人間参加型（Human-in-the-Loop） — 重要な操作を人間が承認
実行境界と証拠チェーン — 何をしたかを追跡可能にする（監査）
権限の最小化 — スコープを限定した操作のみツール化（ツール利用 / MCP のセキュリティ）

関連する論点

拒否（Refusal）の適切さ — 不当・無意味なルールへの過剰な追従/拒否のバランス
時間的認可 — セッション単位のリスクに応じた認可（Session Risk Memory）
ミスアライメントの検出・緩和 — モデル内部の活性化に「不安全な挙動の方向」を見つけ、減算して抑えるアプローチ（アクティベーションステアリング）。重みを更新せず推論時に介入できるため監査・防御に使える
LLM 自体への攻撃面はプロンプトインジェクションを参照

実践：爆発半径を限定する構成

個人のホームラボに AI 開発プラットフォームを組んだ事例（My Homelab AI Dev Platform）は、エージェントに権限を与えつつ被害を局所化する設計の好例です。

AI には 専用の Git ユーザーと SSH 鍵 を割り当て、フィーチャーブランチへの push のみ許可（本番ブランチへの直接 push は禁止）
PR 承認を必須化 し、人間のレビュー段階を挟む（Human-in-the-Loop）
VM を ネットワーク隔離 し、実サービスには直接到達できない構成で 爆発半径（blast radius）を限定
GitOps で「計画→テスト→push→PR→マージ→自動デプロイ」の検証可能なワークフローに落とす
参考: My Homelab AI Dev Platform

研究テーマ（Daily フィード）

“Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates”
“OpenKedge: Governing Agentic Mutation with Execution-Bound Safety and Evidence Chains”
“Blind Refusal: Language Models Refuse to Help Users Evade Unjust, Absurd, and Illegitimate Rules”

関連ページ

参考資料（Daily フィード）

“Session Risk Memory (SRM)” / “OpenKedge” / “Blind Refusal”