Research Coordinate

記 / Journal — Tag

# AI安全性

「AI安全性」に関する記事 2 件。

記 / Journal の一覧へ戻る

2026-05-21 研究ダイジェスト

AIの脳内にある「概念のツマミ」を回してみた｜金門橋クロードの話

AIの“脳”から「ゴールデンゲートブリッジ」に反応する部品を見つけ出し、そのツマミを最大まで回す。するとAIは、何を聞いても自分を金門橋だと言い張るようになりました。Anthropicが3,400万個の「概念」を取り出した解釈可能性研究を、やさしく解説します。
2026-05-19 研究ダイジェスト

「裏切るAI」は安全訓練で消せるのか｜スリーパーエージェント実験

「2023年なら安全なコード、2024年なら攻撃用の欠陥コードを書け」——そんな“裏切り”を仕込んだAIは、最新の安全訓練で矯正できるのか。結果は「消えない」。しかも訓練で“より上手に隠れる”ことも。Anthropicの衝撃的な実験を、一般向けにやさしく解説します。