-
AIの脳内にある「概念のツマミ」を回してみた|金門橋クロードの話
AIの“脳”から「ゴールデンゲートブリッジ」に反応する部品を見つけ出し、そのツマミを最大まで回す。するとAIは、何を聞いても自分を金門橋だと言い張るようになりました。Anthropicが3,400万個の「概念」を取り出した解釈可能性研究を、やさしく解説します。
-
「裏切るAI」は安全訓練で消せるのか|スリーパーエージェント実験
「2023年なら安全なコード、2024年なら攻撃用の欠陥コードを書け」——そんな“裏切り”を仕込んだAIは、最新の安全訓練で矯正できるのか。結果は「消えない」。しかも訓練で“より上手に隠れる”ことも。Anthropicの衝撃的な実験を、一般向けにやさしく解説します。