記 / Journal — Tag

# 強化学習

「強化学習」に関する記事 7 件。

記 / Journal の一覧へ戻る

2026-05-31 研究ダイジェスト

不確実なリアルタイム戦略ゲームを制したAI｜AlphaStar

相手の動きが見えず、一瞬の判断が勝敗を分ける『StarCraft II』。囲碁よりも“現実に近い”この難敵を、2019 年の AlphaStar はグランドマスター級（上位 0.2%）で攻略しました。やさしく解説します。
2026-05-31 研究ダイジェスト

半世紀破られなかった「かけ算の壁」をAIが破った｜AlphaTensor

大きな数表どうしの「かけ算（行列の積）」は、AI やゲームの計算の土台です。その手順を、AI が 50 年ぶりに更新しました。2022 年の AlphaTensor は、人類が極限まで磨いた定番より速い計算法を、自力で発見したのです。やさしく解説します。
2026-05-29 研究ダイジェスト

画面を見るだけでTVゲームを覚えたAI｜深層強化学習の原点

ルールも操作方法も教えず、ただ画面のドット絵と「スコア」だけを与える。それだけで AI はブロック崩しを自力で攻略し、人間も知らなかった裏技まで編み出しました。2015 年の DQN、深層強化学習の原点をやさしく解説します。
2026-05-29 研究ダイジェスト

ルールを教わらずにゲームを極めたAI｜MuZeroの不思議

囲碁・チェス・将棋、そしてテレビゲーム。MuZero は「ルールを一切教えられないまま」これらを人間超えで攻略しました。世界の仕組みを自分で“想像”して先を読む——その驚きの発想を、やさしく解説します。
2026-05-28 研究ダイジェスト

プロが「ミスだ」と思った一手｜AlphaGo 第37手の衝撃

2016 年、囲碁の世界王者に挑んだ AlphaGo。第 2 局で放った「第 37 手」は、人間なら 1 万分の 1 しか打たない一手でした。最初はミスかと疑われたその手は、やがて“美しい妙手”と讃えられます。AI の創造性をめぐる物語です。
2026-05-25 研究ダイジェスト

AIが半世紀ぶりに「並べ替え」を速くした｜あなたの端末でもう動いている

コンピュータが最も基本とする処理「並べ替え（ソート）」。人類が磨き上げた定番アルゴリズムを、AIが10年以上ぶりに塗り替えました。しかもその成果は、世界中のプログラムが使う標準ライブラリに採用済み。DeepMindのAlphaDev（Nature 2023）をやさしく解説します。
2026-05-12 研究ダイジェスト

「答えだけ採点したら、AIが“考え方”を自分で発明した」｜DeepSeek-R1

模範解答を一切見せず、「答えが合っていたか」だけで採点する——そんな乱暴な訓練で、AI は自分から「考える」ようになりました。数学の正答率が 15.6% から 86.7% へ。2025 年に Nature 掲載された DeepSeek-R1 の論文を、一般向けにやさしく解説します。

# 強化学習

不確実なリアルタイム戦略ゲームを制したAI｜AlphaStar

半世紀破られなかった「かけ算の壁」をAIが破った｜AlphaTensor

画面を見るだけでTVゲームを覚えたAI｜深層強化学習の原点

ルールを教わらずにゲームを極めたAI｜MuZeroの不思議

プロが「ミスだ」と思った一手｜AlphaGo 第37手の衝撃

AIが半世紀ぶりに「並べ替え」を速くした｜あなたの端末でもう動いている

「答えだけ採点したら、AIが“考え方”を自分で発明した」｜DeepSeek-R1