同一條高速公路,這次沒有人開。路上有速度不一的車,AI 一開始亂切撞成一團, 每撞一次就記取教訓,靠獎勵慢慢學會閃車、把路開完。按開始看它進化。
AI 沒有人教它「怎麼閃」。它只知道:平安往前 = +1 分、撞到車 = -10 分。 它看眼前的狀況(前面有沒有車擋住、左右能不能切過去),一直試(試錯), 把「這個狀況做這個動作好不好」記在一張分數表(Q 表)裡,下次就選分數高的。 獎勵 + 試錯 + 累積經驗,就是強化學習。
📌 它能撞 100 次、1000 次都不怕,因為這是虛擬環境、可以無限重生—— 真實世界訓練自駕車就是這樣:先在電腦裡開幾百萬公里,再上路。
5.1 是你用臉開、5.2 是 AI 自己開。AI 在虛擬公路學得很好——但 它在電腦裡學到的,到真實馬路上一定一樣嗎?真實有行人、有它沒練過的突發狀況。
所以該想:哪些情況可以交給 AI 自動開、哪些一定要人盯著? 自駕車撞到人,責任算誰的——車主、車廠、還是 AI?
🚀 想訓練更複雜的關卡、玩真正的 RL 平台嗎?問問老師有沒有進階版可以玩。