Q-learning,在不知道环境模型时学习行动价值
一边走,一边学
一边走,一边学
未来收益,决定当下的选择
赌一次靠运气,长期赌靠技术。
快乐老头的最后一次世界杯旅行
你所面对的限制,究竟来自客观规律,还是仅仅来自习惯与想象?
命运的齿轮就开始转动了。
让一个承认自己在自欺欺人,难度有多大?
Coding Agent → Tool Use → Planning → Self Verification → Self Improvement → AGI
革命尚未成功,同志仍需努力。
信老黄,得永生
评论
提问或许是最好的学习方式。