steven @753948

一个普通的动漫爱好者。涉猎繁杂。追日本新番。看亚洲，美洲，大洋洲，欧洲各国的动画电影。近几年对强化学习(reinforcement learning)方面的研究很感兴趣。
（以下是给自我介绍水字数）
强化学习是机器学习的核心范式之一，专注于解决智能决策问题。与依赖标注数据的监督学习或探索数据结构的无监督学习不同，强化学习通过试错机制进行学习，其目标是让智能体在与环境交互的过程中学会最大化长期累积奖励。
在强化学习框架中，智能体通过观察环境状态，执行动作并获得奖励反馈，进而更新其策略。这一过程包含几个核心概念：策略是智能体的决策规则；奖励提供即时反馈；价值函数则评估长期收益。其核心挑战在于探索与利用的权衡——智能体既需要尝试新动作以发现更高回报，也要利用已知的有效策略。
主流方法包括三类：基于值的方法通过评估状态或动作的长期价值来决策；基于策略的方法直接学习状态到动作的映射；基于模型的方法则通过构建环境动态的预测来进行规划。深度强化学习将深度学习与强化学习结合，在复杂任务中取得了突破性进展。
强化学习不仅是游戏AI、机器人控制等前沿领域的核心技术，还融合了算法设计、系统构建和理论分析等多方面技能。虽然强化学习在样本效率和安全性等方面仍面临挑战，但正因其处于快速发展阶段，为AI领域提供了广阔的研究与创新空间。

Bangumi 2023-1-3 加入
Home bangumi.tv/user/753948

看过

读过

看过

steven的日志

动画电影个人喜好表（2024.12.17）

一个截至今天的观影记录。

2024-12-18 10:28 · 0 回复

动画剧场版动画电影欧美日本电影

/ steven的时间胶囊 ...more

想看メイドインアビス目覚める神秘、The Cat in the Hat、Shaun the Sheep: The Beast of Mossy Bottom、Toy Story 5、燃比娃等 6 部番组 2026-4-9 10:23
看过映画ラブライブ！虹ヶ咲学園スクールアイドル同好会完結編第2章、炎炎ノ消防隊参ノ章第2クール、The Super Mario Galaxy Movie 3 部番组 2026-4-4 12:45
看过魔都精兵のスレイブ2、真夜中ハートチューン、葬送のフリーレン第2期、正反対な君と僕、地獄楽第二期等 12 部番组 2026-3-30 21:06
想看ドロヘドロ Season 2、Dr.STONE SCIENCE FUTURE 第3クール、魔入りました！入間くん第4シリーズ、ようこそ実力至上主義の教室へ 4th Season、お隣の天使様にいつの間にか駄目人間にされていた件2 等 12 部番组 2026-3-30 08:29
看过 Hoppers 2026-3-14 09:53
看过ウマ娘プリティーダービー ROAD TO THE TOP 2026-3-6 02:34

1756收藏

1729完成

98.5%完成率

0.00平均分

0.00标准差

0评分数

5收藏

5完成

100.0%完成率

0.00平均分

0.00标准差

0评分数

1749收藏

1722完成

98.5%完成率

0.00平均分

0.00标准差

0评分数

2收藏

2完成

100.0%完成率

0.00平均分

0.00标准差

0评分数

/ steven的朋友 ...more

+ 谁加steven为好友

/ steven参加的小组

/ steven的目录 ...more

/ RSS2.0: 订阅steven的收藏

/ steven的维基编辑