English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
0:18
算法面试考点复习 [LLM-RL-PPO]
已浏览 102 次
1 个月前
bilibili
小飞鱼的日常
17:06
从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射
已浏览 3992 次
1 个月前
bilibili
东川路第一可爱猫猫虫
40:01
[中配] 近端策略优化(PPO)- 如何训练大型语言模型 - Serrano.Academy
已浏览 171 次
1 个月前
bilibili
外番の声
7:12
Policy Optimization in Reinforcement Learning
已浏览 3 次
1 个月前
YouTube
om
0:39
🔍 Understanding Proximal Policy Optimization (PPO) Advanced Rei
…
1 个月前
YouTube
Chain
14:09
GDPO: Group reward-Decoupled Normalization Policy Optimization
…
已浏览 32 次
3 周前
YouTube
AI Papers Slop
Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Da
…
2020年9月21日
towardsdatascience.com
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列 #3
已浏览 11 次
4 个月之前
YouTube
Up-Fei
36:49
7-PPO算法原理与实验实现
已浏览 726 次
2024年9月19日
bilibili
kindlytrees
33:53
【PPO】【已完结】PPO第二部分 完整实现和代码解读
已浏览 7716 次
2 个月之前
bilibili
东川路第一可爱猫猫虫
25:17
【PPO的前身】【TRPO】第一部分 直观理解与算法理论
已浏览 8824 次
3 个月之前
bilibili
东川路第一可爱猫猫虫
31:16
简单解释近端策略优化算法(PPO):全白板详细讲解
已浏览 507 次
5 个月之前
bilibili
robert_zeng
53:45
强化学习策略梯度之proximal policy optimization PPO理论与代码(上)
已浏览 1万 次
2022年3月26日
bilibili
Stevensong铁维
41:34
DRL Lecture 2: Proximal Policy Optimization (PPO)
已浏览 229 次
2022年5月3日
bilibili
人工智能基地2
22:03
Proximal Policy Optimization (PPO) for LLMs Explained Intuitively
已浏览 22 次
9 个月之前
bilibili
哎吧星
9:57
99.RL专题:PPO中除了使用KL散度限制策略更新的幅度,还可以使用什
…
已浏览 2939 次
9 个月之前
bilibili
文言AI
19:50
PPO算法 - Deep Reinforcement Learning
已浏览 174 次
2023年6月5日
bilibili
tiandiao123
21:15
DPO直接偏好优化算法 (动画讲解)
已浏览 8312 次
2024年10月26日
bilibili
数源创域
19:50
深度强化学习之策略梯度方法与近似策略优化(PPO)
已浏览 5770 次
2018年10月2日
bilibili
爱可可-爱生活
48:42
[LLM RL] 理解 GRPO 公式原理及 TRL GrpoTrainer 代码实现(advantage
…
已浏览 5.2万 次
11 个月之前
bilibili
五道口纳什
7:50
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms)
已浏览 266 次
2 个月之前
bilibili
小迪学AI
11:31
Reinforcement Learning in DeepSeek-R1 | Visually Explained
已浏览 4.2万 次
2025年2月1日
YouTube
AGI Lambda
8:17
97.RL专题:简述一下PPO算法。其与TRPO算法有何关系呢?
已浏览 3538 次
9 个月之前
bilibili
文言AI
17:50
Proximal Policy Optimization Explained
已浏览 7.6万 次
2021年5月20日
YouTube
Edan Meyer
4:48
98.RL专题:PPO中为什么不直接计算 θ 与 θ′ 之间的距离?
已浏览 4401 次
9 个月之前
bilibili
文言AI
1:01
Proximal Policy Optimization (PPO) for LLMs Explained Intuitively_par
…
已浏览 3 次
9 个月之前
bilibili
哎吧星
11:05
AI Learns to Park - Deep Reinforcement Learning
已浏览 309.9万 次
2019年8月23日
YouTube
Samuel Arzt
38:24
Proximal Policy Optimization (PPO) - How to train Large Language Mod
…
已浏览 124 次
2 个月之前
bilibili
bender2016
12:32
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
已浏览 7127 次
2024年5月25日
bilibili
五道口纳什
19:25
【PPO】从零到深入(1) 从梯度本质看 PPO的裁剪目标函数
已浏览 9771 次
2 个月之前
bilibili
东川路第一可爱猫猫虫
观看更多视频
更多类似内容
反馈