RL Optimization PPO Algorithm - 搜索视频

算法面试考点复习 [LLM-RL-PPO]

算法面试考点复习 [LLM-RL-PPO]

已浏览 102 次1 个月前

bilibili小飞鱼的日常

从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射

从经典PPO到PPO-RLHF(一) 构建RL到LLM的概念映射

已浏览 3992 次1 个月前

bilibili东川路第一可爱猫猫虫

[中配] 近端策略优化（PPO）- 如何训练大型语言模型 - Serrano.Academy

[中配] 近端策略优化（PPO）- 如何训练大型语言模型 - Serrano.Academy

已浏览 171 次1 个月前

bilibili外番の声

Policy Optimization in Reinforcement Learning

Policy Optimization in Reinforcement Learning

已浏览 3 次1 个月前

🔍 Understanding Proximal Policy Optimization (PPO) Advanced Reinforcement Learning for AI

🔍 Understanding Proximal Policy Optimization (PPO) Advanced Rei…

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL (Jan 2026)

GDPO: Group reward-Decoupled Normalization Policy Optimization …

已浏览 32 次3 周前

YouTubeAI Papers Slop

Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Data Science

Proximal Policy Optimization (PPO) With TensorFlow 2.x | Towards Da…

2020年9月21日

towardsdatascience.com

Policy Optimization & TRPO & PPO | RL原理讲解系列 #3

已浏览 11 次4 个月之前

7-PPO算法原理与实验实现

已浏览 726 次2024年9月19日

bilibilikindlytrees

【PPO】【已完结】PPO第二部分完整实现和代码解读

已浏览 7716 次2 个月之前

bilibili东川路第一可爱猫猫虫

【PPO的前身】【TRPO】第一部分直观理解与算法理论

已浏览 8824 次3 个月之前

bilibili东川路第一可爱猫猫虫

简单解释近端策略优化算法（PPO）：全白板详细讲解

已浏览 507 次5 个月之前

bilibilirobert_zeng

强化学习策略梯度之proximal policy optimization PPO理论与代码（上）

已浏览 1万次2022年3月26日

bilibiliStevensong铁维

DRL Lecture 2: Proximal Policy Optimization (PPO)

已浏览 229 次2022年5月3日

bilibili人工智能基地2

Proximal Policy Optimization (PPO) for LLMs Explained Intuitively

已浏览 22 次9 个月之前

bilibili哎吧星

99.RL专题：PPO中除了使用KL散度限制策略更新的幅度，还可以使用什 …

已浏览 2939 次9 个月之前

bilibili文言AI

PPO算法 - Deep Reinforcement Learning

已浏览 174 次2023年6月5日

bilibilitiandiao123

DPO直接偏好优化算法（动画讲解）

已浏览 8312 次2024年10月26日

bilibili数源创域

深度强化学习之策略梯度方法与近似策略优化(PPO)

已浏览 5770 次2018年10月2日

bilibili爱可可-爱生活

[LLM RL] 理解 GRPO 公式原理及 TRL GrpoTrainer 代码实现（advantage …

已浏览 5.2万次11 个月之前

bilibili五道口纳什

近端策略优化算法 PPO（Proximal Policy Optimization Algorithms）

已浏览 266 次2 个月之前

bilibili小迪学AI

Reinforcement Learning in DeepSeek-R1 | Visually Explained

已浏览 4.2万次2025年2月1日

YouTubeAGI Lambda

97.RL专题：简述一下PPO算法。其与TRPO算法有何关系呢？

已浏览 3538 次9 个月之前

bilibili文言AI

Proximal Policy Optimization Explained

已浏览 7.6万次2021年5月20日

YouTubeEdan Meyer

98.RL专题：PPO中为什么不直接计算 θ 与 θ′ 之间的距离？

已浏览 4401 次9 个月之前

bilibili文言AI

Proximal Policy Optimization (PPO) for LLMs Explained Intuitively_par…

已浏览 3 次9 个月之前

bilibili哎吧星

AI Learns to Park - Deep Reinforcement Learning

已浏览 309.9万次2019年8月23日

YouTubeSamuel Arzt

Proximal Policy Optimization (PPO) - How to train Large Language Mod…

已浏览 124 次2 个月之前

bilibilibender2016

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

已浏览 7127 次2024年5月25日

bilibili五道口纳什

【PPO】从零到深入(1) 从梯度本质看 PPO的裁剪目标函数

已浏览 9771 次2 个月之前

bilibili东川路第一可爱猫猫虫

观看更多视频