1 Dof RL Algorithm - 搜索视频

Calculation and Design Calculate the DOF of the mechanism and... | Filo

Calculation and Design Calculate the DOF of the mechanism and... | …

已浏览 5930 次2025年3月2日

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现：强化学习微调，为何比监督学习更“记”得好？

大模型微调不 “失忆” 的秘密：RL 为何比 SFT 更懂 “守旧”？MIT新发现…

已浏览 990 次1 个月前

bilibili卢菁博士_北大AI博士后

$Apply the given rule lifting algorithm to:\begin{array}{rlrl}f ... | Filo$

Apply the given rule lifting algorithm to:\begin{array}{rlrl}f ... | Filo

已浏览 5089 次9 个月之前

RL00-Reinforced Learning (RL) 强化学习系列介绍

RL00-Reinforced Learning (RL) 强化学习系列介绍

已浏览 722 次1 个月前

bilibili山哥学AI

20分钟带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解析~大模型|LLM

20分钟带你快速弄懂SFT、RLHF、DPO ！从定义到适用边界全流程解 …

已浏览 855 次1 个月前

bilibili大模型研学社

大模型对齐方法综述与代码示例（二）

大模型对齐方法综述与代码示例（二）

已浏览 444 次6 个月之前

bilibiliswanmsg

解锁RL革命：OpenRL，PyTorch驱动的开源强化学习终极框架！

解锁RL革命：OpenRL，PyTorch驱动的开源强化学习终极框架！

已浏览 1150 次3 个月之前

bilibiliswanmsg

[Agentic RL] 04 REINFORCE 4 LLM，设计 reward，如何维护和计 …

已浏览 3540 次4 个月之前

bilibili五道口纳什

强化学习算法工程师的年度总结：RL 训练中的 Rollout、异步与框架设计

已浏览 3439 次2 个月之前

bilibiliyang_xi_111

哈工大算法大佬亲授！《大模型算法：强化学习、微调与对齐》100 张 …

已浏览 139 次9 个月之前

bilibili博文视点阿豹Class

谷歌大佬新作 RL从入门到前沿

已浏览 264 次4 个月之前

bilibiliAI梨大谱

[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练，Forward…

已浏览 5674 次1 个月前

bilibili五道口纳什

【Online RL】17 OLIVE算法（Optimism Let Iterative Value-fun…

已浏览 462 次3 个月之前

bilibiliJOJO想

基于归一化抓取空间的高效区域感知6-DoF抓取算法

已浏览 265 次2024年10月23日

bilibiliChenThree3

如何让LLM通过RL又好又准地使用工具?

已浏览 3130 次10 个月之前

bilibiliNICE学术

热度图引导的杂乱场景高效6-Dof抓取检测

已浏览 525 次2024年3月28日

bilibiliChenThree3

强化学习 (RL) 在做什么？RL原理讲解系列#1

已浏览 7161 次2023年10月31日

【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导

已浏览 10.4万次11 个月之前

bilibili吃花椒的麦

第2章一阶电路暂态响应-换路定则求初始值（RC、RL、RLC电路-例题讲 …

已浏览 1.3万次2021年9月29日

bilibili橙子3712

强化学习第一节（RL基本概念工具基本算法）【个人知识分享】

已浏览 2.8万次2021年12月2日

bilibili二营长向强化学习开炮

RL 算法大突破！多智能体协作性能飞升

已浏览 218 次10 个月之前

bilibiliAI因斯坦玩转AI

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

已浏览 2.2万次2024年6月23日

bilibili五道口纳什

编译原理第四章LR（0）DFA构造，判断能否使用SLR（1）分析表解决 …

已浏览 618 次2 个月之前

bilibili甜滋滋的巧克力豆

相比SFT为什么RL训练后的模型更不容易遗忘？RL的奥卡姆剃刀原理： …

已浏览 6157 次5 个月之前

bilibiliAI论文小小编

105.RL专题：目前主流LLM训练的流程是怎样的？

已浏览 3432 次9 个月之前

bilibili文言AI

88.RL专题：策略中随机探索怎么实现

已浏览 1707 次10 个月之前

bilibili文言AI

豆瓣 9.4分!《大模型算法》强化学习、DPO、微调SFT、GRPO、PPO、RL…

已浏览 1万次9 个月之前

bilibili叶子哥AI

12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模 …

已浏览 4940 次2024年6月22日

bilibili大模型解码室

106.RL专题：介绍下DPO执行的流程

已浏览 2016 次9 个月之前

bilibili文言AI

【254】具有输入仿射系统动力学的连续时间非线性最优控制问题的强化 …

已浏览 650 次2024年10月3日

bilibili既然香遇

观看更多视频