English
全部
搜索
图片
视频
短视频
地图
资讯
更多
购物
航班
旅游
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
Dailymotion
Vimeo
Metacafe
Hulu
VEVO
Myspace
MTV
CBS
Fox
CNN
MSN
价格
全部
免费
付费
清除筛选条件
安全搜索:
中等
严格
中等(默认)
关闭
筛选器
Calculation and Design Calculate the DOF of the mechanism and... |
…
已浏览 5930 次
2025年3月2日
askfilo.com
3:10
大模型微调不 “失忆” 的秘密:RL 为何比 SFT 更懂 “守旧”?MIT新发现
…
已浏览 990 次
1 个月前
bilibili
卢菁博士_北大AI博士后
Apply the given rule lifting algorithm to:\begin{array}{rlrl}f ... | Filo
已浏览 5089 次
9 个月之前
askfilo.com
45:03
RL00-Reinforced Learning (RL) 强化学习系列介绍
已浏览 722 次
1 个月前
bilibili
山哥学AI
19:23
20分钟带你快速弄懂SFT、RLHF、DPO !从定义到适用边界全流程解
…
已浏览 855 次
1 个月前
bilibili
大模型研学社
14:19
大模型对齐方法综述与代码示例(二)
已浏览 444 次
6 个月之前
bilibili
swanmsg
22:54
解锁RL革命:OpenRL,PyTorch驱动的开源强化学习终极框架!
已浏览 1150 次
3 个月之前
bilibili
swanmsg
15:06
[Agentic RL] 04 REINFORCE 4 LLM,设计 reward,如何维护和计
…
已浏览 3540 次
4 个月之前
bilibili
五道口纳什
4:20
强化学习算法工程师的年度总结:RL 训练中的 Rollout、异步与框架设计
已浏览 3439 次
2 个月之前
bilibili
yang_xi_111
0:52
哈工大算法大佬亲授!《大模型算法:强化学习、微调与对齐》100 张
…
已浏览 139 次
9 个月之前
bilibili
博文视点阿豹Class
0:56
谷歌大佬新作 RL从入门到前沿
已浏览 264 次
4 个月之前
bilibili
AI梨大谱
16:24
[Agentic RL] 10 分布的视角理解 LLM 的 SFT 训练和 RL 训练,Forward
…
已浏览 5674 次
1 个月前
bilibili
五道口纳什
1:14:20
【Online RL】17 OLIVE算法(Optimism Let Iterative Value-fun
…
已浏览 462 次
3 个月之前
bilibili
JOJO想
1:01
基于归一化抓取空间的高效区域感知6-DoF抓取算法
已浏览 265 次
2024年10月23日
bilibili
ChenThree3
1:37:40
如何让LLM通过RL又好又准地使用工具?
已浏览 3130 次
10 个月之前
bilibili
NICE学术
2:52
热度图引导的杂乱场景高效6-Dof抓取检测
已浏览 525 次
2024年3月28日
bilibili
ChenThree3
18:45
强化学习 (RL) 在做什么?RL原理讲解系列#1
已浏览 7161 次
2023年10月31日
bilibili
Up-Fei
35:41
【大白话03】一文理清强化学习RL基本原理 | 原理图解+公式推导
已浏览 10.4万 次
11 个月之前
bilibili
吃花椒的麦
30:43
第2章 一阶电路暂态响应-换路定则求初始值(RC、RL、RLC电路-例题讲
…
已浏览 1.3万 次
2021年9月29日
bilibili
橙子3712
1:00:50
强化学习第一节(RL基本概念 工具 基本算法)【个人知识分享】
已浏览 2.8万 次
2021年12月2日
bilibili
二营长向强化学习开炮
0:38
RL 算法大突破!多智能体协作性能飞升
已浏览 218 次
10 个月之前
bilibili
AI因斯坦玩转AI
16:01
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
已浏览 2.2万 次
2024年6月23日
bilibili
五道口纳什
16:42
编译原理第四章LR(0)DFA构造,判断能否使用SLR(1)分析表解决
…
已浏览 618 次
2 个月之前
bilibili
甜滋滋的巧克力豆
23:15
相比SFT为什么RL训练后的模型更不容易遗忘?RL的奥卡姆剃刀原理:
…
已浏览 6157 次
5 个月之前
bilibili
AI论文小小编
5:49
105.RL专题:目前主流LLM训练的流程是怎样的?
已浏览 3432 次
9 个月之前
bilibili
文言AI
6:23
88.RL专题:策略中随机探索怎么实现
已浏览 1707 次
10 个月之前
bilibili
文言AI
1:08
豆瓣 9.4分!《大模型算法》强化学习、DPO、微调SFT、GRPO、PPO、RL
…
已浏览 1万 次
9 个月之前
bilibili
叶子哥AI
44:52
12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模
…
已浏览 4940 次
2024年6月22日
bilibili
大模型解码室
7:21
106.RL专题:介绍下DPO执行的流程
已浏览 2016 次
9 个月之前
bilibili
文言AI
3:39
【254】具有输入仿射系统动力学的连续时间非线性最优控制问题的强化
…
已浏览 650 次
2024年10月3日
bilibili
既然香遇
观看更多视频
更多类似内容
反馈