跳到主要内容

模仿学习概览

DISCOVERSE提供了完整的模仿学习工作流，支持从数据收集到策略部署的端到端训练。本章将介绍框架中集成的四种主流模仿学习算法。

🎯 支持的算法

DISCOVERSE目前支持以下四种模仿学习算法：

1. ACT (Action Chunking with Transformers)

数据格式: HDF5
适用场景: 复杂操作任务，需要长序列动作规划

2. DP (Diffusion Policy)

数据格式: Zarr
适用场景: 多模态动作分布，复杂操作技能

3. RDT (Robotics Diffusion Transformer)

数据格式: HDF5
适用场景: 多任务学习，通用机器人技能

4. OpenPI (Open-source Policy Interface)

数据格式: HDF5
适用场景: 快速原型开发，少样本学习

🔄 工作流程

模仿学习的完整流程包括以下步骤：

1. 数据生成

自动生成演示数据，比真实世界效率提升100倍

2. 数据格式转换

根据不同算法转换为相应格式：

ACT/RDT/OpenPI: 原始数据 → HDF5
DP: 原始数据 → Zarr

3. 模型训练

使用各算法的训练脚本进行策略学习

4. 策略推理

在仿真或真实机器人上部署训练好的策略

📚 章节导航

数据生成: 学习如何自动收集演示数据
ACT算法: 基于Transformer的动作分块学习
Diffusion Policy: 扩散模型策略学习
RDT算法: 大模型多任务学习
OpenPI算法: 基于预训练模型的快速微调

开始您的模仿学习之旅，从数据生成开始！

🎯 支持的算法
🔄 工作流程
📚 章节导航