203203.cc / research training

GPU 资源与可做项目

先看哪些机器能用、能支撑哪些研究项目,再进入具体训练现场看曲线、视频和证据。

当前焦点 Machine Dog / IsaacLab 等待训练诊断
TRAIN 训练主力

AutoDL 4090

IsaacLab / RSL-RL 训练,承载机器狗长迭代任务。

GPU RTX 4090 用途 训练 / checkpoint 状态 等待主机证据
TRAIN 新增资源

gpufree

通过受控中转接入的新训练服务器,准备承载后续机器狗训练任务。

GPU RTX 4090 / 24GB 用途 训练 / smoke 状态 SSH 可用
VIEW 推理与视频

RTX 5070Ti

实时推理、WebRTC 画面与模型回放,适合看策略表现。

GPU RTX 5070Ti 用途 推理 / 视频流 状态 运行时待接入
RELAY 公网入口

公网入口

控制 API、视频服务与页面入口的受控访问节点。

域名 isaaclab.203203.cc 用途 API / WebRTC / Portal 状态 中转检测中
可做项目
按当前资源和已有适配器组织,不把单个实验硬编码进平台。
进入机器狗训练现场
MD 当前主线

Machine Dog

四足机器人运动控制,IsaacLab + RSL-RL。展示训练曲线、checkpoint、日志尾部、训练画面和推理回放。

机器狗训练 IsaacLab 视频证据
FN 可接入

ForestNav

森林导航实验与 trial 结果展示,后续可接路径、地图、baseline 对比和一次性 trial 证据。

trial 汇总 路径可视化 baseline
DQ 待接入

DQN

深度 Q 网络训练与论文实验归档,可做 run 对比、指标曲线和产物索引。

run 对比 指标曲线 论文证据
UG 研究中

UGV Planning

全局路径规划任务,适合后续接入地图、轨迹、搜索代价和规划结果对比。

轨迹 搜索代价 地图视图

机器狗训练快照

等待数据
Iteration
Mean reward
Bad orientation
Checkpoint

训练诊断接入后会显示当前 run 的人话状态。

证据分层

1资源

GPU、主机、进程是否可用

2训练

迭代、曲线、失败信号

3产物

checkpoint、日志、source manifest

4视频

仿真画面和推理回放

机器狗训练现场
这里专注看曲线、checkpoint 和失败信号;实时画面已拆到“视频画面”栏。
等待训练诊断

当前 run

UNKNOWN
Wave-C-Stairs-V9J3-PIE8-Lite3-v0
等待更新时间
Reward
Terrain
Bad orientation
Steps/sec

等待训练诊断。

Checkpoint
Stop reason
训练曲线
自动匹配当前任务;缺失的指标会显示为等待历史曲线。
LOG

日志尾部

等待日志尾部。

健康证据

网站健康状态未知

控制 API 未连接

真机后端未连接

画面流未连接

训练诊断等待中

视频画面
训练视口、实时推理和回放集中在这里看;视频在线仍只代表画面链路可用。
等待训练画面
训练视频

训练视口

IsaacLab
WAITING FOR TRAINING VIEWPORT...
推理视频

推理画面

WebRTC 诊断
WAITING FOR STREAM...
等待中 v9j3 / model_9999 待接入
指令控制
WASD、速度、指令向量和 IsaacLab 实时画面放在同一栏。
实时控制视口

IsaacLab 机器狗

Isaac WebRTC
WAITING FOR STREAM...
等待中 WASD live control 待接入

指令控制

IDLE

速度

0.40

权重切换

等待 worker

选择后会重启 5070Ti 推理 viewer。

指令向量

Forward
0.00
Yaw
0.00
Mode
Local UI
Last sent
Never
运维证据
把 API、主机、视频、checkpoint 和公开路由分开看。
CLUSTER

GPU 服务器

服务器GPU用途连接方式状态
AutoDL 4090 RTX 4090 IsaacLab 训练 (machine-dog) ssh -p 20230 root@connect.nmb1... 训练资源
gpufree RTX 4090 新增训练资源 (machine-dog) ssh gpufree 受控中转 / SSH 可用
5070Ti 主机 RTX 5070Ti 实时推理 / WebRTC 画面推流 受控中转 视频资源
公网入口 中继 Nginx 反代 + 中继 API + MediaMTX 本地 SSH alias 公网入口
ENDPOINTS

API 端点

端点功能方法
/api/status系统状态 + 运行时信息GET
/api/training-diagnostics训练诊断、曲线、日志尾部、checkpointGET
/api/host-status主机 GPU/进程状态GET
/api/command发送控制指令POST
/api/command-wsWebSocket 实时控制WS
/api/video.mjpgMJPEG 视频流GET
/healthz健康检查GET