*SDPose-Wholebody
2026-01-14 17:55
计费规则:
模型测试申请介绍

SDPose 是一种最先进的姿态估计模型,它利用了来自 Stable Diffusion 的强大视觉先验,在跨分布(OOD)场景中实现了卓越的性能。该模型变体估计 133个全身关键点,包括身体、手、脸和脚。

 

模型架构

SDPose 采用了一个使用 Stable Diffusion v2 权重初始化的 U-Net 主干,结合了一个专门的热图头用于关键点预测。该模型以自顶向下的方式工作:

  1. 人物检测:使用对象检测器(例如 YOLO11-x)检测人体边界框
  2. 姿态估计:裁剪并估计每个检测到的人物的17个身体关键点
  3. 热图生成:生成置信度热图以进行精确的关键点估计

模型规格:

  • 主干:Stable Diffusion v2 U-Net(微调;架构变化最小)
  • 头部:定制的热图预测头
  • 输入分辨率:1024×768(高×宽)
  • 输出:133个关键点热图 + 带置信度分数的坐标
  • 框架:MMPose