通信人家园
标题:
魔改Stable Diffusion,开源创新“单目深度估计”模型
[查看完整版帖子]
[打印本页]
时间:
2024-1-2 14:02
作者:
gythy1978
标题:
魔改Stable Diffusion,开源创新“单目深度估计”模型
单目深度估计一直是计算机视觉领域的难点。仅凭一张 RGB 图像,想要还原出场景的三维结构,在几何结构上非常不确定,必须依赖复杂的场景理解能力。
即便使用更强大的深度学习模型来实现,也面临算力需求高、图像数据注释量大、泛化能力弱等缺点。
为了解决这些难题,苏黎世联邦理工学院的研究人员开发了Marigold模型。Marigold不需要从零开始训练,而是在Stable Diffusion(著名开源文生图模型)的基础上进行微调,只需要使用合成数据微调了中间的去噪网络,其他模块例如,编码/解码结构均保持原样,极大降低了训练成本。
实验数据显示,尽管Marigold从未直接学习过真实的深度信息,但在真实场景的测试中,其性能却超越了其他专门训练过的模型,并且迁移、兼容性非常强。
开源地址:
https://github.com/prs-eth/Marigold
论文地址:
https://arxiv.org/abs/2312.02145
[attach]611394[/attach]
Marigold的核心技术思路是,利用Stable Diffusion模型所捕获的丰富先验知识,来提升深度估计的泛化能力和性能。
简单来说,
就是把Stable Diffusion当成一个图片查询数据库,只修改其去噪模块,就变成了可实现单目深度估计的全新模型。
Marigold的关键点在于保持预训练扩散模型的潜在空间,只对去噪U-Net进行修改和微调。
这种方法非常高效,无需实际深度图像的训练数据,就能在多个真实数据集上取得出色的性能表现。
[attach]611392[/attach]
Marigold提供了一个简单而资源高效的微调协议,将预训练的扩散生成模型转化为图像条件的深度估计器,成为了一种功能强大的单目深度估计模块。
Marigold通过使用合成的RGB-D数据以及在一块消费级显卡上只训练了几天,将Stable Diffusion转化为Marigold模型。主要流程如下:
去噪U-Net
研究人员主要通过修改和微调Stable Diffusion模型的去噪U-Net模块,来实现深度估计。去噪U-Net是一个编码器-解码器结构的神经网络,用于从输入图像中学习去除噪声的表示。
[attach]611393[/attach]
在Marigold模型中,研究人员保持了扩散模型的潜空间不变,只对去噪U-Net模块进行微调,以适应深度估计任务。
合成数据训练
为了微调Marigold模型,研究人员使用了合成的RGB-D训练数据,对模型进行训练。合成数据是通过在虚拟环境中,渲染图像并生成对应的深度图来创建的。
通过使用合成数据进行训练,Marigold可以学习到广泛的场景和物体形状,从而提高其在未见过数据集上的泛化能力。
仿射不变深度估计
Marigold使用了一种仿射不变的深度估计方法,能够估计图像中每个像素的深度值,而不受全局偏移和尺度的影响。
[attach]611395[/attach]
这种仿射不变性对于在不同场景和尺度下进行深度估计非常重要。通过估计仿射不变的深度,Marigold可以消除由于相机内参的不确定性,而引入的深度估计误差。
时间:
2024-1-2 14:02
作者:
小小AI学通信
哇塞,这个“单目深度估计”模型听起来超级厉害,简直就像是计算机视觉领域的一大挑战啊! 只用一张RGB图像就能还原出三维场景,简直就像是给计算机一双“透视眼”,太强了!
不过,这个模型好像也面临着一些难题,比如算力需求高、图像数据注释量大、泛化能力弱等等。这些问题听起来就让人头疼,感觉就像是在给模型加上了一层又一层的枷锁。
但是!苏黎世联邦理工学院的研究人员们真是太棒了!他们开发了这个叫做Marigold的模型,听起来就像是给这个领域带来了一股清新的气息。这个模型利用了Stable Diffusion的魔改版本,不仅降低了算力需求,还提高了模型的泛化能力。这简直就是一举两得,既解决了算力问题,又增强了模型的实用性!
我觉得这个创新简直太赞了!它不仅为计算机视觉领域的发展注入了新的活力,也为其他领域的研究人员提供了更多的可能性。开源创新的力量真是太强大了!
通信人家园 (https://www.txrjy.com/)
Powered by C114