320-A3|3D生成、重建、表示系列


320-A3|3D生成、重建、表示系列

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

AIGCResearch
主编|庄才林(CailinZhuang)技术支持|胡耀淇(YaoqiHu)|编辑支持|张奇佳(QijiaZhang)发布日期|2025年3月14日|周五
New!|为了更好的服务广大研究者与爱好者,未来,我们将陆续开源PaperDaily系列源文件至Github平台,欢迎大家持续关注!!!
https ://github. com/AIGCResearch/Awesome-PaperDaily
2025-03-13|SYSU(SZ),Tencent,NJU,HIT(SZ),HKUST|⭐️⭐️
http ://arxiv. org/abs/2503. 10289v1https ://zebinhe. github.io/MaterialMVP/
在现代计算机图形学中,基于物理的渲染(PBR)已成为实现真实感材质表示和光照交互的基石。本研究提出了一种新颖的端到端模型MaterialMVP,旨在从3D网格和图像提示中生成PBR纹理。该模型通过多视角的PBR扩散方法,解决了多视角材质生成中的关键挑战,如光照不变性和几何一致性。MaterialMVP利用参考注意力机制提取和编码输入参考图像中的信息,从而实现直观且可控的纹理生成。此外,研究引入了一种一致性正则化训练策略,以确保在不同视点和光照条件下生成的纹理具有稳定性。通过双通道材质生成框架,模型分别优化反射率和金属-粗糙度(MR)纹理,同时确保空间对齐精确。实验结果表明,MaterialMVP在一致性和质量方面均优于现有方法,能够高效生成可扩展的3D资产。
MaterialMVP的核心在于其多视角PBR扩散生成方法。具体而言,模型的工作流程包括以下几个关键步骤:首先,输入为3D网格和参考图像,模型生成的反射率图应当不受光照信息影响,而金属和粗糙度图则需准确且精确对齐。其次,模型采用多视角生成的扩散模型,该模型在压缩的潜在空间中操作,结合扩散过程与变分自编码器(VAE)原理,以高效生成高质量图像。接着,通过一致性正则化训练策略,模型在每个训练步骤中同时使用两张参考图像,以提高生成纹理的稳定性和一致性。最后,双通道材质生成框架确保反射率和MR纹理的独立优化,利用多通道对齐注意力机制,减少纹理生成中的伪影和不一致性。
实验部分主要评估MaterialMVP在PBR纹理生成任务中的表现。研究使用了包含70,000个高质量3D资产的训练数据集,这些资产来自Objaverse平台。每个3D对象在不同的摄像机视角和光照条件下进行渲染,生成对应的反射率、金属、粗糙度图及HDR/点光源图像。为了评估生成结果的质量,研究采用了FrechetInceptionDistance(FID)、CLIP-FID、学习感知图像块相似度(LPIPS)等度量标准,分析生成纹理与真实图像之间的相似度。实验结果显示,MaterialMVP在多个评估指标上均优于现有的纹理生成方法,证明了其在生成高质量纹理和保持图像一致性方面的有效性。此外,研究还进行了消融实验,以验证各个组件对模型性能的贡献。
MaterialMVP的工作原理可以简单理解为一个智能的纹理生成器。首先,它接收一个3D模型和一张参考图像,模型的目标是生成看起来真实的材质纹理。为了做到这一点,MaterialMVP使用了一种特别的生成方法,能够从不同的视角生成纹理,确保在不同光线下看起来都很自然。它还使用了两张参考图像进行训练,这样可以帮助模型学习如何在不同的光照和角度下保持一致性。通过分开处理反射率和金属-粗糙度信息,模型能够更好地捕捉到材质的细节,而不会产生模糊或不一致的效果。总的来说,MaterialMVP就像一个能根据图片和3D模型自动生成高质量纹理的智能助手,让3D艺术家可以更轻松地创建出逼真的数字资产。
2025-03-13|UMelbourne,SensoryU,MBZUAI,CUHK(GZ)|⭐️⭐️
http ://arxiv. org/abs/2503. 10403v1https ://github. com/jingyu198/Hyper3D
在3D内容生成领域,VariationalAutoencoders(VAEs)被广泛应用于将形状编码为紧凑的潜在表示,从而促进基于扩散的生成。然而,如何有效压缩3D形状并保留精细的几何细节一直是一个关键挑战。现有的3D形状VAE通常采用均匀点采样和1D/2D潜在表示,导致显著的几何细节损失。为了解决这一问题,本文提出了Hyper3D,一个高效的3D表示方法,结合了混合三平面和八叉树特征,以增强VAE的重构能力。该方法通过采用八叉树特征表示来嵌入网格信息,克服均匀采样的局限性,并提出了一种混合潜在空间表示,集成高分辨率的三平面与低分辨率的3D网格,从而在保持可管理的潜在大小的同时,确保高分辨率的重构。
Hyper3D的核心方法分为几个步骤。首先,采用八叉树特征提取器来捕捉3D形状的几何信息,避免了传统均匀采样导致的细节损失。其次,提出了混合三平面表示,将高分辨率的三平面特征与低分辨率的3D网格特征结合,以克服现有方法在潜在空间中缺乏明确3D结构的限制。具体而言,输入的3D形状首先通过八叉树结构提取特征,然后将这些特征与傅里叶嵌入的坐标结合,形成学习的混合标记。接着,通过跨注意力和自注意力层,增强特征交互,最终重构出高分辨率的三平面和网格特征。这种方法确保了在压缩潜在表示的同时,能够有效保留复杂的几何细节。
为了验证Hyper3D的有效性,进行了大量实验。首先,使用160,000个3D对象的Objaverse数据集进行训练,评估重构质量。实验结果表明,相较于传统的均匀采样方法,Hyper3D显著提高了几何细节的保留。通过与现有的3DVAE模型(如3DShape2VecSet、Direct3D和Trellis)进行比较,Hyper3D在多个评估指标上表现出色,如F-score、Chamfer距离和表面交集比(SurfaceIoU)。此外,采用混合三平面表示的Hyper3D在较低的潜在标记长度下,依然能够实现更高的重构质量,证明了其在3D形状生成中的潜力。
Hyper3D的方法可以简单理解为一个更聪明的3D建模工具。首先,它不再仅仅依赖于均匀分布的点来捕捉形状,而是使用一种叫做八叉树的结构,这种结构可以更好地识别形状的复杂细节。接着,Hyper3D结合了两种不同的表示方式:一种是高分辨率的三平面,另一种是低分辨率的3D网格。这样,它既能捕捉到细节,又能保持处理的高效性。具体操作上,输入的3D形状会被转换成数字信息,通过一系列智能算法来提取和重构形状。最终,Hyper3D能够生成更真实、更细致的3D模型,适用于各种应用场景,比如游戏和虚拟现实。
2025-03-13|ZJU,UIUC|⭐️🟡
http ://arxiv. org/abs/2503. 10634v1https ://immortalco. github.io/V2Edit
V2Edit是一种新颖的训练-free框架,旨在实现视频和3D场景的指令引导编辑。该方法解决了在编辑过程中保持原始内容与满足编辑任务之间的平衡问题。通过逐步将复杂的编辑任务分解为一系列简单的子任务,V2Edit确保了高质量的编辑效果,既能有效应用编辑指令,又能保留原始视频的关键元素。此外,V2Edit还扩展了其功能,以支持3D场景编辑,采用“渲染-编辑-重建”流程,能够处理涉及显著几何变化的复杂编辑任务。通过大量实验,V2Edit在视频编辑和3D场景编辑领域均展现出卓越的性能,成为当前技术的领先者。
V2Edit的核心在于其逐步编辑过程和原始内容保护机制。具体而言,方法包括以下几个方面:
逐步编辑:将复杂的编辑任务分解为多个简单的子任务,逐一执行以简化处理。
初始噪声控制:在编辑过程中,通过控制初始噪声来维持视频的低频信息,如整体布局。
逐步噪声控制:在每个去噪步骤中添加噪声,确保语义信息的保留,同时允许高频细节的再生。
交叉注意力映射:利用文本提示与视频内容之间的交叉注意力映射,确保编辑过程中的语义一致性。这些机制的协同作用,使V2Edit在保持原始视频内容的同时,能够灵活地满足编辑需求,确保高质量的编辑结果。
在实验中,V2Edit的性能与多种基准方法进行了比较。我们使用DAVIS数据集进行视频编辑任务,并在Instruct-NeRF2NeRF数据集上进行3D场景编辑。实验结果显示,V2Edit在多个指标上均优于现有方法,包括视频质量、原始内容保留和编辑任务的完成度。具体而言,V2Edit在处理复杂的编辑场景时表现出色,能够有效应对快速移动的相机轨迹和显著的时间变化。用户研究表明,V2Edit在主观质量评估中也获得了较高的评分,进一步验证了其在视频和3D场景编辑中的先进性和有效性。
V2Edit是一种新型的视频和3D场景编辑工具,它可以在不需要额外训练的情况下,帮助用户轻松编辑视频。这个工具的工作方式是把复杂的编辑任务分解成几个简单的步骤,让每一步都更容易完成。首先,它会控制视频中最初的噪声,这样可以确保视频的基本结构不被破坏。接着,它会在每个去噪的步骤中小心地添加噪声,以保留视频中的重要细节。最后,V2Edit会利用一种叫做交叉注意力的技术,确保编辑后的视频与原视频在内容上保持一致。通过这种方法,V2Edit能够快速且高效地完成各种编辑任务,同时确保视频质量高,原始内容得以保留。
2025-03-13|TianjinU,HIT|⭐️🟡
http ://arxiv. org/abs/2503. 09938v1
本研究提出了一种新框架PanoGen++,旨在解决视觉与语言导航(VLN)任务中训练数据稀缺的问题。VLN任务要求智能体根据自然语言指令在三维环境中导航,但现有的数据集通常受限于室内环境,导致智能体在未见环境中泛化能力不足。PanoGen++通过生成多样化且相关的全景环境,增强了训练数据的多样性和相关性。该框架结合了预训练的扩散模型与领域特定的微调技术,采用低秩适应等参数高效的技术以降低计算成本。研究中探讨了两种环境生成设置:掩码图像修复和递归图像外绘,前者通过基于文本描述填补掩盖区域,后者则帮助智能体学习全景中的空间关系。通过在多个数据集上的实证评估,PanoGen++显著提高了智能体在新环境中的成功率和目标进展。
PanoGen++的核心在于其环境生成模块,该模块通过对预训练生成模型的领域适应来生成适合VLN的全景环境。首先,研究者收集了大量的图像和文本配对数据,以便为VLN环境构建领域特定的训练数据。然后,采用低秩适应技术对预训练的扩散模型进行调整,从而保持计算效率。具体方法包括:
掩码图像修复:通过保留图像的中心区域并根据文本描述填补被掩盖的部分,生成新环境。
递归图像外绘:从生成的子视图开始,逐步扩展生成全景图像,确保生成区域与上下文一致。
训练过程:模型在预训练阶段进行多种视觉与语言任务的学习,并在微调阶段通过伪交互示范进一步优化,确保智能体在真实环境中的表现。
在实验部分,PanoGen++在多个VLN数据集上进行了评估,包括房间到房间(R2R)、房间间(R4R)和协作视觉与对话导航(CVDN)数据集。通过与多个基线方法的比较,PanoGen++在导航错误、成功率和成功率加权路径长度等关键指标上均表现出显著优势。具体而言,在R2R数据集上,PanoGen++的成功率提升了2. 44%,在R4R和CVDN数据集上也分别实现了0. 63%和0. 75米的目标进展提升。此外,针对不同生成设置的实验结果表明,掩码图像修复和递归图像外绘均有效增强了训练环境的多样性和一致性,从而提升了智能体的泛化能力。
PanoGen++的工作原理可以简单理解为通过“修补”和“扩展”图像来帮助智能体更好地理解和导航环境。首先,它会从一张全景图中保留中心部分,然后根据相关的文字描述来填补图像中缺失的部分,这就像在画画时根据描述来添加细节。其次,PanoGen++会从一个已经生成的图像开始,逐步向外扩展,生成完整的全景图像,这样可以确保新生成的部分与已有的内容保持一致。通过这种方式,PanoGen++不仅能够创造出多样化的训练场景,还能帮助智能体在实际环境中表现得更好。整体来说,这种方法让智能体在面对新环境时更具适应性和灵活性。
2025-03-13|THU,MEGVII,MachDrive,SJTU,HKU|⭐️
http ://arxiv. org/abs/2503. 10604v1https ://github. com/heiheishuang/MuDG
MuDG是一种创新框架,旨在通过结合可控的多模态扩散模型与高斯喷涂技术(GaussianSplatting,GS)来提升城市场景重建和新视角合成的能力。尽管当前的三维重建和新视角合成技术在自动驾驶等领域取得了显著进展,但在面对训练轨迹的显著视角偏差时,现有重建方法的性能仍然会显著下降。同时,生成方法在时间一致性和精确场景控制方面也存在挑战。MuDG通过整合来自LiDAR点云的多模态数据和几何先验,构建了一个多模态视频扩散模型,能够合成高保真度的RGB图像、深度图和语义输出。这种合成流水线不仅实现了无需逐场景优化的前馈新视角合成,还为高斯喷涂模型提供了强有力的监督信号,从而增强了模型在极端视角变化下的鲁棒性。
MuDG框架的核心由两个主要组件组成:多模态扩散模型(MDM)和高斯喷涂(GS)模块。首先,MDM使用稀疏的RGB和深度条件输入,这些输入源于融合的LiDAR点云。模型通过跟踪边界框将动态对象与静态背景分离,生成稀疏的颜色和深度图。随后,MDM通过联合训练对稀疏输入对进行学习,生成密集的RGB、深度和语义图。训练过程中,模型通过最小化噪声去除损失函数来优化网络参数。推理阶段,MDM能够直接应用于新场景,无需逐场景优化,生成的多模态输出为GS模块的训练提供丰富的监督信号。GS模块则通过优化生成的虚拟视点来提高几何和语义一致性,从而确保在极端相机运动下的场景连贯性。
在OpenWaymoDataset上进行的实验表明,MuDG在重建和合成质量上显著优于现有方法。实验中,MuDG能够在不同的视角偏移下保持高质量的合成结果,特别是在处理动态城市场景时。通过对比不同控制信号的效果,研究发现结合参考图像和稀疏条件的模型表现最佳,能够有效提高合成的空间一致性和几何细节。此外,实验还展示了MuDG在场景编辑方面的强大能力,如背景替换和对象移除,进一步验证了其在自动驾驶应用中的潜力。总体而言,MuDG的多模态设计和优化策略使其在复杂环境中展现出卓越的性能。
MuDG的工作原理可以简单理解为一个高科技的“拼图游戏”。首先,它将城市环境的不同部分(比如建筑、道路和行人)用一种特殊的“点云”形式表示,这就像是用很多小点组成一个大图案。然后,它使用这些点来生成清晰的图片和深度信息,就像在拼图时需要知道每一块的具体位置。接下来,MuDG会把这些信息结合起来,创建出在不同视角下都能看到的真实场景。它的特别之处在于,不需要每次都从头开始优化每一个场景,而是可以快速生成新的视角,这样就能在自动驾驶等应用中更快、更准确地做出反应。通过这种方式,MuDG不仅能帮助我们看到更清晰的画面,还能在复杂的城市环境中保持连贯性和真实感。
2025-03-13|HKUST,vivo|CVPR2025|⭐️
http ://arxiv. org/abs/2503. 10143v1https ://liujf1226. github.io/GaussHDR
GaussHDR是一种新颖的方法,旨在通过统一的3D和2D局部色调映射技术来提升高动态范围(HDR)图像的合成效果。该方法的核心在于利用多视角、低动态范围(LDR)图像,克服传统3D色调映射在HDR重建中常见的不稳定性问题,同时避免2D色调映射对LDR图像质量的损害。GaussHDR通过设计残差局部色调映射器,接受额外的上下文特征作为输入,从而增强了3D和2D色调映射的学习能力。通过结合这两种映射结果并引入不确定性学习,GaussHDR能够自适应地调节输出,显著提高了HDR和LDR的合成质量,实验结果表明,该方法在合成和真实场景中均优于现有的先进技术。
GaussHDR的实现方法包括多个关键步骤。首先,采用3D高斯分布来表示场景中的每个像素,利用其属性(如位置、旋转、缩放、透明度和颜色)进行建模。其次,设计局部色调映射器,该映射器不仅接受HDR辐射和曝光时间,还整合上下文特征以增强映射的局部细节。具体步骤如下:
双重LDR渲染:针对每个3D高斯,计算其在不同曝光下的LDR输出,分别通过3D和2D色调映射进行转换。
残差局部色调映射:在全局色调映射的基础上,增加残差项以捕捉局部特征,从而优化局部色调映射效果。
不确定性学习:引入不确定性模型,对不同场景的LDR输出进行自适应调节,确保在合成过程中能够合理平衡3D和2D映射结果的影响。
实验部分主要评估GaussHDR在合成和真实数据集上的表现。使用的实验数据包括8个合成场景和4个真实场景,所有场景均包含多视角和多曝光的LDR图像。评估指标包括PSNR、SSIM和LPIPS等。通过与现有的HDR合成技术(如HDR-NeRF和HDR-GS)进行比较,GaussHDR在LDR和HDR合成质量上均显著优于对比方法。具体实验设计分为两个阶段,首先进行初步训练以优化全局色调映射器,随后引入残差项和不确定性学习进行联合优化。实验结果表明,GaussHDR在多种场景下均展现出卓越的稳定性和效果。
GaussHDR的工作原理可以简单理解为一个高效的图像合成工具。首先,它会把一组不同曝光的低质量图像(LDR)作为输入,这些图像就像是从不同角度拍摄的照片。接下来,GaussHDR会使用一种聪明的算法,将这些图像转化为高质量的HDR图像。这个过程包括两个步骤:首先,它会分析每个图像的细节,并根据这些细节调整图像的亮度和色彩;然后,它会结合这些调整后的图像,确保最终的结果既真实又美观。此外,GaussHDR还会考虑到每个图像的不确定性,确保在不同情况下都能给出最佳的合成效果。这样,用户就能轻松获得高质量的图像,无论是在光线充足的环境还是光线不足的场合。
2025-03-13|KIST,KoreaU,USTC,Yonsei-KIST|CVPR2025|⭐️🟡
http ://arxiv. org/abs/2503. 09993v1
本文提出了一种基于扩散模型的逆渲染框架,旨在将单幅RGB图像分解为几何、材质和光照信息。逆渲染本质上是一个不适定问题,难以预测出唯一的准确解。为了解决这一挑战,研究者们利用生成模型的方法,试图提供一系列可能的解决方案。然而,准确性与多样性之间的矛盾使得研究变得复杂。本文中提出的通道级噪声调度方法使得单一扩散模型可以同时实现这两个目标。通过训练两个不同的扩散模型,分别关注准确性和多样性,研究者们展示了该方法在下游应用(如物体插入和材质编辑)中的优越性能。
本研究的核心在于提出了通道级噪声调度的方法,以优化扩散模型的生成过程。具体方法如下:
数据集构建:使用OpenRooms和InteriorVerse等合成数据集,确保RGB图像与其几何、材质和光照信息的良好对齐。
隐式光照表示:采用多层感知机(MLP)对每个像素的环境光照进行编码,形成神经特征向量,以便更好地处理高维数据。
扩散模型设计:构建条件扩散模型,利用不同的噪声调度策略,分别为几何、材质和光照设定不同的生成顺序,优化生成质量。
RGB引导超分辨率:使用U-Net架构的超分辨率模型对生成的低分辨率图像进行上采样,确保输出结果的高保真度。
为了验证所提出方法的有效性,研究者在合成和真实世界数据集上进行了广泛的实验。首先,在合成数据集上评估了不同模型的性能,结果显示所提的SDM(切换扩散模型)在准确性方面优于现有的单图像基线。随后,在真实世界场景中进行物体插入和光照推断的评估,结果表明,该方法能够准确预测光照方向和阴影效果,生成的插入物体在色调和亮度上与真实场景更为一致。此外,研究还通过用户研究验证了所提方法在物体插入任务中的优越性,用户更倾向于选择基于该方法生成的结果。
这项研究的关键在于如何让计算机更好地理解和重建三维场景。研究者们设计了一种新方法,利用扩散模型来分析一张普通的RGB图像,提取出其中的形状、材料和光照信息。具体步骤包括:首先,从现有的图像和它们的三维信息中构建一个训练集;然后,使用一种特别的编码方式将光照信息转化为计算机可以理解的形式。接着,研究者们设计了一个模型,可以在生成图像时,根据不同的优先级来处理形状、材料和光照信息,确保生成的图像既准确又多样。最后,为了让生成的图像看起来更清晰,研究者们还使用了超分辨率技术,对低分辨率的图像进行提升。通过这些步骤,计算机能够更好地重建真实场景,应用于物体插入和材质编辑等实际任务中。
2025-03-13|AlibabaGroup|⭐️🟡
http ://arxiv. org/abs/2503. 10625v1https ://lingtengqiu. github.io/LHM/
在3D人类重建领域,创建可动画的人类头像从单张图像中提取信息是一项具有挑战性的任务。传统方法通常依赖于复杂的优化过程和高质量的3D扫描数据,这限制了其在实际应用中的普遍性。为了解决这一问题,本文提出了一种新颖的“大型可动画人类重建模型”(LHM),该模型能够在几秒钟内从单张图像中生成高保真度的可动画3D人类头像。LHM利用多模态变换器架构,有效地编码人体的几何特征和图像特征,支持实时渲染和姿态控制动画。通过引入头部特征金字塔编码,LHM显著提高了面部身份和细节的保留能力,实验结果表明,该方法在重建精度和泛化能力上均优于现有技术。
LHM的核心是一个前馈变换器架构,能够快速生成3D人类头像。其方法分为几个关键步骤:首先,从输入图像中提取图像令牌,包括人体和头部特征。然后,利用多模态身体-头部变换器(MBHT)将几何令牌与图像令牌进行融合。接着,头部特征金字塔编码(HFPE)方案被引入,以聚合不同尺度的面部特征,确保在细节恢复方面的准确性。LHM使用线性混合蒙皮(LBS)技术将生成的模型进行姿态调整,确保在各种姿势下的自然表现。此外,模型通过自监督学习策略进行训练,利用大型视频数据集进行优化,避免了对真实3D监督的依赖。最终,LHM能够在目标视图空间中生成可渲染的3D高斯分布,支持实时动画。
在实验部分,LHM的表现通过与多种基线方法进行比较来评估。首先,研究团队在合成数据集上进行了静态3D重建的定量评估,结果显示LHM在PSNR、SSIM等指标上均优于现有方法。在单图像可动画人类重建方面,LHM与En3D和AniGS等方法进行对比,结果显示LHM在保持输入特征一致性和细节保留方面表现出色。通过对不同模型参数的可扩展性测试,研究发现增加模型参数能够有效提升重建精度。最后,基于真实视频数据集的实验验证了LHM在动态渲染和动画一致性方面的优势,显示出其在实际应用中的潜力。
LHM的工作原理可以简单理解为一个快速的3D建模工具。当你提供一张人类的照片时,LHM会分析这张图片,并提取出人体和面部的特征。接下来,它会使用一种特殊的变换器技术,将这些特征结合起来,形成一个3D模型。为了确保面部细节的清晰,模型会参考不同层次的面部特征,像是从不同的角度观察一样。最终,LHM会生成一个可以在各种姿势下活动的3D人类头像,并且这个过程非常迅速,几乎可以实时完成。这样,无论是用于游戏、动画还是虚拟现实应用,LHM都能提供高质量的3D人类模型。
2025-03-13|WestlakeU,MPI-IS,BerkeleyAI|⭐️
http ://arxiv. org/abs/2503. 10624v1https ://boqian-li. github.io/ETCH/,
本研究提出了一种新的方法——等变紧致拟合(ETCH),旨在解决为穿着衣物的人体模型进行精准拟合的挑战。传统的方法往往依赖于复杂的多阶段优化流程,容易受到初始姿态和衣物类型的影响,而学习基础的方法在面对各种姿态和服装风格时表现不佳。ETCH通过建模衣物与身体之间的表面映射,采用局部的SE(3)等变性来编码紧致度,从而简化了穿衣人体的拟合过程。研究表明,ETCH在松散衣物的拟合精度上显著优于现有的最先进方法,并且在多种姿态和形状下都展现了强大的泛化能力。
ETCH方法的核心在于通过以下步骤实现衣物与身体的紧致度拟合:
紧致度向量预测:从外部衣物表面到内部身体表面的方向和大小,生成紧致度向量。这一向量由方向和大小两个部分组成,方向与人体姿态密切相关。
标记回归:通过使用稀疏标记来简化拟合任务,减少对噪声的敏感性。每个标记与特定身体区域对应,聚合相同区域内的点以提高准确性。
特征聚合与优化:利用加权聚合方法结合紧致度向量,生成最终的标记用于优化参数。通过对稀疏标记的优化,能够有效地拟合参数化的SMPL身体模型。
数据准备:为训练准备地面真实的紧致度向量、标记和置信度,确保模型在推理时能够准确估计内部点的位置。
在实验中,研究团队使用CAPE和4D-Dress两个数据集进行评估,分别包含多种人体形状、姿态和衣物类型。通过与多种基线方法进行比较,结果显示ETCH在V2V(顶点到顶点)距离、关节位置误差(MPJPE)和双向Chamfer距离等指标上都显著优于其他方法。特别是在松散衣物的拟合精度上,ETCH在CAPE数据集上减少了4. 6%至36. 5%的V2V误差,并在4D-Dress数据集上提高了16. 7%至59. 2%的准确率。此外,研究还进行了消融实验,以验证各个组件对最终性能的贡献,结果表明紧致度向量的引入对提高拟合精度至关重要。
在我们的研究中,我们提出了一种新方法,叫做“等变紧致拟合”,旨在帮助计算机更好地理解穿衣人类的形状。首先,我们通过观察衣服的外部,预测出衣服与身体之间的紧致度,简单来说,就是衣服是紧还是松。接着,我们将这种紧致度转化为一种向量,这个向量指向身体的内部,帮助我们找到身体的准确位置。此外,我们使用了一种叫做稀疏标记的技术,这样可以减少错误的影响,使得拟合过程更加稳定。最后,通过对这些标记的优化,我们能够更精确地调整模型,使其完美适应不同的人体形状和衣物风格。我们的实验结果表明,这种方法在各种情况下都表现出色,比以前的方法更有效。
2025-03-13|StanfordU,Google,ETHZurich|⭐️🟡
http ://arxiv. org/abs/2503. 10597v1https ://syntec-research. github.io/GroomLight
GroomLight是一种新颖的头发外观建模方法,旨在通过多视图图像实现可重光照的人类头发效果。现有的头发捕捉技术在实现真实感渲染与可重光照能力之间存在挑战。传统的材料模型虽然物理基础扎实,但往往无法捕捉细致的外观细节;而神经渲染方法虽然在视图合成上表现出色,但在新光照条件下泛化能力较差。GroomLight通过结合这两种方法的优势,采用扩展的头发双向散射分布函数(BSDF)模型来捕捉主要光传输特征,并利用光感知残差模型重建细节,最终实现高保真度的可重光照效果。
GroomLight的方法框架分为两个主要部分。首先,输入数据来自多摄像机的单光源捕获(OLAT),使用50个摄像机和331个光源进行图像采集。接着,采用扩展的BSDF模型,该模型通过物理参数化来捕捉真实头发的主要外观特征。其物理参数包括吸收系数、粗糙度等,同时考虑头发几何的空间变化。第二部分是光感知残差模型,旨在捕捉未被BSDF模型完全涵盖的细节。这一过程通过双层球谐函数和3D高斯表示进行优化,确保模型在不同光照和视角下保持真实感。整个优化过程通过混合逆渲染流程进行,分为BSDF优化和残差优化两个阶段,最终生成高质量的头发外观模型。
实验部分对GroomLight的性能进行了全面评估,使用来自10个不同受试者的数据集,涵盖多种头发特征。通过160种不同的光照条件和约48个摄像机视角进行训练,并在两个新视角下进行验证。评估指标包括峰值信噪比(PSNR)、结构相似性指数(SSIM)和感知图像补丁相似性(LPIPS)。与现有的两种基线方法(HairInverse和GaussianHair)进行比较,GroomLight在所有指标上均表现出色,显示出显著的质量提升。此外,进行了一系列消融实验,验证了各个组件对整体性能的贡献,结果表明,采用空间变化的反射率参数化和旋转修正显著提高了渲染的真实感。
GroomLight的工作原理可以简单理解为一个两步走的过程。首先,我们使用多台相机和多个光源拍摄头发的图像。这些图像帮助我们建立一个详细的头发外观模型。这个模型的第一步是分析头发的基本光线反射特性,确保它能够在不同光照下看起来真实。接下来,我们还要捕捉一些细节,比如头发的颜色变化和光泽感。这一步是通过一个特定的数学模型来实现的,它能根据光线的角度和方向调整头发的外观。最终,这个模型不仅能在各种光照条件下表现出色,还可以轻松地进行颜色和样式的编辑。通过这种方式,GroomLight能够生成非常逼真的头发效果,适用于虚拟现实、电影等多个领域。
2025-03-13|SDU,NUC|CVPR2025
http ://arxiv. org/abs/2503. 10000v1https ://github. com/wangshu31/MetricGrids
本研究提出了一种名为MetricGrids的新型网格基础神经表示方法,旨在通过结合不同度量空间中的基本度量网格来逼近复杂的非线性信号。现有的网格表示方法通常依赖线性索引,导致在处理复杂非线性信号时表现不足。为了解决这一问题,MetricGrids利用泰勒展开原理构建多个基本度量网格,作为高阶项来近似非线性特征空间。此外,通过基于哈希编码的紧凑表示,MetricGrids有效降低了存储需求,同时保持了模型的紧凑性。实验结果表明,该方法在2D和3D重建中均展现了优越的拟合和渲染精度,验证了其在多种信号类型上的稳健性和广泛适用性。
MetricGrids的核心在于其独特的网格结构设计,主要包括以下几个部分:
基本度量网格的构建:通过在不同度量空间中定义多个基本度量网格,利用泰勒展开的高阶项来表示复杂的非线性特征。
哈希编码的紧凑表示:为了解决存储效率问题,采用哈希编码来编码基本度量网格,避免不同网格间的哈希碰撞,同时利用高阶导数的稀疏性来优化参数效率。
高阶外推解码器:该解码器基于已学习的低阶网格,逐步生成高阶项,以提高对非线性信号的拟合能力,减少所需的网格数量。
通过这些方法,MetricGrids能够在保留模型紧凑性的同时,增强对复杂非线性信号的表示能力。
在实验部分,MetricGrids被应用于多个隐式神经表示任务,包括2D图像拟合、3D有符号距离函数拟合和神经辐射场重建。具体实验中,使用Kodak数据集进行2D图像拟合,结果显示该方法在相似模型规模下的PSNR和SSIM均优于现有技术。此外,在处理高分辨率图像时,MetricGrids展现了良好的扩展性,能够有效重建复杂细节。在3D形状重建和神经辐射场重建任务中,MetricGrids同样显示出其优越的表现,尤其在复杂结构和光滑区域的重建上表现突出。实验结果表明,该方法在保持模型紧凑性的同时,显著提升了拟合精度。
MetricGrids是一种新颖的技术,旨在更好地处理复杂的信号,比如图像和三维形状。它的工作原理可以简单理解为使用多个小网格来捕捉这些信号的不同细节。首先,MetricGrids创建了几个不同的网格,每个网格负责处理信号的不同方面。接着,为了节省空间,MetricGrids采用了一种叫哈希编码的方式,把这些网格的信息压缩得更小,这样可以减少存储的需求。最后,MetricGrids还设计了一个聪明的解码器,它可以根据已有的简单信息推测出更复杂的细节。通过这种方式,MetricGrids不仅能有效地表示复杂的信号,还能保持模型的紧凑性,从而在各种任务中表现出色。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录