YOLO落地部署，一文尽览YOLO剪枝、量化进展，推荐收藏！

发布日期: 2025-07-06

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

以下文章来源于微信公众号：集智书童
作者：小书童
链接：https ://mp. weixin.qq. com/s/AzwdSKNs8SnIIRsdG0cZAg
本文仅用于学术分享，如有侵权，请联系后台作删文处理
导读
本文介绍了一种新颖的目标检测框架MAF-YOLO，其核心是通过多分支辅助FPN保持浅层信息和传递丰富梯度信息，通过重参化异构高效层聚合网络实现多尺度感受野并保留小目标信息，有效提升模型性能。
论文链接：https ://arxiv. org/abs/2307. 1190
在过去的几年中，大量的研究致力于改进YOLO目标检测器。虽然YOLO的明显优点使其在许多领域得到广泛应用，但在资源受限的设备上部署它仍然存在挑战。
在这篇综述中专注于剪枝和量化方法，因为它们相对独立。作者对它们进行分类，并分析将这些方法应用于YOLOv5的实际结果。通过这样做，作者确定了在适应剪枝和量化方法来压缩YOLOv5时的差距，并提供了在这一领域进一步探索的未来方向。
在众多版本的YOLO中，作者特别选择了YOLOv5，这是第一篇专门从实现角度审视在YOLOv5上进行剪枝和量化方法的综述论文。作者的研究也适用于更新版本的YOLO，因为将它们部署到资源受限的设备上仍然存在同样的挑战。
目标检测的主要目标是从给定图像中识别和定位不同类别的目标。目标检测是许多其他先进计算机视觉任务的基础，包括语义分割、目标跟踪、活动识别等。
近年来，基于深度学习的方法，如卷积神经网络（CNNs），在目标检测任务中取得了最先进的性能。由于计算能力和先进算法的进步，目标检测变得更加准确，为各种现实世界的应用提供了可能。与传统的目标检测方法相比，使用CNNs可以缓解目标检测中特征提取、分类和定位的问题。
通常，目标检测可以通过两种方法进行，即单阶段和两阶段检测。在前者中，算法直接预测目标的边界框和类别概率，而在后者中，算法首先生成一组区域建议，然后对这些建议进行目标或背景的分类。不同于两阶段目标检测方法，如FasterR-CNN和R-FCN，单阶段方法如YOLO、SSD、EfficientDet和RetinaNet通常使用一个完全卷积神经网络（FCN）来检测目标的类别和空间位置，而不需要中间步骤。
在不同的单阶段目标检测方法中，YOLO自2016年发布以来一直受到关注。YOLO的主要思想是将输入图像分成一个单元格网格，并为每个单元格预测边界框和类别概率。YOLO将目标检测视为回归问题。由于它使用单个神经网络进行目标检测和分类，它可以同时为这两个任务进行优化，从而提高整体的检测性能。
YOLOv1采用了一个简单的结构，包含24个卷积层和两个全连接层，用于输出概率和坐标。自推出以来，YOLO经历了几次改进和变种。
2017年，YOLOv2（也称为YOLO9000）发布，通过使用多尺度训练、Anchor-Box、批量归一化、Darknet-19架构和修改的损失函数等改进了性能。
随后，Redmon和Farhadi推出了YOLOv3，采用特征金字塔网络、带有Anchor-Box的卷积层、空间金字塔池化（SPP）块、Darknet-53架构和改进的损失函数。

YOLOv5l的结构如图2所示，其中CSPDarknet53包含C3块，这是CSP融合模块。CSP策略将基础层的特征图分成两部分，然后通过Cross-Stage层次结构合并它们。因此，C3模块可以有效地处理冗余的梯度，同时提高残差和稠密块之间信息传递的效率。C3是BottleNeckCSP的简化版本，目前用于最新的YOLOv5变体。
为了比较，图3中展示了C3和BottleNeckCSP块的设计。总的来说，这些修改使得YOLOv5在包括COCO数据集在内的几个目标检测基准上取得了最先进的性能。此外，不同的模型尺寸为用户提供了根据需要进行选择的机会。
在2022年，美团推出了YOLOv6，其特点是增强了双向连接（BiC）模块、Anchor-Box辅助训练（AAT）策略和新的Backbone和Neck设计。
很快由原作者推出了YOLOv7，它是一项重大突破。Wang等人提出了“Bag-of-Freebies”、复合模型缩放方法和扩展ELAN架构，以扩展、Shuffle和合并基数。\“Bag-of-Freebies\“包括计划的重参化卷积（受到ResConv的启发）、网络中间层的额外辅助Head（用于深度监督）以及软标签分配器，通过主Head预测来引导辅助Head和主Head。
Ultralytics在2023年推出了YOLOv8，对Backbone、Neck和Head进行了几处改动；使用C2f模块代替C3；提供了一个解耦的Head作为输出；模型直接预测目标的中心而不是Anchor-Box。虽然YOLOv6/7/8是更具特色的模型，但作者的工作重点是YOLOv5，因为对其进行了更多的研究。然而，这项研究可以扩展到更新的YOLO版本，特别是YOLOv8。
在YOLOv9算法中，CSPNet通过特征图分区增强梯度流并减少计算负载。ELAN专注于特征的线性聚合以提高学习效率，而GELAN则概括了这种方法以组合来自多个深度和路径的特征，从而在特征提取方面提供更大的灵活性和准确性。
YOLOv10引入了多种模型变体，例如YOLOv10-N、YOLOv10-S、YOLOv10M、YOLOv10-B、YOLOv10-L和YOLOv10-X，在MS-COCO数据集上实现了从38. 5%到54. 4%的精度（AP）。值得注意的是，YOLOv10-N和YOLOv10-S的延迟最低，分别为1. 84ms和2.49ms，非常适合需要低延迟的应用。这些模型的性能优于前代模型，YOLOv10-X实现了54. 4%的最高mAP和10. 70ms的延迟，反映了准确性和推理速度的均衡增强。关于YOLOv10的详细介绍请参考CV再放大招|YOLOv10：毫秒级实时端到端目标检测开源模型
YOLOv11采用了改进的骨干网络和颈部架构，增强了特征提取能力，以实现更精确的目标检测和复杂任务的性能。其引入了精细的架构设计和优化的训练流程，提供了更快的处理速度，并在准确性和性能之间保持了最佳平衡。YOLOv11在COCO数据集上实现了更高的平均精度均值（mAP），同时比YOLOv8少用了22%的参数，使其在不牺牲准确性的情况下具有计算效率。可以无缝部署在各种环境中，包括边缘设备、云平台和支持NVIDIAGPU的系统，确保了最大的灵活性。YOLOv11不仅支持目标检测，还支持实例分割、图像分类、姿态估计和定向目标检测（OBB），满足一系列计算机视觉挑战。
YOLOv12的显著特点是摒弃了传统基于CNN的方法，引入注意力机制用于实时目标检测。这一方法基于两项主要创新：
区域注意力（AreaAttention）：为了克服传统自注意力机制的高计算成本问题，YOLOv12将特征图水平或垂直划分为大小相等的区域（默认分为4部分）。这种简单而有效的方法在保留大感受野的同时，显著降低了计算复杂度。
残差高效层聚合网络（ResidualEfficientLayerAggregationNetworks，R-ELAN）：R-ELAN是早期ELAN架构的演进版本，它通过引入块级残差连接和缩放技术，解决了训练过程中的不稳定性问题。这种重新设计的特征聚合方法，使得即使是更深更宽的模型版本也能稳定训练。
YOLOv13于2025年发布。其核心创新在于：
HyperACE机制（基于超图的自适应相关增强）：引入可学习的自适应超图结构，能够动态建模多顶点之间的高阶视觉相关性，克服传统手工阈值设定的不鲁棒性。
FullPAD范式（全流程聚合与分发）：将HyperACE提取的相关增强特征在整个网络流程中进行多阶段聚合与分发，提升信息流动性和表示协同能力，显著改善梯度传播。
轻量化模块设计：使用深度可分离卷积替代普通卷积，提出DS-C3k2等模块，在几乎不损失性能的前提下显著降低参数量和FLOPs。
线性复杂度的消息传递机制：HyperACE中的超图卷积采用线性复杂度的设计，保证高效建模高阶相关性，避免计算爆炸。
当前的趋势是使用和扩展过参数化模型以获得更高的准确性；然而，所需的浮点运算（FLOPs）和参数数量正在急剧增加。这个问题阻碍了将复杂模型部署在边缘设备上，因为受到内存、功率和计算能力的限制。为了解决这个问题，可以采用云计算（CC）。然而，在云服务上运行复杂模型可能不是可行的选择，因为：
网络的成本：将图像数据传输到云端消耗了相对较大的网络带宽；
对时间关键任务的延迟：访问云服务的延迟没有保证；
可访问性：云服务依赖设备对无线通信的访问，在许多环境情况下可能会受到干扰。
因此，在许多情况下，边缘计算成为更有成果的解决方案。因此，引入了各种方法来压缩神经网络，以使大型模型可以在边缘设备上部署。模型压缩方法可以分为3类：剪枝、量化和知识蒸馏。在剪枝中，移除模型中不重要的冗余参数，以获得稀疏/紧凑的模型结构。量化涉及使用低精度数据类型表示模型的激活和权重。最后，知识蒸馏是指利用大型准确模型作为教师来训练一个小型模型，使用教师模型提供的软标签来进行训练。
在这篇综述论文中，作者的重点是剪枝和量化方法，因为它们广泛用作模块化压缩技术，而使用知识蒸馏需要有两个模型或修改目标网络的结构。作者回顾了近年来在YOLOv5上应用剪枝和量化的方法，并比较了压缩术语方面的结果。作者选择聚焦于YOLOv5，因为它是最近的YOLO版本，有足够的关于它与剪枝和量化相关的研究。
尽管更新版本的YOLO在许多领域已经超越了YOLOv5，但它们应用的压缩方法仍然不足以进行审查。已经对神经网络压缩方法进行了许多综述，但在这里，作者对这些方法在YOLOv5上的实际实现进行了综述。作者展示了所有与YOLOv5的剪枝和量化相关的工作，以及它们在不同方面的结果。通常，压缩结果可以通过内存占用、功耗、FLOPs、推理时间、帧率、准确性和训练时间的变化来表达。
神经网络剪枝最初是在OptimalBrainDamage和OptimalBrainSurgeon中提出的。它们都依赖于二阶泰勒展开来估计剪枝的参数重要性。也就是说，在这些方法中，Hessian矩阵应该部分或完全地被计算。然而，其他标准可以用于识别参数的重要性，也称为显著性。
理论上，最佳标准将对网络中每个参数的影响进行精确评估，但这样的评估计算成本过高。因此，其他评估方法包括范数、特征图激活的均值或标准差、批归一化缩放因子、一阶导数和互信息，可以用于显著性分析。在下面的部分中，作者将讨论这些显著性评估方法。作者不会在这里量化每种方案的有效性，因为不同的工作很难进行比较，并且各种因素，从超参数到学习率计划到实现架构，都会影响结果。相反，作者将介绍每个标准背后的思想，并表达将它们应用于压缩YOLOv5的结果。
显著性标准是指根据网络的某些特性或属性来确定神经网络中个别权重、神经元、滤波器或一组权重的重要性或相关性的度量或指标。
基于范数对模型进行剪枝是本综述论文范围内使用最广泛的方法。由于权重值通常形成具有零均值的正态分布，这是一种直观的方法，用于选择较不重要的单个权重或权重结构。使用这种标准的挑战在于定义一个用于进行剪枝的阈值。这样的阈值可以静态地为整个网络或每一层设置。此外，可以将其视为动态参数，并为该阈值定义调度器。例如，[Aunifiedframeworkforsoftthresholdpruning]提出了一种将阈值调度视为隐式优化问题，并使用迭代收缩阈值算法（ISTA）提供阈值调度器的方法。
范数通常与网络的稀疏训练结合使用，以推动具有相同效果的参数具有相似的值（参见第2. 1.3节）。为此，通常在代价函数中添加或正则化，并在（每个步骤的）训练之后剪枝具有较低范数的参数。
当在层的末端使用激活函数时，其输出可以被解释为对预测的参数的重要性。例如，在ReLU函数的情况下，接近零的输出可以被认为是不太显著的，并被选择为剪枝的候选项。此外，从更广泛的视角来看，激活张量的均值或标准差可以指示显著性。
虽然可以将其归类为范数和特征图激活标准的融合，但BN缩放因子主要用于剪枝YOLOv5，更普遍地说，用于CNN。[,Learningefficientconvolutionalnetworksthroughnetworkslimming]提出的这种方法引入了每个通道的缩放因子γ，并在训练过程中对其进行惩罚，以获得可以剪枝的稀疏网络。作者将BN缩放因子提出为网络压缩所需的γ。在他们的方法中，他们使用范数对通道的γ进行惩罚，然后剪枝具有接近零缩放因子的通道。
与前面的标准不同，一阶导数度量使用通过梯度在反向传播期间提供的信息。这类标准可以将激活到梯度的信息进行结合。

剪枝的粒度定义了对模型的哪种参数进行剪枝。广义上，剪枝可以以结构化或非结构化的方式进行。
非结构化或细粒度剪枝是指剪枝的目标参数是模型的权重，而不考虑它们在相关张量或层中的位置。在权重剪枝中，通过显著性评估来确定不必要的权重，并在之后屏蔽或删除它们。由于删除权重可能损害模型的结构，因此通常在此过程中屏蔽权重而不是删除它们。
虽然在训练过程中屏蔽权重而不是删除它们会增加内存使用量，但屏蔽的权重信息可以在每个步骤中用来将剪枝后的模型与原始模型进行比较。细粒度剪枝并不总是有益的，因为需要特殊的硬件来利用这种不规则的稀疏操作。虽然可以通过非结构化剪枝实现更高的压缩比，但存储剪枝权重的索引可能导致更高的存储使用率。
与前一类别不同，结构化剪枝可以根据权重张量中的结构进行剪枝。结构化剪枝在评估权重的重要性时观察权重张量中的模式，以便可以用低索引开销描述它们，例如跨步或块。在卷积层中，第个通道是通过将第个滤波器与输入特征图进行卷积得到的。因此，可以选择用于结构化剪枝的参数组，例如滤波器、通道或核。图4描述了这些结构化剪枝范例之间的差异。
它旨在删除导致每个层中输出特征图的第个通道的权重滤波器。许多现有的通道剪枝技术使用范数作为确定最不重要权重张量的标准。然而，关于该过程对整体模型结构的影响存在争议。在[ Channelpruningforacceleratingverydeepneuralnetworks]中，作者指出通道剪枝的过程对模型结构的损害较小。
相反，在[,Channelpruningviaautomaticstructuresearch]中观察到通道剪枝导致了网络结构的剧烈变化。然而，通过屏蔽参数而不是完全删除它们可能可以缓解结构性损害。然而，这种方法在训练期间可能不会带来任何节省，因为整个模型需要存储在内存中。
基于滤波器的剪枝消除了对应于输入特征图的第个通道的权重。也就是说，在卷积层中剪枝特定的滤波器，即第i个滤波器。这种剪枝方法对模型的结构损害较小，且可以类似于原始模型进行处理，因为输出通道的数量保持不变。
值得一提的是：
1）在层进行基于通道的剪枝等同于在层进行基于滤波器的剪枝；
2）滤波器剪枝与基于滤波器的剪枝并不相同。在滤波器剪枝中，会剪枝掉一个或多个层的滤波器，可以从粒度的角度来看，将其归类为基于通道的剪枝。
在此类别中，剪枝掉第l层中连接输入特征图的第i个通道和输出特征图的第j个通道之间的一个滤波器的所有参数。这种剪枝粒度不会损害模型的结构。
无论剪枝粒度和显著性标准如何，剪枝过程可以在一次性方式或迭代方式下进行。在一次性剪枝中，不重要的参数在训练之前或之后被删除/屏蔽。
在后训练剪枝中，网络性能可能会永久下降，而迭代剪枝会考虑性能下降并重新训练网络。与一次性剪枝相比，虽然迭代剪枝需要更多的计算和时间，但在某些情况下，它可以防止准确性下降甚至提高准确性。
此外，一些方法会修改网络成本函数，例如添加正则化项，以使模型更适合剪枝。因此，它们不能用作后训练剪枝。
表1表示了最近在YOLOv5上实验剪枝的结果，按照剪枝粒度进行分类。
[Spdy:Accuratepruningwithspeedupguarantees]的重点是实现期望的推理时间，而不是特定的压缩比。它提出了一种剪枝方法，通过动态规划搜索学习高效稀疏配置文件（SPDY），可以在一次性和迭代方案中使用。

[Structuredpruningfordeepconvolutionalneuralnetworksviaadaptivesparsityregularization]提出了一种自适应稀疏正则化（ASR），它根据滤波器权重来产生稀疏约束。也就是说，在正则化的损失函数中为具有较弱通道输出的滤波器分配惩罚，而不是直接使用批归一化缩放因子的L1范数来规范化损失。训练后，对于所有层，剪枝掉批归一化缩放因子小于全局阈值的滤波器，并进行微调以恢复准确性。

[Defectdetectionoftrackfastenersbasedonprunedyolov5model]将滤波器视为空间中的点，并采用滤波器剪枝几何中值（FPGM）方法来剪枝卷积层的滤波器，该方法与-norm标准不同，它明确利用滤波器之间的相互关系。它计算整个层权重的几何中值，并剪枝视为冗余的滤波器，如果它们的几何中值接近该层的几何中值。

准确性。

[Fastshipdetectionbasedonlightweightyolov5network]采用t分布随机邻域嵌入算法来降低锚点帧预测的维数，并将其与加权聚类融合，以预测帧大小，以实现更准确的预测目标帧。随后，通过BNSF方法剪枝滤波器。

[Objectdetectionmethodforgraspingrobotbasedonimprovedyolov5]通过层和核剪枝来压缩YOLOv5的neck和Backbone网络。

在对YOLOv5进行剪枝的研究中，将近85%采用基于通道的剪枝方法，其余与其他结构化和非结构化粒度有关。主要用于剪枝的显著性准则是BNSF稀疏训练方法，约有60%的调查论文在作者的范围内采用了这种方法，而其余的采用了范数、范数或提出了新的显著性准则。
神经网络量化旨在用比其原始精度（通常为32位单精度浮点数FP32）更少的位数表示深度神经网络的权重和激活。这一过程在尽量保持模型性能/准确性的同时完成。通过利用更快的硬件整数指令，量化可以减小模型的大小并提高推理时间。
在[ Asurveyofquantizationmethodsforefficientneuralnetworkinference]中，Gholami等人对神经网络量化的不同方面进行了调查，其中包括这一主题的理论细节。在这里，作者将简要介绍和讨论关键要点。不失一般性，作者解释量化概念时使用一个实际的有限变量，它可以表示神经网络中的权重或激活。
假设是一个有限的变量，限制在S的范围内，作者希望将其值映射到q，这是一组包含在中的离散数。在映射之前，作者可能希望将输入r的范围裁剪到一个较小的集合。
均匀量化将r映射为一组间隔均匀的离散值，而在非均匀量化中，离散值之间的距离不一定相等。通过非均匀量化，可以更好地捕获权重和激活分布中的重要信息，因为可以将更密集的区域分配给更接近的步骤。因此，尽管使用非均匀量化需要比均匀方法更多的设计，但它可能实现更低的准确性下降。
此外，由于权重和激活的分布通常趋向于呈钟形分布且具有长尾，非均匀量化可以获得更好的结果。图5展示了上述量化方案之间的差异。
对于一组输入，裁剪范围，其中，可以动态或静态确定。动态量化为每个输入动态计算裁剪范围，而静态量化则使用预先计算的范围来裁剪所有输入。动态量化可以实现比静态量化更高的准确性，但计算开销显著。
对训练好的模型进行量化可能会对模型的准确性产生负面影响，因为会累积数值误差。因此，量化可以以两种方式进行：量化感知训练（QAT），即重新训练网络，或者后训练量化（PTQ），不包括重新训练网络。在QAT中，量化模型的前向和后向传播使用浮点数进行，网络参数在每次梯度更新后进行量化。
另一方面，PTQ在不重新训练网络的情况下执行量化和参数调整。与QAT相比，此方法通常会导致模型的准确性下降，但其计算开销较低。通常，PTQ使用少量的校准数据来优化量化参数，然后对模型进行量化。由于PTQ依赖于最少的信息，通常无法在保持准确性的情况下实现低于4或8位精度。
一旦模型被量化，它可以使用虚伪量化（也称为模拟量化）或仅整数量化（也称为定点量化）进行部署。在前者中，权重和激活以低精度存储，但从加法到矩阵乘法的所有操作都在浮点精度下执行。虽然这种方法在浮点运算之前和之后需要不断的解量化和量化，但它有利于模型的准确性。
然而，在后者中，操作以及权重/激活存储都使用低精度的整数算术进行。通过这种方式，模型可以利用大多数硬件提供的快速整数算术。图6说明了PTQ和QAT部署在单个卷积层上的差异。

NoiseInjectionPseudoQuantization（NIPQ）作为QAT方法，首先使用伪量化噪声对网络进行预训练，然后在后训练中对模型进行量化。这种方法可以自动调整位宽和量化间隔，同时对神经网络的Hessian矩阵的迹求和进行正则化。作者在YOLOv5上评估了他们的方法，并实现了3位以下的精度，而准确性几乎没有明显下降。

总体而言，超过一半的研究论文使用了QAT方案，其结果可以达到3位以下的低精度量化。然而，尚未有PTQ方案达到8位以下的精度。虽然对于YOLOv5存在更多的量化研究，但本次回顾的重点主要是包括那些采用了新的量化方法的论文。因此，作者排除了那些在实现中仅使用TensorRT，PyTorchQuantization和ONNX量化的结果。
与常规CNN不同，对YOLOv5进行剪枝面临一些挑战，因为其复杂且高度优化的深度神经网络架构。YOLOv5使用CSP-Darknet53神经网络架构作为Backbone网络，使用PANet作为neck，两者都由许多卷积层紧密连接和连接组成。此外，Backbone网络和neck之间的互连增加了模型的复杂性。总体而言，这些层的结构复杂性妨碍了在不对网络整体性能产生不利影响的情况下移除不必要的滤波器。否则，与连接相关的特征图的空间分辨率将不匹配。因此，在剪枝YOLOv5之前需要进行一些补偿。例如，[Pruned-yolo:Learningefficientobjectdetectorusingmodelpruning]不考虑剪枝上采样层、连接层和YOLOv5的head。
此外，它忽略了BottleNeck模块中的shortcut连接，以允许输入具有不同数量的通道。在这方面，更多的研究应该考虑基于滤波器和基于卷积核的剪枝，因为这种剪枝策略不会改变输出通道的数量，从而简化了剪枝过程。如表1所示，目前的研究方向是利用BNSF进行稀疏性训练和基于通道的剪枝与微调。然而，使用其他显著性准则的一次性剪枝存在空白。这里作者介绍一些未应用于YOLOv5的新方法。
EagleEye将剪枝过程视为一个优化问题，并指出使用评估准确性可能不是指导剪枝候选项选择的有前途的准则。因此，它为每个层提出了一个随机剪枝比例，然后根据它们的范数对滤波器进行剪枝。它通过使用训练数据子样本的自适应BN-based候选评估模块来评估剪枝候选项的影响。

尽管与YOLO无关，从FP32到INT8的量化不是一种平滑的转换，如果梯度景观比较恶劣，可能会阻碍结果的最优性。此外，使用PTQ实现低位（<4位）精度几乎是不可能的，因为它很可能会破坏模型的性能。
目前，使用TensorRT，PyTorchQuantization和ONNX量化等现成的量化模块是一种趋势，但它们无法实现很低的精度，因为它们受限于8位精度。然而，这样的研究在本次回顾中未被包括，因为作者的重点是找到在YOLOv5上使用的新的量化方法。
关于在量化YOLOv5上进行的应用研究，更多的研究使用QAT进行量化，精度范围从1位到8位不等。然而，在关注加速训练时间和推理时间方面存在空白，尤其是因为在新数据集上训练YOLOv5需要大量的计算和时间。作为解决方案，可以更多地使用整数量化，因为当使用整数进行运算时，硬件吞吐量要高得多。例如，当数据类型为INT4而不是FP32时，TITANRTX的每秒运算次数可以增加约23倍。
此外，PTQ方法在进行低于8位的精度研究/需求时仍然存在问题，这为未来的研究提供了机会。因此，作者建议一些可以应用于YOLOv5的方法来填补上述空白。

Yao等人提出了HAWQV3，这是一种混合精度整数量化方法，可以实现统一映射的INT4或INT4/INT8量化。AdaQuant提出了一种PTQ量化方案，通过根据校准集来优化每个层或块的参数，以最小化每个层或块的量化误差。它可以获得INT4精度下的SOTA量化，导致几乎可以忽略的准确性下降。

[Lossawarepost-trainingquantization]评估了量化对损失面貌的影响，并引入了一种新颖的PTQ方法，可以通过直接最小化损失函数来达到4位精度，从而实现几乎与全精度基线准确性相当的结果。
[1].ModelCompressionMethodsforYOLOv5:AReview.
欢迎加入《AI未来星球》，一起成长
扫描下方二维码即可加入~
真诚分享AI落地过程（AI商机->项目签约->算法开发->产品开发->实施运维）中的各方面经验和踩过的坑。
你可以获得什么？
1、大白之前花费10W+购买，AI行业各场景私有数据集下载，星球内倾情分享；2、AI行业研发、产品、商业落地问题咨询（目前AI公司创业中），都可获高质量解答，有效期一年，无限次提问，有问必答。3、定期邀请AI行业各类嘉宾分享，创业/商业等方面的经验！
帮助你解决遇到的实际问题，升职加薪！
大家一起加油！

ZejunCao

https://zejuncao.github.io/2025/07/06/1000001663-2247540311-1-1751813256/