少样本YOLO目标检测+零样本Kimi/QwenVL，实战应用详解！

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

以下文章来源于微信公众号：深度抑郁患者
作者：GIS小丸子
链接：https ://mp.weixin.qq.com/s/fwbeSdmZLBbyMnivZx4gyw
本文仅用于学术分享，如有侵权，请联系后台作删文处理
导读
本文提出”实时检测+视觉语言模型”融合方案：通过YOLOv8快速定位目标，联动LLaVA等模型解析场景语义，基于PyTorch代码验证该组合在实时视频流中同步完成物体检测与智能推理的可行性，探索轻量化多模态推理的新思路。
我在HuggingFace的Space上直接利用了模型默认提供的Gradio工具测试了几款视觉大模型，也提出了「实时检测+视觉语言模型」组合的场景识别推理的思路，所以这篇文章我们自己通过代码来简单验证一下这个思路是否可行，如下是基本的思路示意。
待识别的场景：
(有请老演员)：手机支架的前面是否存在一个易拉罐，如果之前实现这个场景的思路就是需要制作一系列的手机支架以及易拉罐的不同视角、不同姿态、平台形状的图片和标注集合，然后再进行模型的训练。
当然在这个过程中我还使用了保温杯以及变脸的玩偶来进行测试，看看他是不是会推理错误。
一、实时检测模型
YOLOv8n，在此基础上利用之前拍摄的手机支架的数据集合微调了一个能够识别手机支架的模型best.pt，虽然数据集还不，各种情形覆盖的还不够完备，训练集/测试集/验证集合一共55张左右，所以识别的准确度还是有待提高的，按照一些训练平台的建议，特定场景的数据集合需要做到一千张左右，但是只要吧置信度调低，做基本的测试验证识别是够了，这次打算直接使用这个权重。
摄像头方面，我直接是使用了MAC链接了手机作为摄像头，然后通过OpenCV来进行摄像头数据的实时读取，然后再执行YOLO的推理检测。
二、中间存储
YOLO识别到手机支架后，程序就会将识别到的图片帧存储到一个中间目录tmp中，并为当前帧生成一个uuid和识别的时间放到一个队列queue中，并利用这个uuid作为文件名将图片帧保存下来，然后为VLM模型单独开一个线程来持续读Queue中的识别结果，然后再读区相应名称的图片，调用VLM的API推理，并将结果格式化成为JSON，保存成和图片同名的JSON文件就可以了，但是这个中间可以改进的点就是利用OpenCV在识别进程中再进行写效率是很低的，但是这次测试就不解决这个问题了，后续再做优化。
三、VLM模型调用
我看了一下Kimi和Qwen的调用文档发现了两个很有意思的点：
第一、提供在线调用的VLM模型其实都是兼容OpenAI的规范的，调用的代码基本上也都是一样的，不一样的也就是一些地址、KEY以及模型的选择，换模型的代价变得很小；
第二、本地部署的推理模型都是兼容HuggingFace规范的，现在很多开放的模型都放在了HuggineFace上，自己本地部署其实也都是用的HuggineFace的框架，修改的大多数也就停留在文件配置上。
1、通过在线API的方式直接调用Kimi：moonshot-v1-8k-vision-preview，这个就比较简单了，申请到APIKEY直接执行一下就行了，虽然在Kimi的Chat工具中调用还是很快的，但是这种API调用可能会受到网络请求的限制。
从最后的推理JSON结果来看，Kimi的识别结果都是准确的，基本上没有受到保温杯和玩偶的影响，但是同样都存在一个问题就是调用返回的时间过长，如果是单次调用几秒就可以返回，但是如果让程序根据队列的状态触发进行连续调用，返回的结果立马就会变得非常长，比如vlm_time显示的就是模型的调用返回时间（秒）,这个部分应该是受到的模型平台的限制，当然也可以合并请求，将图片进行合并批处理效果会更好一些，模型接口也是支持的，但是不包含在本次验证中。
2、通过本地部署QwenVL-7B-Instruct，直接通过HuggineFaceHub的方式安装，但是安装过程中还是遇到了一些问题，虽然通过HuggineFaceHub部署兼容性会好很多，小模型我的MAC也是可以跑的，但是这个模型的体积有点大，不仅下载耗费了一些时间，同时运行的时候提示内存太小无法加载，即使我修改为了offline_load的模式，最后也是没有办法安装的，所以本地部署大模型，机器还是很关键的。
然后就可以在阿里的百炼平台上进行APIKEY的申请，然后配置到原来调用KIMI的代码中就可以了，最后根据识别的结果也都是比较准确的，所以在这边就不展示了，后面如果本地可以部署的同学可以跟我同步一下识别的效果。
总体来说，大模型的识别精度以及发泛化的能力还是很强的，但是主要就是对算力的依赖比较大，在线平台的调用效果也不好，最好是能够本地部署。
欢迎加入《AI未来星球》，一起成长
扫描下方二维码即可加入~
你可以获得什么？
1、大白之前花费10W+购买，AI行业各场景私有数据集下载，星球内倾情分享；2、AI行业研发、产品、商业落地问题咨询（目前AI公司创业中），都可获高质量解答，有效期一年，无限次提问，有问必答。3、定期邀请AI行业各类嘉宾分享，创业/商业等方面的经验！
帮助你解决遇到的实际问题，升职加薪！
大家一起加油！