1张4090,本地部署多模态大模型


1张4090,本地部署多模态大模型

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
我对阿里通义千问十分喜爱,单说私有化部署,成本比DeepSeek低很多倍。私有化部署DeepSeek-V3或R1,纯硬件成本保底150万(英伟达H20141GB版),如果是国产算力,保底200万了。但阿里的推理模型QwQ:32B,只需要4张4090就行了(成本10几个w),表现非常优异,很多场景可以替代DeepSeek。具体参看[[2025-03-22-大模型推理引擎vllm,启动QwQ-32B]]而多模态大模型Qwen2.5-VL-32B也只需要4张卡,7B只需要1张!
Qwen2.5-VL是阿里通义千问团队开源的旗舰视觉语言模型,有3B、7B、32B、72B等不同规模。该模型在视觉理解方面表现出色,能够识别常见物体,分析图像中的文本、图表等元素。
Qwen2.5-VL具备作为视觉Agent的能力,可以推理并动态使用工具,初步操作电脑和手机。在视频处理上,Qwen2.5-VL能够理解超过1小时的长视频,精准定位相关片段捕捉事件。模型还支持发票、表单等数据的结构化输出。
Qwen2.5-VL在多个性能测试中表现优异,在文档和图表理解方面优势明显,7B模型在多项任务中超越了GPT-4o-mini。模型的推出为开发者提供了强大的工具,能够在多种应用场景中发挥重要作用。
本文我们主要介绍Qwen2.5-VL-7B本地化部署
从modelscope下载,毕竟huggingface网不通。
模型文件:https ://modelscope.cn/models/Qwen/Qwen2.5-VL-7B-Instruct/files
安装modelscope:pipinstallmodelscope
下载完整模型库:modelscopedownload–modelQwen/Qwen2.5-VL-7B-Instruct–local_dir/home/data-local/qwen25VL
将模型下载到指定的本地目录”/home/data-local/qwen25VL”中。
一共16个GB
安装vllm:pipinstallvllm
运行大模型:
我的机器前4张卡被占用了,所以我是用第五张卡来启动Qwen2.5-VL-7B,指定CUDA_VISIBLE_DEVICES=4(第一张卡编号是0)
直接上openweb-ui
安装:pipinstallopen-webui
运行:open-webuiserve
浏览器打开http ://locahost:8080
如果是服务器部署,把localhost改为服务器ip
正常注册登陆
右上角点击头像,点击管理员面板
点击设置-外部链接,照着抄一下,apikey随便填写
然后回到前端,左上角添加模型那里就可以找到Qwen2.5-VL-7B-Instruct了
上传图片,随便问个问题,回答很精准
再来一张
它的回复是:这一张图片是一张带有文字的图,描绘了两个人的脸部,一个表情平静,另一个表情有些惊讶或困惑。图片下的文字写着:”产品说,做一个需求:手机摇一摇,让周围人的支付宝余额都转我卡里!”这句话的字面含义是指开发人员提出一个荒谬的需求,即通过摇手机来实现将附近人的支付宝余额转移到他们的卡里。这种需求显然是不现实和技术上不可行的。这幅图可能用于表达对不台理或无法实现的技术需求的讽刺或幽默。
卡不够的同学,真的可以试试这个7B版本。开源做到这个程度,属实无可挑剔了。
88
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录