仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
大家好,我是Ai学习的老章
极简结论:Qwen3是可以本地部署的最强开源写代码大模型
阿里Qwen3全部情报汇总,本地部署指南,性能全面超越DeepSeekR1
我只有4张4090显卡,本文尝试本地部署Qwen3:32B,搭配OpenwebUI聊天Bot,简单看看其推理速度
本地部署
Mac部署
下载模型
模型部署
openwebui聊天助手
测试
模型页:https ://ollama.com/library/qwen3
运行:ollamarunqwen3
其他尺寸,在后面加参数即可,比如:ollamarunqwen3:32b
可以在提示词后输入/no_think来切换Ollama中的无思考模式。
备注⚠️:ollama运行的是量化版,效果有折扣
需要升级到v0.8.4以上,最好v0.8.5
地址:https ://github.com/vllm-project/vllm/issues/17327
需要升级到SGLang0.4.6.post1
地址:https ://github.com/sgl-project/sglang
可以用llama.cpp运行起Qwen3量化版本、动态量化版本!
地址:https ://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95
Xeon铂金4代+4090运行Qwen3-235B-A22B单个请求可以达到13.8token/s,4个请求并行可以达到总计24.4token/s
地址:http ://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md
Mac上也可以跑Qwen3了
地址:https ://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16
支持设备
iPhone:0.6B,4B
Macbook:8B,30B,3B/30BMoE
M2,M3Ultra:22B/235BMoE
有网友测试Qwen3-235B-A22B-4bit量化版本在AppleMacStudioM2Ultra能跑到28toks/sec,大概占用132GB内存
模型文件:https ://modelscope.cn/models/Qwen/Qwen3-32B/files
在下载前,先通过如下命令安装ModelScope
pipinstallmodelscope
命令行下载完整模型库
modelscopedownload–modelQwen/Qwen3-32B
下载单个文件到指定本地文件夹(以下载README.md到当前路径下“dir”目录为例)
modelscopedownload–modelQwen/Qwen3-32BREADME.md–local_dir./dir
模型大小约64GB
用vllm拉起大模型,我有4张4090显卡,tensor-parallel-size设置为4
卡没被占满,还有空余拉起reranker模型
OpenWebUI旨在为AI和LLMs构建最佳用户界面,为那些互联网访问受限的人提供利用AI技术的机会。OpenWebUI通过Web界面本地运行LLMs,使AI和LLMs更安全、更私密。
安装openwebui是我见过所有chatbot中最简单的了
浏览器打开http ://locahost:8080
如果是服务器部署,把localhost改为服务器ip
正常注册登陆
右上角点击头像,点击管理员面板
点击设置-外部链接,照着抄一下,apikey随便填写
然后回到前端,左上角添加模型那里就可以找到Qwen3:32B了
teminal页面会实时输出模型推理时的性能
速度还蛮快的,如果开启reasoning会慢很多,关闭的话,vllm那里改成下面即可
vllmserve.–served-model-nameQwen3:32B–port3001–tensor-parallel-size4
我看了xhs上一些网友评价,很多说效果远远不如官方公布的结果,还有说幻觉严重
有些是直接用ollama运行的量化版,效果不好很正常
有些是在官方网站上测试的,这个就见仁见智了,我还是觉得个例的参考价值不大
用脑经急转弯和弱智吧的问题去测试大模型,属实脑经不转弯。
看两个独立测评
evalscope做了测试,结果-Qwen3-32B模型在思考模式下,其准确率与QwQ-32B相当(在Accuracy折线上两者重合),都达到了最好的水平。随着问题难度的增加,模型的输出长度都随问题难度增加而增加,这表明模型在解答更复杂问题时需要更长的”思考时间”,与Inference-TimeScaling现象相符。
推上karminski3测试了其写代码能力
极简结论:Qwen3是可以本地部署的最强开源写代码大模型
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等