本地部署大模型性能测试，DeepSeek-R1-0528-Qwen-8B 依然是我的不二之选

发布日期: 2025-06-24

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

大家好，我是ai学习的老章
介绍一个大模型并发性能测试工具
看一下我高频使用的，在2*4090显卡上部署的DeepSeek-R1-0528-Qwen-8B性能如何
我特别喜欢的三个DeepSeek版本
DeepSeek-R1-0528蒸馏Qwen3:8B大模型，双4090本地部署，_深得我心
项目地址：https ://github. com/lework/llm-benchmark
LLM-Benchmark是一个专为大语言模型（LLM）设计的并发性能测试工具，旨在为模型开发者和运维人员提供自动化压力测试和性能报告生成能力。通过该工具，用户可以在不同并发场景下全面评估LLM服务的响应能力与稳定性，为模型部署和优化提供数据支持。
主要功能
多阶段并发测试LLM-Benchmark支持从低并发到高并发的多阶段压力测试，帮助用户了解模型在不同负载下的表现，定位性能瓶颈。
自动化测试数据收集与分析工具自动采集每轮测试的详细数据，包括响应时间、吞吐量、错误率等，极大提升测试效率和数据准确性。
性能指标统计与可视化报告LLM-Benchmark能生成详细的性能报告，支持可视化展示，方便用户直观分析测试结果。
短文本与长文本场景支持针对不同应用需求，工具支持短文本和长文本两种测试模式，覆盖更广泛的真实使用环境。
灵活的配置选项用户可通过命令行参数灵活配置测试目标、模型类型、并发数、请求数等关键参数，适应多种测试需求。
JSON输出支持测试结果可输出为JSON格式，便于后续数据分析或与其他工具集成。
适用场景
LLM服务上线前的性能评估与优化
不同模型、不同部署方式的横向对比
长文本与短文本场景下的极限压力测试
自动化回归测试与性能监控
核心文件包括：
‎⁠run_benchmarks. py⁠：自动化测试脚本，负责执行多轮压力测试、自动调整并发配置（1-300并发）、收集和汇总测试数据，并生成美观的性能报告。
‎⁠llm_benchmark. py⁠：并发测试的核心实现，负责管理并发请求、连接池，收集详细性能指标，并支持流式响应测试。
‎⁠assets/⁠：资源文件夹，用于存储测试所需的辅助资源。
‎⁠README. md⁠：项目文档，介绍工具用法和参数说明。
1. 运行全套性能测试
通过‎⁠run_benchmarks. py⁠脚本，可以自动完成多轮不同并发量的压力测试，适合全面评估LLM服务性能：
参数说明：
‎⁠–llm_url⁠：待测LLM服务的URL（必填）
‎⁠–api_key⁠：API密钥（可选）
‎⁠–model⁠：模型名称（默认deepseek-r1）
‎⁠–use_long_context⁠：启用长文本测试（默认False）
2. 运行单次并发测试
如需针对特定并发量进行单轮测试，可使用‎⁠llm_benchmark. py⁠脚本：pythonllm_benchmark. py
参数说明：
‎⁠–num_requests⁠：总请求数（必填）
‎⁠–concurrency⁠：并发数（必填）
其他参数与上文类似，还可配置输出token数、请求超时、输出格式等。
我测试的是全套性能，使用了长上下文模式
结果如下：
返回性能测试指标的概念说明：
1. RPS（每秒请求数，RequestsPerSecond）RPS表示系统每秒能够处理的请求数量，是衡量系统吞吐能力的核心指标。反映模型或服务的并发处理能力，RPS越高，说明系统单位时间内能服务更多用户，适合高并发场景。
2. 平均延迟（秒，AverageLatency）平均延迟指所有请求从发出到收到响应的平均耗时，衡量用户实际体验的响应速度，平均延迟越低，用户等待时间越短，体验越好。
3. P99延迟（秒，P99Latency）指99%的请求响应时间低于该值，只有1%的请求耗时更长。反映极端情况下的响应速度，衡量系统在高负载或偶发异常时的表现，适合评估服务的稳定性和最差体验。
4. 平均TPS（TransactionsPerSecond）平均TPS表示每秒生成的token数量（在大模型场景下，通常指每秒生成的文本token数），衡量模型的实际生成速度，TPS越高，说明模型生成文本的效率越高，适合需要快速输出的业务场景。
5. 首Token延迟（秒，FirstTokenLatency）首Token延迟是指从请求发出到生成第一个token的耗时，反映模型首次响应的启动速度，首Token延迟越低，用户首次看到回复的速度越快，提升交互体验。
这个结果还是不错的，50个并发情况下，平均延迟2. 4秒，平均TPS42. 44
吞吐量（RPS）提升明显随着并发数提升，RPS从单并发的0. 91快速提升到300并发下的43.53，说明模型具备很强的高并发处理能力。
响应速度与延迟变化并发数提升带来平均延迟的增加，单并发下平均延迟仅1. 098秒，300并发时增至12. 62秒，P99延迟也有类似趋势。高并发下部分请求耗时显著增加。
首Token延迟首Token延迟在低并发时极低（0. 035秒），但在200/300并发时升至2. 849秒，说明高并发下模型启动响应速度有所下降。
平均TPS下降随着并发提升，平均TPS从90. 89逐步下降到12.62，反映高负载时单请求生成token的速度受到影响。
成功率始终100%各并发场景下无失败请求，模型稳定性表现优秀。
作为对比，我让豆包帮我找了一下市面上主流平台DeepSeekAPI的生成速度
DeepSeek：DeepSeek-V3的文本生成速度官方宣称是60tokens每秒。但据一些测试数据显示，通过API向DeepSeek-R1模型服务器发送请求时，其生成速度有所波动，如Content部分118tokens，用时3. 12秒，生成速度37. 76tokens/s；总体生成436tokens，总用时13. 21秒，平均速度33. 01tokens/s等。在深圳本地对DeepSeek-R1API服务测试中，DeepSeek官方的生成速度为37. 117tokens/s，推理速度为25. 378tokens/s。
其他平台：
火山引擎：在深圳本地测试中，生成速度可达65. 673tokens/s，在成都测试中生成速度高达72. 276tokens/s。在对六家主流平台的API版本评测中，火山引擎平台的回复速度均值达到32tokens/s，推理速度均值达到29tokens/s，其在深度推理效率与系统稳定性方面优势显著。
硅基流动：在深圳本地测试中，生成速度为16. 966tokens/s。
阿里云百炼：在深圳本地测试中，生成速度为11. 813tokens/s，且呈现出明显的时段性波动特征。
讯飞开放平台：在六家主流平台API版本评测中，推理速度均值为1. 2tokens/s，总平均速度表现较差。

总结：资源有限DeepSeek-R1-0528-Qwen-8B是你的不二之选
最后推荐一个我正在学习的知识库课程
制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！
搭建完美的写作环境：工具篇（12章）图解机器学习-中文版（72张PNG）ChatGPT、大模型系列研究报告（50个PDF）108页PDF小册子：搭建机器学习开发环境及Python基础116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等

ZejunCao

https://zejuncao.github.io/2025/06/24/1000002703-2648999692-1-1750756011/