大模型玩游戏,Deepseek-R1-0528 太强了


大模型玩游戏,Deepseek-R1-0528 太强了

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
看到一个很有意思的测试
让不同的大模型玩俄罗斯方块、推箱子、糖果粉碎传奇,对战结果有点出乎预料
Deepseek-R1-0528在多个游戏中智胜o4-mini等强推理模型,在俄罗斯方块上几乎达到SOTA水平,与o3打得难分高下。✨🧠
Deepseek-R1-0528在非视觉类游戏中带来显著提升,包括推箱子和俄罗斯方块等长线游戏中的分数都翻倍了!🎯
Qwen3-235B-A22B作为极具竞争力的开源模型崭露头角,在《糖果粉碎传奇》等空间推理游戏中超越了Gemini-2. 5-flash-preview-0417
🧠Deepseek-R1-0528不仅在俄罗斯方块所向披靡,在需要强大空间推理能力的糖果粉碎传奇中也正逼近SOTA水平。
它以三轮平均491. 7分的成绩(对比o3模型的647. 0分),成为目前最接近顶级水平的开源竞争者。
Qwen3-235B-A22B以稳健的363. 3分紧随其后。
很好奇
这个测试是怎么实现的呢?
其实是基于这个项目:https ://github. com/lmgame-org/GamingAgent
这是一个在标准化交互式游戏环境中启用和测试基于大型语言模型(LLM)和视觉语言模型(VLM)的智能体。
主要功能:
模型评估(基础模式):在一系列多样化的视频游戏中评估当前最先进的模型(LLM/VLM),这种评估在没有特定游戏控制框架(gamingharness)的“单一模型VLM设置”下进行。
智能体部署与评估(定制化流程):使用项目定制的GamingAgent工作流程(即游戏控制框架)来部署和评估模型,目的是提升模型在游戏中的表现。
PC端游戏智能体:用于部署可以在个人电脑和笔记本上运行的计算机使用智能体(Computer-UseAgents,CUAs)。
项目还推出了LmgameBench,这是一个用于游戏智能体的基准测试平台,可以查看各个模型在游戏任务上的表现。
该项目支持多种主流AI模型的API,包括:
OpenAI(gpt-4o,gpt-4o-mini等)
Anthropic(claude-3. 5-sonnet,claude-4-opus等)
Gemini(gemini-2. 5-pro,gemini-1. 5-pro等)
xAI(grok-3-mini)
Deepseek(reasonerR1,chatV3)
Qwen(Qwen3)
安装方法:
在credentials. sh中设置APIkeys:
省事点可以在线体验(需要网络畅通)
在线体验:https ://huggingface. co/spaces/lmgame/lmgame_bench
可以玩的游戏有推箱子、2048、俄罗斯方块、超级马里奥等
deepseek-r1在糖果粉碎传奇上表现不错,在2048和俄罗斯方块上表现中等,在推箱子和逆转裁判上表现较弱
总体看,最强的还是o3/o4mini、Gemini2. 5Pro、Claude3. 7
更多细节,大家可以看下这篇论文:https ://arxiv. org/pdf/2505. 15146
这篇论文我大致看了一下,其中有一些提示词蛮有意思的
比如:如何用纯文字指导大模型玩游戏?
比如:推箱子
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录