支持100 万 token 上下文的大模型——MiniMax- M1


支持100 万 token 上下文的大模型——MiniMax- M1

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

大家好,我是Ai学习的老章
再看一遍Minimax-M1,本来拿着它与DeepSeek-R1对比使用的时候截了很多图,结果在桌面上不小心清掉了。。。
MiniMax-M1采用混合专家(MoE)架构,并结合了闪电注意力机制,基于之前的MiniMax-Text-01模型开发(为了在Text-01上进行完整的强化学习训练以创建M1,使用了512块H800GPU,历时三周,这相当于0. 53万美元的租赁成本。),总共包含4560亿个参数,每个token激活459亿个参数。M1模型原生支持100万个token的上下文长度,是DeepSeekR1上下文大小的8倍。此外,MiniMax-M1中的闪电注意力机制使测试时计算能够高效扩展——例如,与DeepSeekR1相比,在生成长度为10万个token时,M1仅消耗25%的FLOPs。这些特性使得M1特别适合需要处理长输入和广泛思考的复杂任务。
MiniMaxM180K在人工分析智能指数上得分63。这落后于DeepSeekR10528,但略领先于阿里巴巴的Qwen3235B-A22B和英伟达的Llama3. 1NemotronUltra。MiniMaxM1有两个版本:M140K和M180K,分别提供40K和80K的令牌思考预算。
MiniMaxM180k在全球开源权重模型中排名第二,也是目前唯一支持100万token上下文窗口的开源推理模型。虽然Llama4系列支持100万/1000万上下文,但Meta尚未发布任何Llama4推理模型。
由加州大学伯克利分校创建的LMArena上,Minimax综合分数第16名。
它最擅长的是数学领域,No1,我个人最关注的是coding,排名第10
80K原版尺寸是930GB的样子,比DeepSeek还大发现一个int4量化版,250GB左右
https ://huggingface. co/justinjja/MiniMax-M1-80k-W4A16-INT4/tree/main
Prompt:创建一个迷宫生成器和寻路可视化工具。随机生成一个迷宫,并逐步可视化A*算法解决它的过程。使用画布和动画。使其在视觉上具有吸引力。
Prompt:构建一个打字速度测试网页应用。随机显示一句话,并以WPM(每分钟字数)追踪用户的打字速度。通过颜色和准确率提供实时反馈。
Prompt:创建一个带有基于画布的动画粒子背景的HTML页面。粒子应平滑移动并在靠近时连接。在画布上方添加一个居中的标题文本。
Prompt:在用户点击页面任意位置时实现粒子爆炸效果。使用canvas和JavaScript来制作彩色粒子的渐隐动画效果。
我用相同的提示词复刻官方测试的例子,发现效果不如上面视频中演示的,可能我用的API对应的模型是量化了,在官网测试,效果好点。
但是
无论是官网还是调用API,MiniMax的思考都极其漫长
我感觉
DeepSeek-R1的思考只会把实现的大致思路搞清楚就开始写代码
MiniMax-M1的思考把每一步骤的具体代码都在思考里进行了
目前看,M1唯一的优势就是超长上下文了
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!
搭建完美的写作环境:工具篇(12章)图解机器学习-中文版(72张PNG)ChatGPT、大模型系列研究报告(50个PDF)108页PDF小册子:搭建机器学习开发环境及Python基础116页PDF小册子:机器学习中的概率论、统计学、线性代数史上最全!371张速查表,涵盖AI、ChatGPT、Python、R、深度学习、机器学习等


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录