大模型再现黑马!英伟达开源Llama-Nemotron系列模型,效果优于DeepSeek-R1。


大模型再现黑马!英伟达开源Llama-Nemotron系列模型,效果优于DeepSeek-R1。

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

近日,英伟达推出了Llama-Nemotron系列模型(基于MetaAI的Llama模型构建)——一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。
该系列包括三个模型规模:Nano(8B)、Super(49B)与Ultra(253B),另有独立变体UltraLong(8B,支持超长上下文)。这些模型不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在HuggingFace上公开,遵循NVIDIAOpenModelLicense和Llama社区许可,可商业使用。
论文:https ://arxiv. org/pdf/2505. 00949
代码:https ://github. com/NVIDIA/NeMo
数据集:https ://huggingface. co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset
模型:https ://huggingface. co/models?library=nemo&sort=downloads&search=nvidia
NVIDIANeMo框架是一个可扩展的云原生生成式AI框架,专为从事大型语言模型(LLM)、多模态模型(MM)、自动语音识别(ASR)、文本转语音(TTS)和计算机视觉(CV)领域的研究人员和PyTorch开发者打造。它旨在帮助您利用现有代码和预训练的模型检查点,高效地创建、定制和部署新的生成式AI模型。
NVIDIANeMo2. 0与其前身NeMo1.0相比引入了几项重大改进,增强了灵活性、性能和可扩展性。
基于Python的配置-NeMo2. 0从YAML文件转换为基于Python的配置,从而提供更高的灵活性和控制力。这种转变使得以编程方式扩展和自定义配置变得更加容易。
模块化抽象——通过采用PyTorchLightning的模块化抽象,NeMo2. 0简化了适配和实验。这种模块化方法使开发人员能够更轻松地修改和实验其模型的不同组件。
可扩展性——NeMo2. 0使用NeMo-Run在数千个GPU上无缝扩展大规模实验,NeMo-Run是一种强大的工具,旨在简化跨计算环境的机器学习实验的配置、执行和管理。
总的来说,这些增强功能使NeMo2. 0成为一个强大、可扩展且用户友好的AI模型开发框架。NeMo2. 0目前由LLM(大型语言模型)和VLM(视觉语言模型)集合支持。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、StableDiffusion、Sora等相关技术,欢迎一起交流学习💗~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录