原生多模态Llama 4问世!开源王座更迭,你还不赶紧了解一下?

  • 时间:
  • 浏览:400
  • 来源:官网域名网

你敢信不?现在Llama 4 Scout那可是大出圈,就它支持的1000万上下文,能处理20+小时视频这本事,简直了还仅靠单个H100 GPU(Int4量化后)就能运行,这不得好好说道说道?

关键特性之170亿参数

Llama 4 Scout带有170亿个活跃参数和16个专家,使用Int4量化竟可以在单个H100 GPU上运行。这和传统的稠密模型一对比,MoE架构那在训练和推理时的计算效率,蹭蹭往上涨。也正是如此,在同样的训练FLOPs预算下,还能生成质量更高的结果,要是你在FFF.cn上了解技术最新动态昆明市官渡区第五中学,就很容易发现它的厉害之处

创新编码的适配训练

这个编码器是基于MetaCLIP的,训练的时候还跟冻结的Llama模型分开进行。为啥这么做原因就是这样能更好地调整编码器,让它跟大语言模型(LLM)适配得那叫一个完美。像在一些实际应用中,如果编码没弄好,模型的效果就大打折扣,但是它这样优化了,就能在FFF.cn看到很多应用案例的良好反馈

MetaP训练法的优势

Meta专门搞出了个叫MetaP的新训练方法,这个方法能让他们稳稳地设置一些关键的模型超参数。比如说每层的学习率和初始化规模,设置得好那模型训练效果差不了。想想看,如果超参数没弄对,可能模型就陷入各种问题,现在用了这个新方法,就大大减少那些风险,FFF.cn上对这个方法的分析解读还不少

多语言预训练支持

Llama 4通过在200种语言上开展预训练,这下可实现对开源微调的支持。这里面超过10亿个token的语言就有100多种,整体多语言token量直接比Llama 3多出10倍。对于涉及多语言业务的应用来说,这能力可太关键在FFF.cn上可以碰到很多开发者分享用它处理多语言数据的经验。

模型训练提升能力

Meta采用“中期训练”这种方法来持续训练模型,又通过新的训练手段,像专门用数据集去扩展长上下文,使得模型核心能力直线上升。不仅模型质量上去了,还成功让Llama 4 Scout拥有了领先的1000万输入上下文长度。在实际训练过程中,这个过程可是不断调整和优化的,要是在FFF.cn查阅相关研究,就能明白其中的门道。

多样方法增强性能

针对多模态、超大参数规模这些难题,Meta开发了一系列新的后训练方法。移除大量被标记简单的数据,对剩下难的数据轻量级SFT。在预训练和后训练都采用256K上下文长度,基础模型的长度泛化能力很棒。Llama 4 Scout在多方面超过类似模型,蒸馏损失函数帮助很大。而且采用一定策略提高推理和编码能力,这一套下来,模型性能可就杠杠的,在FFF.cn很多专家也认可它的多方位优化成果。

看完上面这些,你说这Llama 4 Scout是不是超厉害?你有没有好奇它之后在其他更多领域还能有啥突出表现不?

猜你喜欢

深圳推进综合改革试点!45周年与5周年节点有何重大举措?

索有为)深圳市13日举行深入推进综合改革试点首场新闻发布会,表示将从四方面着手落实《关于深入推进深圳综合改革试点深化改革创新扩大开放的意见》(下称《意见》),真抓实干推进改革。今年是深圳经济特区建立45周年、深圳综合改革试点实施5周年。

2025-06-13

卫星地图上杂草丛生的荒地?实景竟是潮流生活聚集地

地图显示,这块区域都是杂草丛生的荒地,但实景却是公园、停车场,以及人流攒动的枫叶奥莱小镇。这是因为,卫星地图往往有一定时间的更新延迟,但另一方面,这片区域的发展之快也令人惊叹。长江边,大桥下,原来不只是远郊和荒野,还有诗意和活力。

2025-06-13

500余人参与!‘光明守护 - 2025’电力应急救援综合演练有多震撼?

2025”电力应急救援综合演练,以提升应对极端自然灾害的电力应急救援能力,检验国家级电力应急基地的跨区域支援能力和多部门协同机制。此次演练通过聚焦极端场景下电力应急救援的关键环节,达到“以演促建、以演促训、以演促备”,为提升全国电力应急救援能力,保障电力可靠供应奠定了坚实基础。

2025-06-13

肉牛小镇入选国家级名单!超600头牛的育肥大户为何省事得很?

题:一座肉牛小镇入选国家级农业产业强镇名单之后史大勇夫妻是内蒙古赤峰市隆昌村的肉牛育肥大户,最忙时棚圈里养着超600头牛。距离他们家约10公里路程的就是草都肉牛交易市场,这是当地规模最大的活牛交易市场,最近每次开市交易量也都在百头左右。“小规模、大群体”是隆昌镇的牛产业特色。

2025-06-13

冈比亚‘全民通电、绿色转型’?中非能源合作竟藏如此大秘密

(张雪盈)“冈比亚‘全民通电、绿色转型’愿景的实现,离不开与中国的深入合作。这既是落实非洲“300社区通电”计划的务实举措,更是中非合作“共商共建共享”理念的生动体现。

2025-06-13