开源版 OpenAI 再出神作：小模型吊打 Meta Llama 3，Ministral 系列开启边缘 AI 革命

news2024-10-24 02:21967920

法国 AI 初创公司 Mistral 在 Mistral 7B 诞生一周年之际再次发布了两个轻量级模型—Ministral 3B 和 Ministral 8B，性能超越了 Llama 3 8B。在 Mistral 7B 仅发布一周年之际，其轻量级模型「les Ministraux」就取得了胜利，被称为世界上最佳的边缘模型。Ministral 3B 和 Min...

法国 AI 初创公司 Mistral 在 Mistral 7B 诞生一周年之际再次发布了两个轻量级模型—Ministral 3B 和 Ministral 8B，性能超越了 Llama 3 8B。

在 Mistral 7B 仅发布一周年之际，其轻量级模型「les Ministraux」就取得了胜利，被称为世界上最佳的边缘模型。

Ministral 3B 和 Ministral 8B 是专为边缘设备设计的轻量级模型，已正式加入 Mistral 的产品线。

尽管参数仅为 30 亿个，在指令跟踪基准上，Ministral 3B 和 Ministral 8B 完全超越了 Llama 3 8B 和 Mistral 7B。两款模型在大模型竞技场测试中均取得了与 Gemma 2、Llama 3.1 开源模型相媲美的成绩。

最佳边缘模型评选

Ministral 3B 和 Ministral 8B 支持高达 128k 的上下文（目前在 vLLM 上为 32k）。

在知识、常识、推理、函数调用和效率等方面，它们为低于 10B 参数模型设立了全新标准。

Ministral 8B 配备了滑动窗口注意机制（sliding-window attention），以实现更快速和内存高效的推理。

这两款模型可被微调以适应各种用例，无论是管理复杂的 AI 智能体工作流，还是创建专门的任务助手。

击败 Mistral 7B，超越开源模型

研究人员在多项基准测试中评估了 Les Minimrau 的性能，包括知识与常识、代码、数学和多语言等方面。

Minstral 3B 在与 Gema 2 2B、Llama 3.2 3B 等模型相比取得了最佳成绩。

预训练模型

在代码能力方面，Minstral 8B 稍逊于 Llama 3.1 8B 和 Mistral 7B，但在其他方面仍是性能最出色的模型。

以下柱状图直观展示了 Minstral 8B 在各项评测中的领先地位。

指令模型

通过微调，在大模型竞技场中，Minstral 3B 取得了最佳成绩。在代码、数学和函数调用方面，两款新模型性能大幅超越其他模型。

以下图展示了指令微调后的 Minstral 3B 较 Mistral 7B 的改进。

以下是指令微调后的 Minstral 8B 模型与其他模型性能的直观对比图。

可用于边缘计算，价格仅需 0.1 美金

如今，小型模型在实际应用中更具实际意义，越来越多用户希望对关键应用程序进行本地优先推理，如设备上的翻译、无需联网的智能助手和自动机器人等。

Les Minimraux 提供了高计算效率和低延迟的解决方案来满足这些需求。

与 Mistral Large 等大型模型结合使用时，les Ministraux 还可作为多步智能体工作流中高效函数调用的中介。

通过微调，它们可根据用户意图、跨多个上下文处理输入解析、任务路由和调用 API，实现极低延迟和成本。

价格信息

官方公布的价格显示，Minstral 8B 输入输出价格为 1 百万 token，相当于 0.1 美元。Minstral 3B 则为 1 百万 token，相当于 0.04 美元。

Mistral 转向封闭模式

Mistral 是一家位于法国巴黎的 AI 初创公司，自成立以来一直致力于开源模型，获得了 AI 社区的认可。

公司最近推出了 Mistral Large 2，一个 GPT-4 级别的模型，以及专家混合模型 Mixtral 8x22B，包括编码模型 Codestral 和数学推理模型。

然而，Mistral 最近却被指转向封闭模式。公司宣布将推出收费模式，引发了巨大争议。

一些网友发现，Mistral已从官网中移除了致力于开源的承诺，公司模式的变化令人担忧。

消息称微软将投资并收购 Mistral 的部分股份，这也意味着该公司的模型将在 Azure AI 上托管。

在持续坚持开源和商业策略间，Mistral 面临巨大挑战，但为了打造优秀的模型，公司或许需要做出一些改变。

初创公司要想持续发展，开源策略的选择仍是重要的。Mistral 或将借鉴其他公司经验，不断探索商业模式的完善。

只有确保模型的持续优秀，才能赢得更多用户和市场的信任。

参考资料：

https://x.com/dchaplot/status/1846575384718172448
https://x.com/GuillaumeLample/status/1846566817650679966

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

扫描二维码推送至手机访问。

本文转载自互联网，如有侵权，联系删除。

本文链接：https://xiezilouchuzuwang.cn/news/3322.html

上一篇：SpaceX 为星舰第六次试飞做准备，超重型助推器运抵发射台

下一篇：全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点

您暂未设置收款码

请在主题配置——文章设置里上传

扫描二维码手机访问

文章目录

开源版 OpenAI 再出神作：小模型吊打 Meta Llama 3，Ministral 系列开启边缘 AI 革命

最佳边缘模型评选

击败 Mistral 7B，超越开源模型

预训练模型

指令模型

可用于边缘计算，价格仅需 0.1 美金

价格信息

Mistral 转向封闭模式

“筑底：增长的象限” 2025观点年度论坛广州圆满闭幕

陈文博：我们必须向前迈进 | 恒隆地产致股东函（2024年报）

出租率与租约到期招商租赁REIT首份年报透露了什么

绿城67亿双城拿地国贸、建发、中海齐聚厦门首拍

《哪吒2》爆火后光线传媒12.2亿收购北京奥林NEO办公楼

仲量联行：2月香港中环甲厦空置率上升

最近发表

标签列表

您暂未设置收款码

开源版 OpenAI 再出神作：小模型吊打 Meta Llama 3，Ministral 系列开启边缘 AI 革命

最佳边缘模型评选

击败 Mistral 7B，超越开源模型

预训练模型

指令模型

可用于边缘计算，价格仅需 0.1 美金

价格信息

Mistral 转向封闭模式

“筑底：增长的象限” 2025观点年度论坛广州圆满闭幕

陈文博：我们必须向前迈进 | 恒隆地产致股东函（2024年报）

出租率与租约到期 招商租赁REIT首份年报透露了什么

绿城67亿双城拿地 国贸、建发、中海齐聚厦门首拍

《哪吒2》爆火后 光线传媒12.2亿收购北京奥林NEO办公楼

仲量联行：2月香港中环甲厦空置率上升

最近发表

标签列表

您暂未设置收款码

出租率与租约到期招商租赁REIT首份年报透露了什么

绿城67亿双城拿地国贸、建发、中海齐聚厦门首拍

《哪吒2》爆火后光线传媒12.2亿收购北京奥林NEO办公楼