苹果推出 300 亿参数多模态 AI 大模型 MM1.5，可识别 UI 界面推理自然语言

news2024-10-25 01:52417670

据悉，苹果公司最新发布了多模态大模型 MM 1.5 版本，该版本基于前代 MM1 的架构，持续坚持数据驱动训练原则，并着重研究不同类型数据在训练周期中混合对模型性能的影响。目前，相关模型文档已在 Hugging Face 上发布，感兴趣的读者可查阅详细信息（点击此处查看）。本次更新的 MM 模型提供了 10 亿至 300 亿个参数规模，同时具备图像识别和自然...

据悉，苹果公司最新发布了多模态大模型 MM 1.5 版本，该版本基于前代 MM1 的架构，持续坚持数据驱动训练原则，并着重研究不同类型数据在训练周期中混合对模型性能的影响。

目前，相关模型文档已在 Hugging Face 上发布，感兴趣的读者可查阅详细信息（点击此处查看）。

本次更新的 MM 模型提供了 10 亿至 300 亿个参数规模，同时具备图像识别和自然语言推理能力。苹果公司团队在新版本中改进了数据混合策略，显著提升了模型在多文本图像理解、视觉引用与定位（Grounding）以及多图像推理方面的表现。

根据相关论文介绍，在 MM1.5 的持续预训练阶段，团队引入了高质量的 OCR 数据和合成图像描述，从而显著提升了模型对包含大量文本的图像的理解能力。

此外，在监督式微调阶段，研究人员分析了不同数据类型对模型表现的影响，优化了视觉指令微调数据的混合方式，从而提高了模型的效率。团队表示，即便是小规模的模型（10、30 亿参数版本），也能达到出色的表现。

值得一提的是，苹果公司也推出了专为视频理解设计的 MM1.5-Video 模型以及专注于移动设备用户界面（UI）理解的 MM1.5-UI 模型。未来，MM1.5-UI 模型有望成为 iOS 幕后的“苹果牌”AI，拥有处理各种视觉任务、总结屏幕功能，或通过与用户对话互动的能力。

虽然 MM1.5 模型在多项基准测试中表现出色，苹果团队仍计划通过进一步融合文本、图像和用户交互数据，设计更为复杂的架构，以提升模型对移动设备 UI 的理解，并强化“苹果牌”AI的实力。

广告声明：文中包含的外部链接用于传递更多信息，节省网友的筛选时间，内容仅供参考。

标签苹果

扫描二维码推送至手机访问。

本文转载自互联网，如有侵权，联系删除。

本文链接：https://xiezilouchuzuwang.cn/news/3772.html