首页news 正文
目录

苹果推出 300 亿参数多模态 AI 大模型 MM1.5,可识别 UI 界面推理自然语言

news2024-10-25 01:52417220
据悉,苹果公司最新发布了多模态大模型 MM 1.5 版本,该版本基于前代 MM1 的架构,持续坚持数据驱动训练原则,并着重研究不同类型数据在训练周期中混合对模型性能的影响。目前,相关模型文档已在 Hugging Face 上发布,感兴趣的读者可查阅详细信息(点击此处查看)。本次更新的 MM 模型提供了 10 亿至 300 亿个参数规模,同时具备图像识别和自然...

据悉,苹果公司最新发布了多模态大模型 MM 1.5 版本,该版本基于前代 MM1 的架构,持续坚持数据驱动训练原则,并着重研究不同类型数据在训练周期中混合对模型性能的影响。

目前,相关模型文档已在 Hugging Face 上发布,感兴趣的读者可查阅详细信息(点击此处查看)。

本次更新的 MM 模型提供了 10 亿至 300 亿个参数规模,同时具备图像识别和自然语言推理能力。苹果公司团队在新版本中改进了数据混合策略,显著提升了模型在多文本图像理解、视觉引用与定位(Grounding)以及多图像推理方面的表现。

根据相关论文介绍,在 MM1.5 的持续预训练阶段,团队引入了高质量的 OCR 数据和合成图像描述,从而显著提升了模型对包含大量文本的图像的理解能力。

此外,在监督式微调阶段,研究人员分析了不同数据类型对模型表现的影响,优化了视觉指令微调数据的混合方式,从而提高了模型的效率。团队表示,即便是小规模的模型(10、30 亿参数版本),也能达到出色的表现。

值得一提的是,苹果公司也推出了专为视频理解设计的 MM1.5-Video 模型以及专注于移动设备用户界面(UI)理解的 MM1.5-UI 模型。未来,MM1.5-UI 模型有望成为 iOS 幕后的“苹果牌”AI,拥有处理各种视觉任务、总结屏幕功能,或通过与用户对话互动的能力。

虽然 MM1.5 模型在多项基准测试中表现出色,苹果团队仍计划通过进一步融合文本、图像和用户交互数据,设计更为复杂的架构,以提升模型对移动设备 UI 的理解,并强化“苹果牌”AI的实力。

广告声明:文中包含的外部链接用于传递更多信息,节省网友的筛选时间,内容仅供参考。

标签苹果

扫描二维码推送至手机访问。

本文转载自互联网,如有侵权,联系删除。

本文链接:https://xiezilouchuzuwang.cn/news/3772.html

您暂未设置收款码

请在主题配置——文章设置里上传

扫描二维码手机访问

文章目录