苹果终于推出AI模型MM1!该模型是文本和图像生成的多模态模型

Ailiaili595261年前

公众号：Ailiaili | AI软件网
Ai项目交流群，Ai账号交易充值，Ai软件分享,Ai网站导航,Ai工具大全等
复制公众号

苹果公司终于推出了期待已久的多模态AI模型MM1，苹果公司扬帆起航，携带着MM1—一款集文本与图像生成于一身的多模态AI神器，正式加入了人工智能的领域。在经历了无数猜想与期待后，苹果研究团队精心打造了MM1这个家族，它不仅能诵读文字，还能绘制画面，无所不能。根据上周发布的一份研究报告，这是一个跨越视觉与文本界限的大型多模态语言模型家族。

多样化数据对AI性能的影响

苹果的研究实验室深入挖掘，通过精心设计的实验，解剖了建造高效多模态语言模型的秘密。他们发现，在这个视觉与文字交织的世界中，图像分辨率和视觉编码器的能力对模型性能影响最大，而具体如何结合视觉和文本数据的方法影响较小。

在这场技术的探索中，他们还揭示了多样化数据的重要性：混搭的图文文档助力少量样本学习，有标注的图片提升了模型的零样本能力，纯文本数据则巩固了语言理解的基石。

MM1家族：从亿级参数到前沿性能的跨越

MM1的大规模多模态预训练赋予了它超凡脱俗的能力，从数数到执行OCR，从日常物品的常识到基础数学运算，无所不能。

苹果团队基于这些发现，创造了从三亿到三十亿参数范围内的MM1模型家族，涵盖了密集型与混合专家型变体。在扩展训练的助力下，MM1在多个多模态基准测试中，展示了前所未有的能力。经过更深层次的调优与专门设计的一百万示例数据集的训练后，MM1在12个多模态任务上展现了强大的竞争力，从视觉问题回答到图像描述无所不能。特别值得一提的是，MM1展现了在多图像推理与少样本学习方面的关键能力，这都得益于团队在多模态预训练方面的深入研究。

研究人员希望他们的见解能够得到加速进展，据有关报道，苹果公司正在计划将谷歌的Gemini 生成人工智能模型集成到即将推出的 iPhone 软件中。

本文转载自互联网，若有侵权，请联系我们。本站尊重原创，转载文章仅为传递更多信息之目的。

本文链接：https://ailiaili.cc/post/95.html