Ailiaili
▼分类导航▲

苹果终于推出AI模型MM1!该模型是文本和图像生成的多模态模型

Ailiaili594227个月前
公众号:Ailiaili | AI软件网
Ai项目交流群,Ai账号交易充值,Ai软件分享,Ai网站导航,Ai工具大全等
复制公众号

苹果公司终于推出了期待已久的多模态AI模型MM1,苹果公司扬帆起航,携带着MM1—一款集文本与图像生成于一身的多模态AI神器,正式加入了人工智能的领域。在经历了无数猜想与期待后,苹果研究团队精心打造了MM1这个家族,它不仅能诵读文字,还能绘制画面,无所不能。根据上周发布的一份研究报告,这是一个跨越视觉与文本界限的大型多模态语言模型家族。

多样化数据对AI性能的影响

苹果的研究实验室深入挖掘,通过精心设计的实验,解剖了建造高效多模态语言模型的秘密。他们发现,在这个视觉与文字交织的世界中,图像分辨率和视觉编码器的能力对模型性能影响最大,而具体如何结合视觉和文本数据的方法影响较小。

在这场技术的探索中,他们还揭示了多样化数据的重要性:混搭的图文文档助力少量样本学习,有标注的图片提升了模型的零样本能力,纯文本数据则巩固了语言理解的基石。


MM1家族:从亿级参数到前沿性能的跨越

MM1的大规模多模态预训练赋予了它超凡脱俗的能力,从数数到执行OCR,从日常物品的常识到基础数学运算,无所不能。

苹果团队基于这些发现,创造了从三亿到三十亿参数范围内的MM1模型家族,涵盖了密集型与混合专家型变体。在扩展训练的助力下,MM1在多个多模态基准测试中,展示了前所未有的能力。经过更深层次的调优与专门设计的一百万示例数据集的训练后,MM1在12个多模态任务上展现了强大的竞争力,从视觉问题回答到图像描述无所不能。特别值得一提的是,MM1展现了在多图像推理与少样本学习方面的关键能力,这都得益于团队在多模态预训练方面的深入研究。

研究人员希望他们的见解能够得到加速进展,据有关报道,苹果公司正在计划将谷歌的Gemini 生成人工智能模型集成到即将推出的 iPhone 软件中。

本文转载自互联网,若有侵权,请联系我们。本站尊重原创,转载文章仅为传递更多信息之目的。

本文链接:https://ailiaili.cc/post/95.html

【公众号 | 微信群】
\"二维码\"

公众号:AI软件网

【 Ai推荐榜 】
【 Ai常用工具 】
【 Ai最新收录 】
【 Ai知识 】
【 Ai资讯 】