Ailiaili
▼分类导航▲

因缺乏数据训练AI,为应对数据耗尽,以下是科技公司最疯狂的解决方案

Ailiaili590396个月前
公众号:Ailiaili | AI软件网
Ai项目交流群,Ai账号交易充值,Ai软件分享,Ai网站导航,Ai工具大全等
复制公众号

AI的饥饿游戏:数据枯竭的危机

人工智能如同一条贪婪的巨兽,对数据的渴望永无止境。正所谓,数据是AI的食粮,而这食粮越丰富,AI的本领就越大。但这场AI军备竞赛正面临一个前所未有的危机:优质数据的枯竭。

随着时间的推移,从Meta到谷歌,再到OpenAI,这些科技巨头日渐焦虑地发现,他们曾经信赖的那海量在线数据,可能在不远的2026年就将告罄。

寻找新的数据源,数据的追逐

一场寻找数据新源头的创意之旅便悄然开启。据《泰晤士报》披露,谷歌不惜变相扩张其隐私政策,将目光投向了普通消费者使用的谷歌文档、谷歌表格、谷歌幻灯片以及谷歌地图上的餐厅评论的免费版本等产品中的数据;Meta的高管们则几乎将收购西蒙与舒斯特出版社作为了他们的秘密武器,直接买断新书版权的大胆策略。

合成数据的崛起
在这样的背景下,合成数据,或者说是AI自我生成的数据,成为了OpenAI等公司的新策略。他们认为,只要AI的生成能力足够强大,这些由AI自己创造出来的数据就能成为解决数据饥饿问题的关键。
在去年的一场科技盛会上,OpenAI的掌门人Sam Altman指出,只要人工智能能跨越合成数据的门槛,通过自我生成的数据来学习,未来将充满无限可能。这句话如同一颗种子,在技术界悄悄发芽。
但是,走上这条路并非没有障碍。利用合成数据来训练AI,就像是在双刃剑上行走,有可能无意中加剧了机器的偏见与局限。为了应对这一挑战,OpenAI不仅仅是在开发出新技术,他们更是在进行一项前所未有的尝试:让一个AI系统负责生成数据,而另一个AI则负责审查这些数据。通过这种内部的自我监督,他们希望能够精炼出更优质的数据,避免偏差的发生。

Whisper与GPT-4:向多样化数据进发
在这一创新道路上,OpenAI还带来了Whisper,这是一款能够将YouTube视频和播客中的语音转换成文本的工具。ChatGPT-4,作为OpenAI的最强的力作,正是在Whisper转录的百万小时视频数据的基础上受到训练,从而大大提升了其理解和生成语言的能力。
图片数据库与媒体合作:新的数据维度
数据来源的多样化是OpenAI追求的另一个重点。Greg BrockmanWhisper的主创之一,透露他们的系统正依赖于广泛的数据源。与此同时,曾经风光无限的图片托管网站Photobucket,现在也正考虑将其庞大的图片数据库授权给科技公司,为AI的训练提供新的素材。
不仅如此,OpenAI还与《商业内幕》的母公司Axel Springer达成了一项全球性的协议,根据Axel Springer旗下媒体的报道来训练其AI模型。这一合作模式的开创,意味着未来AI的学习将更加深入、广泛。


本文转载自互联网,若有侵权,请联系我们。本站尊重原创,转载文章仅为传递更多信息之目的。

本文链接:https://ailiaili.cc/post/162.html

【公众号 | 微信群】
\"二维码\"

公众号:AI软件网

【 Ai推荐榜 】
【 Ai常用工具 】
【 Ai最新收录 】
【 Ai知识 】
【 Ai资讯 】