人工数据6美元,合成数据6美分!但用它训练的AI却可能退化!
2023-08-15 19:46:25 来源:凯迪网
你好,我是王煜全,这里是王煜全要闻评论。
(资料图)
随着AI的迅猛发展,时不时会有人站出来说人类的种种缺陷会制约AI发展,刘慈欣说算力会不足,马斯克说电力会短缺,还有人说大模型让数据中心更费水了,现在又有人开始说人类数据不够了。
最近,《金融时报》的一篇报道称,微软、OpenAI和Cohere等公司正准备用合成数据来训练AI,也就是用AI生成的数据反过来训练AI,这样做有什么好处呢?
首先是弥补训练数据不足。 以前,OpenAI等公司都是从互联网上抓取现成的信息来训练大模型,包括新闻、博客、Twitter推文、Reddit帖子等等。
但是,如今来自互联网的通用数据已经不足以提升大模型的性能了,也就是说,人类创造的数据已经满足不了AI的胃口了。
但是最前沿的AI模型已经能够在写作、编程等领域接近人类水平,还能通过美国律师考试等基准测试,这意味着AI生成的数据质量提高了,开始有利用价值了。
比如,估值20亿美元的大模型初创公司Cohere就在使用合成数据。为了训练高等数学模型,Cohere让AI扮演两种角色,一个是数学导师,另一个是学生,他们两个讨论三角形相关的数学问题,由一个人类员工监督对话过程,纠正其中的错误,最终将AI生成的结果做成合成数据。
这还只是合成数据的好处之一,更重要的是,合成数据比人工数据更便宜。 合成数据服务商Al.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分。
互联网平台已经意识到了数据的价值,纷纷抬高了数据抓取的收费,今年3月,推特宣布推出新的API(应用程序接口)定价策略,企业用户最低价为每月4.2万美元,约合人民币30万元,却只能获得5000万条推文,约等于推特全部推文的0.3%。
这还只是普通数据,一些专业领域的数据,需要科学家、医生、工程师等专业人士或者机构来提供,也就更加昂贵。
看起来,合成数据对AI公司来说确实是一种经济实惠的解决方案,所以大受欢迎,OpenAI的CEO Sam Altman说,未来所有数据都将成为合成数据;Cohere的CEO Aidan Gomez认为,合成数据有可能加速超级智能的发展。
实际上,合成数据并不是新生事物,在生成式AI爆火之前就已经广泛应用于自动驾驶领域。 2016年,Waymo从现实世界收集了300万英里的驾驶数据,之后生成了25亿英里的模拟驾驶数据,来训练自动驾驶系统,这大大提高了自动驾驶的训练效率。
但是,当合成数据应用于生成式AI时,却会出现一些不容忽视的问题。
斯坦福大学和莱斯大学的科学家发现,将AI生成的内容输入AI模型,似乎会导致AI能力退化,他们的结论是,如果没有人类原创的“新鲜的真实数据”,只用AI生成内容进行训练,就会导致输出质量和多样性逐渐下降,他们把这种现象称为Model Autophagy Disorder,翻译过来是模型自噬障碍,简称MAD,也就是“疯狂”的英文单词。
他们起这个名字更多的是一种隐喻,如果只是简单粗暴的用合成数据训练AI,就可能把AI训练成疯子。
但是,这并不意味着合成数据就没有价值了,只是需要技术调优,利用生成式对抗网络等技术,提升数据质量。不过,这还只是一部分的解决方案,未来,人类的真实数据仍有巨大的挖潜空间。
我在科技特训营中提出,人工智能的训练数据将从文本,扩展为图片、视频等2D数据,甚至3D数据,虽然现在的技术能力还不足以把这些数据都利用起来,却是未来的必然趋势。除了这些泛化的数据,一些专业领域的数据也很有利用价值。所以,并不是人类创造的“新鲜”数据见顶,而是AI公司可以免费抓取的互联网数据见顶了。
换句话说,就是数据领域的低垂果实基本被摘完了,平台接口费用的上升,以及专业数据的成本问题,导致AI公司倾向于利用更便宜的合成数据。
对于大模型基础平台公司来说,数据的数量可能比质量重要,因为他们训练的是全知全能的“通用型”AI。
但是,对AI创业者来说,我们一直强调要从应用需求切入,利用专家级数据,不断打磨AI的专业素质与能力,复制顶级专家经验,打造出高端化、个性化、持续化、普惠化的AI服务,所以,最关键不是盲目跟风使用合成数据,而是学会数据掘金,挖掘高质量数据,发挥数据的最大价值。
以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!
另外,2024年CES展在明年的1月9日~12日举行,我们还会组织“CES前哨创新考察”活动,我和万维钢老师、一苒老师带队,为大家带来最前沿的科技产业洞察 ,欢迎感兴趣的朋友扫描下方二维码报名。
明年1月的拉斯维加斯,咱们一起同行!
王煜全要闻评论,我们明天见!
关键词:
推荐内容
- 人工数据6美元,合成数据6美分!但用它训练的AI却
- 打破“千店一面” “后街经济”让城市商圈升级
- “只要人在,堤坝就在!”他们是堤坝上的“排险者
- 星沙去市区时间将缩短!万家丽路快改北延线有新进
- 网络流行语23333是什么意思(2333什么意思网络用语)
- 想读国际课程出国留学,加拿大OSSD的优势有多大?
- 微软确认更新出BUG 影响视频编解码器和ClickOnce应用
- 武则天的这一丑行,被一囚徒赋诗曝光,还入选了《
- 鸡蛋和它是绝配,不愧是“8月第一鲜”,拌饭、拌
- 油脂下方空间或有限:国海良时期货8月15早评
- 亚光科技:公司已于8月11日披露再融资审核问询函
- 即时物流拼速度更要重发展
- 国家统计局:以航空航天为代表的高端制造业较快增
- 国家统计局:当前中国经济不存在通缩,下阶段也不
- 精锐组夺冠热门战队盘点,看看哪支战队能夺得冠军
- 立足绿色发展,倡导固废再生——中南大学实践团创
- 蛋白酶K
- 计量泵、真空泵、螺杆泵在锂电行业应用案例在线分
- 奥海科技:智能驾驶方面产品还没有进行直接布局
- 汇金通:公司未受暴雨影响,生产经营正常
- 佩蒂股份8月15日快速反弹
- 两次沽空,业绩开启下滑的创科实业(00669)还有
- 谷歌成功利用人工智能降低飞机碳排放
- 首个全国生态日 国家林草局联合腾讯科普国家公园
- 舍维德拒绝来山东男篮,是在间接帮助山东,外援选
- 中工国际:8月14日融券卖出33.45万股,融资融券余
- 兔 宝 宝:8月14日融资买入1657.61万元,融资融
- 金智科技筹码持续集中 最新股东户数下降1.33%
- 航天电器:8月14日融资买入241.8万元,融资融券余
- 扫码吃食堂 节约新风来(干部状态新观察)
- 云内动力:8月14日融资买入5514.43万元,融资融券
- 顺鑫农业:8月14日融资买入462.19万元,融资融券
- 为什么断肢再植成功了但术后不成功,断肢再植成功
- 机构:Q2中国超美国 成iPhone出货量最大单一市场
- 南网储能:全资孙公司与天启鸿源签订合作协议
- 湖南女子与三名乡镇干部夜泳溺亡 家属:她不会游
- 神秘蜀韵 百部川扬 | 我们爬上丹棱乌龟顶渡
- 连云港终止向上港集团募资不超15亿元定增
- 特斯拉墨西哥超级工厂正式开建,投资或超50亿美元
- 记者:有了阿扎尔这样的前车之鉴,皇马无意签拉莫