智谱AI COO张帆:千亿模型是AIGC的船票
2023-05-17 21:33:33 来源:凯迪网
DoNews5月17日消息,由搜狐主办的2023搜狐科技峰会17日上午在北京开幕。峰会下午,智谱AI COO张帆发表了《大模型的探索和实践》的演讲。他认为,ChatGPT背后是大模型技术,只有做到千亿模型,才是AIGC的船票。
(资料图)
张帆认为,做大模型需要面临算法、算力的挑战,还需要数据经验。所谓名师出高徒,越好的数据,喂出来的模型越好。如果数据有问题,或者数据的价值观有问题,传导到模型后,将很难修复。
同时他表示,大模型有很多应用场景,比如文本生成、信息抽取等。大模型可以进一步让AI普惠,可以更加低成本、快速地把AI应用到各种业务场景中。
以下为张帆演讲全文:
首先大家能够看到今年被震撼的事件,就是ChatGPT用了两个月的时间,全球破亿用户的神话,特别是对比传统的技术,这个速度变得非常快。在ChatGPT背后的技术是什么呢?是一个大模型的技术,我简单罗列了一下大模型发展趋势。
大模型从2017年Transformer这篇论文出现,开始有了这个赛道,18年发布GPT-1开始,横轴是时间线,纵轴是参数量,越来越多的模型和越来越大的参数出现。智谱是比较早就关注到这个方向。
从19年公司成立就在关注大模型,那个时候没有那么火热,一直投入资源在做。一直到21年下半年,我们开始训练我们第一个希望能够普惠的千亿稠密的大模型,大概训练了8、9个月之后,到22年8月份发布第一个版本,并且开源出来,在国际社会上有很多正向的反馈。
到了今年3月份,我们对标ChatGPT,出台了ChatGLM对话式模型反馈非常好。今年3月份,发布了6B小号的大模型更加普惠,甚至在单张游戏卡上就可以跑出来,一个多月的时间,全球有200万的用户,热度非常高的。
从最开始OpenAI有GPT-1、GPT-2,到GPT-3,有代码、网页指令等,到后面的GPT-4。我们去年8也许发布了千亿模型之后,也在跟进每个环节,我们有对应的对标,比如说代码模型、指令微调,让大模型遵循指令,Web及时获取真实信息,Chat更像是跟人聊天,按照这样的节奏,在今年3、4月份,基本上补齐3.5对标的逻辑,我们正在追赶GPT-4的逻辑。
为什么我们叫千亿大模型?它的模型参数从一开始1亿、10亿、百亿、千亿这样的流程,纵向是由机器生成一篇文章,让人判别,有多大概率是机器写的,判别这个事儿,最低线是随机猜,下面是50%的底线。随着参数量从1亿到千亿,每次增长人类越来越发现不了,这篇文章是不是机器写的,等到达千亿的时候,几乎人类已经很难分辨是机器写的还是人类写的,只有做到千亿模型,才是AIGC的船票。
为什么会产生这样的智能?其实很多研究中,很多的任务中,我们可以看到,随着参数量的变化,从百亿到接近千亿,甚至到大几百亿的时候,突然智能有快速的突增,这就是所谓的涌现,包括思考的能力、遵循指令的能力,推理的能力,都在很大规模才开始产生的。但是这个背后的原因虽然有各种各样的猜测和说法,也没有很明确的定论。
但是我们认为这个逻辑还是讲得通的。其实,人类的智能不是随着神经元做的线性增长,我们1岁的时候,有一些基础的智力,谈不上很聪明,到了2岁、3岁,结果到了3岁以后,开始快速具备智能,这些能力也不是线性的。所以我们觉得机器跟人很像,而且人有多少神经元,人类大概有800亿神经元,今天到了千亿参数量,开始接近人类了,至少接近一个数量级的情况下了,这是我们从大模型里看到的变化。
但是做大模型本身也是很难的,这个好比我们盖楼房一样,咱们盖五层楼和盖50层楼,不是一个线性关系,用的基础技术都不一样,5层楼用木头就可以了,50层楼要用到钢筋。
我们总结几个挑战。
第一个挑战是算法挑战。大模型精度非常高,它在非常复杂的计算的时候,我们本身是希望会逐步收敛起来,变成稳定的模型,现实当中,复杂精度训练当中,经常出现由于精度不够,代替梯度爆炸,模型突然训坏了,没有收敛了,而且爆炸了,这种情况非常常见。
另外一个是算力挑战。我们整个千亿130B模型的训练,纯的算力费用超过一个亿,这是去年的,今年所有的算力都翻倍,甚至更高,关键是买不到了。
另外就是数据上的经验。这通常就是大家所理解的名师出高徒,也就是越好的数据,喂出来的模型越好,如果数据有问题,或者数据的质量价值观有问题,直接传导到模型上,后面很难去修复。
下面简单介绍一下我们整体大模型矩阵,智谱有完整的大模型矩阵,我们全面涵盖了文本、代码、图像、视频,基本上对标OpenAI,我们有一个大号的大模型130B,到小号的大模型到6B,从基座模型到对话模型,以及应用端的代码模型,有文生图模型,还有CogVideo文生图视频,整个矩阵比较完整。
更关键的是大模型生产过程中,我们大多数人用的是GPT,而我们用的是GLM,百分之百自主知识产权的算法自研的,这个相当于一方面有把GPT单向模型的能力,只会单向预测出现的概率,到双向的,从文本中间抠掉字,通过两种特殊能力的结合,产生GLM的算法。我们明显超过GPT-3的水平,得益于算法本身从训练当中挖掘更多的知识信息。
讲一下我们具体模型特点,130B模型,1300亿大语言模型在去年8月份发布的,今年持续迭代,这个模型有几个特点,在去年8月份,我们率先把它做了开源,一个双语的模型,尤其在中文的数据集上有领先优势。
另外两个特色,第一个是无损量化,我们是极其少有的,我们能够用int4无损压缩大模型,每个参数用全精度32个位,现在变成4个位还不影响精度,它占据的空间非常小。另外我们全面支持国产信创,我们甚至有一些模型完全在华为的昇腾上面完成训练,我们对于国产的芯片都是有较好的支持。
另外分享一下,我们还有一个CodeGeeX,全球领先的多语言代码,我们在多语言模型上仅次于OpenAI,像Meta的,其他的开放平台,Salesforce都是胜出的,我们包装成中国的插件,也是对标GitHub,中国每天产生400万行的代码为我们的用户。另外在评测当中,有84%的用户都觉得它的效果是比较好的。
我们在过去一段时间,大概沟通有将近100家客户,在这个过程当中,我们不断的产生新的idea,让我们了解大模型如何应用到应用当中。每一次交互的变化,都可能对某一类需求产生洗牌的机会,我们更了解大模型,大模型应用场景非常值得关注。
我们选了几个常见的点,跟大家做简单的分享。
第一个文本生成。没有大模型之前,我们的文本生成基本上都是规则作为基础,都是以规则的拼接方式来做的,基本上很容易发现是人还是机器做的,而且它的影响面和应用场景非常小。
现在模型大文本生成能力非常强,比如广告文案生成,工作当中周报的生成,新闻的生成,标书的生成,招聘的话,职位的生成,旅游的话,游记的生成,它的生成能力放在无数的地方,可能对市场的生态带来新的可能性,或者新的机会。这是一个非常好的场景。
第二个信息抽取。我们以前做信息抽取,基本上都靠NLP的方法,来打标,各种规则等等方法,其实它的泛化能力非常差,生产成本特别高,我们在一些客户需求抽取乐得长江,有一些销售戴着智能工牌,跟客户聊天有一万字的生成,我们提取用户画像,用户需求,甚至做客服的质检,有没有该说的话,不该说的话也说了来打分。
如用传统的NLP的方法,则需要用两三个月的时间不断调整,而在今天大模型时代,它的生产成本,一个人搞半天就可以搞好了,在这种情况下,大模型进一步让AI普惠,在每个地方更加低成本、大家快速的把AI应用到自己的业务场景里面去。
再比如说信息检索,微软的New Bing,带来一种全新的模式。我们原来的搜索引擎,搜索完了之后,把10条结果全部要读一遍,看完要一个小时,大模型可以帮你完全看完,基于你的问题,针对性做回答,甚至还可以进一步做追问,这个体验会带来完全颠覆。
这仅仅是网页,它本身内容密度比较高的。我们今天搜一个视频,往往只能得到封面或者是一个标题,你完全不知道自己查的内容在哪,如果把整个视频看了,半天就没了,大语言能不能把字幕里的内容提取出来,阅读完之后,转成对应的方式给我们,不再受制于展现形式。
比如说我们简历的检索,原来简历检索到这个人的职位和公司,它对于每一场项目经验的描述,我们没办法转化成语义,在今天有可能完全改变垂直领域,用户搜索的习惯和场景,这也是一个非常大的机会。在原来的方式里面做不到的。
比如说对话系统,原来对话系统,基本上以QA为基础,我们写好的问题,不够的话,我们不停扩展扩写,用各种各样的方法,非常生硬,稍微长一点的上下文理解不了,在大模型领域里面,有无数的场景,更好把对话能力植入进去,不断有更丰富的对话,即使QA里面没有,放一个用户手册,可以随便提问题,它了门槛、效果、上下文能力,泛化能力,远远超过之前的传统方法,包括我们在会议场景上做会议纪要,会议纪要直接变成排期,都是有机会。
我们会看到仅仅在过去两个月时间,就见到无数这样的场景,一次一次被我们大模型能力惊艳到,它在各个场景里会出现越来越多的应用,这将是一个值得大家关注的方向。
关键词:
推荐内容
- 智谱AI COO张帆:千亿模型是AIGC的船票
- 沈阳古城13个项目开工建设 环球微头条
- 成功登顶珠峰!邵阳95后姑娘曾乖,好样的!
- 今日关注:潜江开展水上交通安全知识进校园活动
- 2023年福州港海图测绘工作启动 实测水域约9000测
- 全球快看点丨天齐锂业:力争到2027年达到30万吨左
- 湖北考生请注意,自学考试“学历认定书”改版
- 郑州发生多人打斗事件,男子用硬物猛砸女子头部致
- 失联8天的吉林22岁大二学生系家中独子,家属:孩
- 干饭人干饭魂!楚人饮食除了干“饭”,还有“膳馐
- 肺上住进一窝“黄金球”,男子日吐鲜血30余口
- 环球看点!被解救回国女孩自述缅北遭遇:他们强迫
- “32岁还敢开这条件?你能不能清醒一点……”32岁
- 宣讲中央一号文件精神 致力乡村振兴 全球看点
- 前沿资讯!中国-中亚峰会|走,到长安去!
- 数说中国中亚经贸关系:贸易额30年增长100多倍
- 最新资讯:高质量发展调研行 | 从基础研究到应
- 各地出台举措落实落细就业优先政策 青年就业形势
- 各地加强小麦灌浆期管理 确保夏粮丰收
- 一季度营收净利增长承压!上市银行如何应对净息差
- 时讯:河南蒙古族自治县气象台继续发布雷电黄色预
- 6月6日开始收费!闲鱼“抽佣”影响了谁? 环球视点
- 西安与影视平台巨头达成战略合作,下一个“长安十
- CBA总决赛引爆沈城体育经济红利|报资讯
- 海口云洞图书馆外围碎石遍地?馆方:场馆在维护-
- 环球热讯:约基奇打趣穆雷生病:也许他在装病吧?
- 【天天速看料】流感还会有这种“后遗症”吗?出现
- 全球播报:南漳:盈一眸清凉 捻一指馨香
- 天天要闻:郧西马安镇“十堆十乱”整治扮靓乡村“
- 黄陂:奇妙博物游 这样打开
- 社区开了个“解忧杂货铺” 东湖高新区法院庭所
- 疑男子杀害女友后割颈动脉自杀!印尼警方通报巴厘
- 杭州笑果演出全取消?先别急,看看收到官方退票通
- 国家金融监管总局揭牌在即,金融街15号今日晚间举
- 是时候盯紧消费股了
- 【全球新视野】凯普林IPO:负债率一度飙升至82.62
- 徐翔“出手”!这家公司股价立马涨停!关联公司频
- 新鲜竹笋如何保存快递 快递怎么保存新鲜竹笋
- 数字化转型利器,平安银行数字保管箱服务企业资产
- 太突然!大裁员! 新动态