加载中...
您的位置:首页 >热点 > 正文

智谱AI COO张帆:千亿模型是AIGC的船票

2023-05-17 21:33:33 来源:凯迪网

DoNews5月17日消息,由搜狐主办的2023搜狐科技峰会17日上午在北京开幕。峰会下午,智谱AI COO张帆发表了《大模型的探索和实践》的演讲。他认为,ChatGPT背后是大模型技术,只有做到千亿模型,才是AIGC的船票。


(资料图)

张帆认为,做大模型需要面临算法、算力的挑战,还需要数据经验。所谓名师出高徒,越好的数据,喂出来的模型越好。如果数据有问题,或者数据的价值观有问题,传导到模型后,将很难修复。

同时他表示,大模型有很多应用场景,比如文本生成、信息抽取等。大模型可以进一步让AI普惠,可以更加低成本、快速地把AI应用到各种业务场景中。

以下为张帆演讲全文:

首先大家能够看到今年被震撼的事件,就是ChatGPT用了两个月的时间,全球破亿用户的神话,特别是对比传统的技术,这个速度变得非常快。在ChatGPT背后的技术是什么呢?是一个大模型的技术,我简单罗列了一下大模型发展趋势。

大模型从2017年Transformer这篇论文出现,开始有了这个赛道,18年发布GPT-1开始,横轴是时间线,纵轴是参数量,越来越多的模型和越来越大的参数出现。智谱是比较早就关注到这个方向。

从19年公司成立就在关注大模型,那个时候没有那么火热,一直投入资源在做。一直到21年下半年,我们开始训练我们第一个希望能够普惠的千亿稠密的大模型,大概训练了8、9个月之后,到22年8月份发布第一个版本,并且开源出来,在国际社会上有很多正向的反馈。

到了今年3月份,我们对标ChatGPT,出台了ChatGLM对话式模型反馈非常好。今年3月份,发布了6B小号的大模型更加普惠,甚至在单张游戏卡上就可以跑出来,一个多月的时间,全球有200万的用户,热度非常高的。

从最开始OpenAI有GPT-1、GPT-2,到GPT-3,有代码、网页指令等,到后面的GPT-4。我们去年8也许发布了千亿模型之后,也在跟进每个环节,我们有对应的对标,比如说代码模型、指令微调,让大模型遵循指令,Web及时获取真实信息,Chat更像是跟人聊天,按照这样的节奏,在今年3、4月份,基本上补齐3.5对标的逻辑,我们正在追赶GPT-4的逻辑。

为什么我们叫千亿大模型?它的模型参数从一开始1亿、10亿、百亿、千亿这样的流程,纵向是由机器生成一篇文章,让人判别,有多大概率是机器写的,判别这个事儿,最低线是随机猜,下面是50%的底线。随着参数量从1亿到千亿,每次增长人类越来越发现不了,这篇文章是不是机器写的,等到达千亿的时候,几乎人类已经很难分辨是机器写的还是人类写的,只有做到千亿模型,才是AIGC的船票。

为什么会产生这样的智能?其实很多研究中,很多的任务中,我们可以看到,随着参数量的变化,从百亿到接近千亿,甚至到大几百亿的时候,突然智能有快速的突增,这就是所谓的涌现,包括思考的能力、遵循指令的能力,推理的能力,都在很大规模才开始产生的。但是这个背后的原因虽然有各种各样的猜测和说法,也没有很明确的定论。

但是我们认为这个逻辑还是讲得通的。其实,人类的智能不是随着神经元做的线性增长,我们1岁的时候,有一些基础的智力,谈不上很聪明,到了2岁、3岁,结果到了3岁以后,开始快速具备智能,这些能力也不是线性的。所以我们觉得机器跟人很像,而且人有多少神经元,人类大概有800亿神经元,今天到了千亿参数量,开始接近人类了,至少接近一个数量级的情况下了,这是我们从大模型里看到的变化。

但是做大模型本身也是很难的,这个好比我们盖楼房一样,咱们盖五层楼和盖50层楼,不是一个线性关系,用的基础技术都不一样,5层楼用木头就可以了,50层楼要用到钢筋。

我们总结几个挑战。

第一个挑战是算法挑战。大模型精度非常高,它在非常复杂的计算的时候,我们本身是希望会逐步收敛起来,变成稳定的模型,现实当中,复杂精度训练当中,经常出现由于精度不够,代替梯度爆炸,模型突然训坏了,没有收敛了,而且爆炸了,这种情况非常常见。

另外一个是算力挑战。我们整个千亿130B模型的训练,纯的算力费用超过一个亿,这是去年的,今年所有的算力都翻倍,甚至更高,关键是买不到了。

另外就是数据上的经验。这通常就是大家所理解的名师出高徒,也就是越好的数据,喂出来的模型越好,如果数据有问题,或者数据的质量价值观有问题,直接传导到模型上,后面很难去修复。

下面简单介绍一下我们整体大模型矩阵,智谱有完整的大模型矩阵,我们全面涵盖了文本、代码、图像、视频,基本上对标OpenAI,我们有一个大号的大模型130B,到小号的大模型到6B,从基座模型到对话模型,以及应用端的代码模型,有文生图模型,还有CogVideo文生图视频,整个矩阵比较完整。

更关键的是大模型生产过程中,我们大多数人用的是GPT,而我们用的是GLM,百分之百自主知识产权的算法自研的,这个相当于一方面有把GPT单向模型的能力,只会单向预测出现的概率,到双向的,从文本中间抠掉字,通过两种特殊能力的结合,产生GLM的算法。我们明显超过GPT-3的水平,得益于算法本身从训练当中挖掘更多的知识信息。

讲一下我们具体模型特点,130B模型,1300亿大语言模型在去年8月份发布的,今年持续迭代,这个模型有几个特点,在去年8月份,我们率先把它做了开源,一个双语的模型,尤其在中文的数据集上有领先优势。

另外两个特色,第一个是无损量化,我们是极其少有的,我们能够用int4无损压缩大模型,每个参数用全精度32个位,现在变成4个位还不影响精度,它占据的空间非常小。另外我们全面支持国产信创,我们甚至有一些模型完全在华为的昇腾上面完成训练,我们对于国产的芯片都是有较好的支持。

另外分享一下,我们还有一个CodeGeeX,全球领先的多语言代码,我们在多语言模型上仅次于OpenAI,像Meta的,其他的开放平台,Salesforce都是胜出的,我们包装成中国的插件,也是对标GitHub,中国每天产生400万行的代码为我们的用户。另外在评测当中,有84%的用户都觉得它的效果是比较好的。

我们在过去一段时间,大概沟通有将近100家客户,在这个过程当中,我们不断的产生新的idea,让我们了解大模型如何应用到应用当中。每一次交互的变化,都可能对某一类需求产生洗牌的机会,我们更了解大模型,大模型应用场景非常值得关注。

我们选了几个常见的点,跟大家做简单的分享。

第一个文本生成。没有大模型之前,我们的文本生成基本上都是规则作为基础,都是以规则的拼接方式来做的,基本上很容易发现是人还是机器做的,而且它的影响面和应用场景非常小。

现在模型大文本生成能力非常强,比如广告文案生成,工作当中周报的生成,新闻的生成,标书的生成,招聘的话,职位的生成,旅游的话,游记的生成,它的生成能力放在无数的地方,可能对市场的生态带来新的可能性,或者新的机会。这是一个非常好的场景。

第二个信息抽取。我们以前做信息抽取,基本上都靠NLP的方法,来打标,各种规则等等方法,其实它的泛化能力非常差,生产成本特别高,我们在一些客户需求抽取乐得长江,有一些销售戴着智能工牌,跟客户聊天有一万字的生成,我们提取用户画像,用户需求,甚至做客服的质检,有没有该说的话,不该说的话也说了来打分。

如用传统的NLP的方法,则需要用两三个月的时间不断调整,而在今天大模型时代,它的生产成本,一个人搞半天就可以搞好了,在这种情况下,大模型进一步让AI普惠,在每个地方更加低成本、大家快速的把AI应用到自己的业务场景里面去。

再比如说信息检索,微软的New Bing,带来一种全新的模式。我们原来的搜索引擎,搜索完了之后,把10条结果全部要读一遍,看完要一个小时,大模型可以帮你完全看完,基于你的问题,针对性做回答,甚至还可以进一步做追问,这个体验会带来完全颠覆。

这仅仅是网页,它本身内容密度比较高的。我们今天搜一个视频,往往只能得到封面或者是一个标题,你完全不知道自己查的内容在哪,如果把整个视频看了,半天就没了,大语言能不能把字幕里的内容提取出来,阅读完之后,转成对应的方式给我们,不再受制于展现形式。

比如说我们简历的检索,原来简历检索到这个人的职位和公司,它对于每一场项目经验的描述,我们没办法转化成语义,在今天有可能完全改变垂直领域,用户搜索的习惯和场景,这也是一个非常大的机会。在原来的方式里面做不到的。

比如说对话系统,原来对话系统,基本上以QA为基础,我们写好的问题,不够的话,我们不停扩展扩写,用各种各样的方法,非常生硬,稍微长一点的上下文理解不了,在大模型领域里面,有无数的场景,更好把对话能力植入进去,不断有更丰富的对话,即使QA里面没有,放一个用户手册,可以随便提问题,它了门槛、效果、上下文能力,泛化能力,远远超过之前的传统方法,包括我们在会议场景上做会议纪要,会议纪要直接变成排期,都是有机会。

我们会看到仅仅在过去两个月时间,就见到无数这样的场景,一次一次被我们大模型能力惊艳到,它在各个场景里会出现越来越多的应用,这将是一个值得大家关注的方向。

关键词:

推荐内容