文章主题:大模型, 人工智能, 自然语言处理, Transformer架构

666AI工具大全,助力做AI时代先行者!

《大模型:当前的热度与未来的前景》

近期,大模型的热度似乎有所降低。据我国相关数据显示,今年6月份,ChatGPT的访问量出现了罕见的下滑现象,相较于上一个季度下降了9.7%,这标志着自该模型推出以来的首个下滑阶段。从国际视角来看,虽然各大公司纷纷推出或更新了大模型,但媒体和民众对这些大模型的热情似乎已经有所减退。

在2023世界人工智能大会青年优秀论文奖颁奖仪式暨青年科学家论坛中,复旦大学计算机科学技术学院教授邱锡鹏指出,尽管我们称之为“百模大战”,但实际上,各大模型之间的同质化现象相当严重,具备实质性的创新成果却寥寥无几。换言之,这些大模型并未达到成为单纯工程问题的地步,离人们心中所期待的通用人工智能仍有许多科学问题待解答。

“百模大战”其实是挤同一条赛道

在邱锡鹏的演讲中,他对大型人工智能模型的科学价值提出了质疑。事实上,大型模型的发展并非一蹴而就,而是历经数十年的科研积累。然而,在 ChatGPT 成为热点之后,一个显著的现象是科学研究在这个领域的进展似乎减缓,许多人开始期待通过工程方法来实现突破。

在当今的AI领域,尤其是自然语言处理领域,大模型的预训练框架已经逐渐从传统的循环神经网络(RNN)转向了更为先进的Transformer架构。尽管Transformer架构具有很多优点,如高效、并行化处理等,但它的局限性也开始逐渐暴露出来。最为明显的问题之一就是,这种架构所需的计算资源极为庞大,甚至需要超级计算机的支撑才能确保其正常运行。

此外,生成范式逐渐成为主导趋势,这要求 utilizing大型模型时,必须将任务转变为生成式,包括处理一些复杂结构化预测问题。事实上,生成式范式也在走向一致性,过去Seq2Seq(一种序列到序列的深度学习模型)和LM(语言模型)是两个主要类别,但现在只剩下了后者。

此外,科研领域正在逐渐萎缩。邱锡鹏指出,以自然语言处理(NLP)为例,在2015年之前,这个领域包含了许多不同的研究方向,如对话系统、问题回答、机器翻译等。当时的学者们各自专注于自己的研究领域,并从其他学科中寻找灵感。然而,如今大部分研究者都集中在了大语言模型这一条道路上。

大模型面临“十大科学挑战”

尽管大模型展现出通往通用人工智能的潜力,但这条路并不好走。邱锡鹏列出了大模型亟需解决的“十大科学挑战”,包括架构设计、思维链、幻觉、多模态延展、自动化评价、平民化等。其中,大模型的架构创新是当务之急。邱锡鹏说,大模型之所以称为大模型,是因为其庞大的数据量使其拥有了涌现的能力,虽然人们至今不知道涌现是如何发生的,但是否有涌现是区别大模型与小模型的主要特征。换言之,想要大模型更智能,继续扩大其规模是一条显而易见的路。

原内容表述较为简洁,但存在部分信息可以进一步补充。在分析当前主流Transformer架构的基础上,我们可以发现其复杂度随输入字符长度的增加呈平方级增长,这意味着每个新增的字符都需要消耗指数级的计算资源。因此,要想实现未来模型规模更大的扩展,必须寻找更为高效的新架构。如此才能在满足性能需求的同时,支撑起不断增长的模型规模。

在大模型发展的道路上,评价体系的建立是一个关键性的环节。当前,虽然市面上已经存在诸多用于评估大模型优劣的排行榜,但在业界尚未形成统一的评价准则。此外,那些擅长“刷题”的大模型,其在数据集上的表现往往难以全面反映其实际能力。

颠覆性创新常在“冷门”处

深入研究创新规律不难发现,越是扎堆的“热门”圈子,往往难出颠覆性创新成果,ChatGPT本身就是个“冷门选手”爆火的案例。在其火遍全球之前,在大语言模型领域,谷歌的“理解与生成相结合”的路线是绝对的主流,在这种情况下,研发ChatGPT的OpenAI公司仍然选择坚持走自己的路。

现在,原本默默无闻的生成式AI成为了“顶流”。当人们一哄而上投入其中时,仍有一部分人还在坚持以IBM沃森机器人为代表的“AI符号主义”技术路线。以“爆款”常偏爱“冷门”的创新规律来看,或许未来的“核爆点”会奖励默默坚持的“少数派”。

事实上,获得今年世界人工智能大会最高奖项SAIL奖(卓越人工智能引领者奖)的论文《机器学习结合阻抗谱技术预测锂电池老化》,就不是一个关于大模型的研究。文章第一作者、中山大学物理学院副教授张云蔚说,她只采集了2万个电化学阻抗谱,就实现了AI精准建模。比起海量数据,更重要的是思路。就是这样一个小模型,将过去需要花费几天才能实现的电池寿命预测缩短到了15分钟,且检测精度是原来的10倍。

在大模型爆火的半年多时间里,大家似乎形成了一种共识,即只有资金雄厚和数据储备充足的大厂才有进军大模型的资格。对此,邱锡鹏认为,大模型还有大量科学问题需要攻关,这些问题除了预训练阶段需要耗费大算力外,在对齐、指令微调等方面所需的算力并不高。而随着算法的优化,3090显卡足以能完成大模型的研究,这是一条小公司也能“出奇迹”的赛道。

作者丨沈湫莎

编辑丨蒋竹云

大模型, 人工智能, 自然语言处理, Transformer架构

《大模型:当前的热度与未来的前景》

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!