文章主题:尼克, 乔姆斯基, 语言学, 计算机科学

666AI工具大全,助力做AI时代先行者!

原标题:尼克|乔姆斯基 vs ChatGPT

乔姆斯基是一位在语言学、计算机科学、认知科学和哲学领域有着深远影响的学者,同时也是当今最具影响力的知识分子之一。有人甚至将他视为历史上引用次数最多的十位思想家之一,虽然这种说法并不完全准确,但他的影响力和声望无疑是非常高的。通过Google Ngram的分析,我们可以看到乔姆斯基的名声与维特根斯坦相当,超过了波普尔、托尔斯泰、图灵和哥德尔等人的声望,但与罗素相比,他还稍显不足。而与爱因斯坦、牛顿和希腊三贤等伟大科学家相比,乔姆斯基的影響力虽有所逊色,但也同样不容小觑。

乔姆斯基:语言学大师,计算机科学的局外人

在2022年的岁末,ChatGPT以惊人的速度问世,引发了全球范围内的关注。紧接着在2023年的3月8日,著名学者乔姆斯基,《纽约时报》的特约作者,以其特有的洞察力,针对ChatGPT发表了一篇名为“The False Promise of ChatGPT”的文章,对ChatGPT持有批判性的观点。在这篇文章中,乔姆斯基引用了他老人家的经典语句:“John is too stubborn to talk to”,并试图以此揭示ChatGPT的局限性。他认为,机器可能会将这个句子误解为“John太固执不愿意和人谈话”,而忽视了其真正的含义——“John不可理喻”。然而,网络上的网友们却把这句话抛给了ChatGPT,而ChatGPT却能准确地把握其中的深层含义,让乔姆斯基颜面无存。乔姆斯基对计算机科学和认知科学等新兴学科有着深入的理解,但对于大语言模型却抱有忽视的态度。斯坦福大学的计算语言学家克里斯·曼宁(Chris Manning)在社交媒体上对此表示遗憾,认为看到一位年轻时具有深刻创新力的研究者,如今却对新的方法持保守态度,实在令人感到惋惜。对于一代又一代的年轻人来说,乔姆斯基的形象一直是他们的偶像。然而,随着岁月的增长,乔姆斯基似乎也在逐渐改变自己的看法。这样的转变,也许也是他的一种成长,但无疑会让曾经崇拜他的两代人感到失望,他们可能觉得,乔老爷已经老了。当然,我们也不能期待年过九旬的乔姆斯基亲自微调大语言模型,这种期待显然是不公平的。

乔姆斯基其人

乔姆斯基出生于一个充满政治热情的家庭,他的父母与大部分犹太人一样,是复国主义者和坚定的社会主义者。在这样一个左派犹太家庭中,乔姆斯基在12岁时就开始接触政治,并深受其老师哈里斯的影响,他对布尔什维克主义持怀疑态度,同时也反对犹太复国主义。乔姆斯基结婚后的初始阶段,曾经考虑过移民到以色列,然而有趣的是,由于他的反犹立场,他遭到了以色列的拒绝签证。在20世纪60年代,他因参与反越战活动,被美国政府关押。与他一同在监狱里的朋友诺曼·梅勒形容他为”书呆子”,即使在监狱里,他还担忧着如何给学生们上课。在1970年,乔姆斯基冒着生命危险,前往越南和老挝进行访问。为了保护他的安全,麻省理工学院甚至雇佣了两个专职保镖,相较于邻居 Harvard 的”鸡贼”,麻省理工显得更加富有理想和勇气。乔姆斯基最新的政论书籍《美国梦安魂曲》充分展现了他的博学,我们有信心他有可能成为一位出色的美国宪法律师。他的政治立场虽然有所改变,但始终坚持的基本原则是始终站在弱势群体的一边,他借用”墙和鸡蛋”的比喻,始终将自己定位为那个鸡蛋,也就是反美反犹。在评论拉美政治问题时,乔姆斯基竟然坚定地支持那些信仰天主教的神父们。而当基辛格的影响力如日中天时,乔姆斯基曾是他的激烈批评者。如今,大多数美国的年轻人甚至都不知道基辛格的存在。基辛格的形象有些像西洋参,就像所有的美国华人回国探亲前会购买一些中国特色的礼品送给亲朋好友一样,但西洋参却并不产自欧洲。

乔姆斯基:语言学大师,计算机科学的局外人

乔姆斯基1970年摄于麻省理工

“柏拉图之问”与”奥威尔之问”,这两句话成为了乔姆斯基人生的两大指引。其中,”柏拉图之问”即我们常说的”刺激贫乏论”,它探讨的是在资源匮乏的环境下,人类如何能够获取并积累如此丰厚的知识。”奥威尔之问”则是与之相反的命题,它质疑的是在资源丰富的情况下,人类的知识为什么反而显得如此有限。乔姆斯基对奥威尔的理论和观点更为亲近,他在学术研究时更倾向于柏拉图的思想,而在参与政治活动时,他会遵循奥威尔的路线。他曾在麻省理工学院的办公室里悬挂着罗素的照片,仿佛要继承罗素的衣钵,成为 logical 学的代表人物。然而,对于乔姆斯基来说,语言学和逻辑学都是推动他前进的重要力量,它们同样关注政治和社会进步,同时也强调平等和自由的重要性。在乔姆斯基的心中,奥威尔或许会排在罗素之前。他并不是一个普通意义上的左派,他是一个无政府主义者,他的思想深受奥威尔的影响。总的来说,乔姆斯基的一生都在回答”柏拉图之问”和”奥威尔之问”,这两个问题是他理解和改变世界的核心。

乔姆斯基,尽管他自诩为理性主义者,但在内心深处,他却对现代欧洲哲学持有轻蔑的态度。他的与法国学者福柯的对话,在欧陆学界引起了广泛的关注,然而乔姆斯基本人却认为这次对话并非一场严肃的交流,而仅仅是为了观察,看是否能够通过不依赖翻译的方式理解对方的母语。他公开指责德里达、拉康和福柯等法国人文知识分子是“骗子”、“文盲”甚至“邪教”。他对这种反智的极端情绪表现出强烈的反感。

在过去的二十年里,乔姆斯基的著作和访谈中,重复的主题和观点并未发生显著变化,这使得他的思想的核心内容保持了一致性。他的每一次讲话都经过精心编排并整理成了书籍形式。尽管他的话语并不总是充满激情,但是其语言精炼而清晰,易于理解,这也是他能够大量出版作品的原因,只需将演讲和采访的录音转化为文字即可,大部分内容无需修改。加拿大语言哲学家詹姆斯·麦吉尔弗雷(James McGilvray)的《语言科学》是对乔姆斯基思想最直观、最通俗的阐述。在这部作品中,乔姆斯基的思想得到了深入浅出的解读。他认为,自笛卡尔和休谟以后,哲学家普遍未能跟上时代的步伐,唯有康德、弗里格、罗素和皮尔士等少数几位哲学家才能脱颖而出。《语言与心智》这部作品是基于乔姆斯基1967年在加州大学伯克利分校的三次贝克曼讲座的内容而整理成的,到2006年第三版时,增加了生物语言学的内容,篇幅也增加近一倍。而更新的《我们是谁》则以其易读性而受到欢迎,特别是在最后一章中,展现出了他对科学史的广泛研究。如果将这几部作品视为乔姆斯基本人的著作,那么英国语言学家莱昂斯的《乔姆斯基》以及英国语言学家尼尔·史密斯所著的《乔姆斯基学述》显然也是必读书籍之一。其中,《乔姆斯基》一书附有术语表,详细解释了乔姆斯基特定的理论术语,而《Ideas and Ideals》则更全面地评论了他的学术思想和政治观点。

在1953年,乔姆斯基先生与其新婚妻子卡罗尔一同欧洲度假,然而在从蒙特利尔到鹿特丹的跨洋旅程中,乔姆斯基因晕船而躺平,开始重新审视他老师哈里斯的结构语言学。在这个过程中,乔姆斯基提出了广义文法(Universal Grammar,UG)。他随后从与他同年出生的数学家、逻辑学家马丁·戴维斯处了解到戴维斯老师的逻辑学家、波斯特(Post)的工作。在《语言描述的三个模型》(Three Models for the Description of Language,1956)一文中,乔姆斯基引用了数学家罗森布鲁姆(Paul C. Rosenbloom)的教科书《数理逻辑要素》(The Elements of Mathematical Logic),其中正式讲述了产生式系统。这篇文章后来发展出了乔姆斯基的分层理论,对语言学和计算机科学产生了深远影响。具体而言,乔姆斯基-0型文法(递归可枚举语言)等价于图灵机,1型文法(上下文相关语言)等价于线性有界非确定图灵机,2型文法(上下文无关语言)等价于非确定下压自动机,3型文法则是编程语言中常见的正则表达式,等价于有限自动机。”短语结构文法”(phrase structure grammar)最初在乔姆斯基早期著作中泛指Post系统,但后来特指1型和2型文法。对于编程语言而言,Algol-60语言是使用BNF(巴克斯-诺尔范式)描述的,而BNF本身就是上下文无关文法。乔姆斯基认为短语结构文法无法充分描述自然语言。此外,还有五层分法,即在0型和1型之间加入一个递归语言(recursive language),其区别在于对应的图灵机是否可以停机。关于这个话题,需要一定的数学和计算理论知识。最后,推荐冯志伟先生的《现代语言学流派》作为进一步学习的入门参考。

乔姆斯基的《语言学理论的逻辑结构》是其最著名的作品之一,该书的博士论文源自他对这一领域的深入研究。他将自己的手稿提交给麻省理工学院出版社,希望能将其转化为专著,然而,初出茅庐的乔姆斯基并未得到学术界的认可,相反,审稿的语言学家们建议他首先将这一主题转化为论文,然后投稿给学术期刊,待学术界的认同后再出版专著。然而,乔姆斯基关于此话题的第一篇论文却遭遇了拒绝。审稿人甚至没有阅读论文,就直接将其退还给了他。尽管如此,乔姆斯基在1955年的IEEE的前身IRE的信息论会议上,还是宣读了他的“三个模型”论文。这篇论文最终被发表在了IRE的《信息论学报》上,标志着“三个模型”理论的诞生。在这个会议上,乔姆斯基遇到了参会的数学家所罗门诺夫,他的研究成果在会议上也被 read out。所罗门诺夫的文章经常引用了乔姆斯基的生成文法,他们的交流开启了一个新的领域——算法信息论。如果所罗门诺夫也能像乔姆斯基一样长寿,他可能会感到欣慰的是,正是他们的交流为现代计算机科学的基础——ChatGPT,奠定了理论基础。这个故事 itself 就是一篇长文,值得我们深入探讨。

乔姆斯基:语言学大师,计算机科学的局外人

《语言学理论的逻辑结构》

乔姆斯基的伯乐是比他年长几岁的同校青年教授,一位是认知心理学的创立者之一乔治·米勒(George Miller)和犹太裔语言学家莫里斯·哈利(Morris Halle)。米勒是最早看过《语言学理论的逻辑结构》的人。哈利看了乔姆斯基给本科生上课的讲稿,推荐给Mouton出版社作为现代语言学丛书的一个小册子先出版了,这就是《句法结构》。这本科普书好评如潮,奠定了乔姆斯基在语言学界的地位,而更学术的《语言学理论的逻辑结构》则要到二十年后才正式出版。他的语言学经历了几个阶段的变化:1950年代转换生成文法,1960年代标准理论,1970年代管辖与约束(government和binding),1980年代最简方案。平克曾经用“文革”语言戏称乔老爷语言学思想的变化为“继续革命”,但他的核心思想——“思维是由语言生成的”(这里简称“思维即语言”或“语言即思维”),从来没有变过。

思维即语言?

乔姆斯基的理论在语言学界被认为是开天辟地的,所谓“乔姆斯基革命”。但从计算机科学和逻辑学的角度看,它是自然的。乔姆斯基承认广义文法(UG)受到波斯特的启发。可惜波斯特既没有被逻辑学家(如哥德尔)欣赏,也没有被数学家包容。相较于计算机科学,语言学是迟钝的:计算机科学几乎与相应的数理逻辑同步,当哥德尔和海伯伦 1934年定义了广义递归函数,图灵1936年就发明了图灵机;而波斯特的工作要到1956年才被乔姆斯基引入语言学。乔姆斯基之前,语言学是文科,乔老爷力图把语言学变成自然科学。乔姆斯基称第一次认知革命发生在十七世纪,主角是笛卡尔;而第二次认知革命发生在1950年代的麻省理工。乔姆斯基甚至把“思维即语言”回溯到基督教杨森派主要人物阿尔诺(Arnauld)写的《王港语法》,阿尔诺和同时代的笛卡尔和帕斯卡相熟,并深受他们影响。也有语言学史家认为乔姆斯基误读了《王港语法》。

与英美经验主义传统不同,乔姆斯基自称是理性主义者,他的语言学理论也被他冠以笛卡尔语言学的帽子。在语言是区分智人和其他物种的决定性因素上,认知科学家和进化心理学家都同意乔姆斯基。但在语言的来源上,乔姆斯基和大家有明显分歧。波普尔和平克等认为语言是进化的产物,所谓渐进派;而乔姆斯基则认为语言是突现的,他自称“跳跃”(saltation)派。

乔姆斯基不断地引用洪堡的说法“语言是有限手段的无限运用”。他提出的一个极为简单的机制:“合并”(merge),其实是一种原始的递归机制,考虑到通用递归函数等价于图灵机,我们不惊奇“合并”机制可以解释所有的语法现象。对乔姆斯基来说,只要能找到“合并”的生物学解释,他的计划就可以变成科学理论了——他目前都以更加谦逊的“计划”(program)而不是“理论”来指称自己的研究。如果“合并”的生物学解释成立,那么这不过是丘奇-图灵论题的一个生物学支持证据而已。如果承认语言等于思维,实际上承认了图灵机可以思维。

语言学家说“思维即语言”,有点像物理学家(例如网红迈克斯·泰格马克)说“数学等于物理”。常人看,思维肯定大于语言,而数学也大于物理。图灵测试是语言能力的测试,无关其他模态。十几年前深度学习能火起来,是因为神经网络解决了语音和视觉问题,但那时人们只是兴奋。GPT却令人惊喜甚至震撼。无论是语音还是视觉,我们都认为这是增强人的能力。但直到2022年ChatGPT在语言能力的突破才使人意识到人性可能被冒犯。语言要比听觉和视觉更接近人性。

乔姆斯基认为语言的交流功能是思想功能的外化,思想在先,交流在后。他还认为人类可能在十万到五万年前因为基因突变,导致了递归枚举能力。这种突变可能在人类更早的历史上发生过多次,只不过这次有了显著的群体效果。感觉-运动系统(sensory-motor)是语言外化的结果。乔姆斯基的妻子卡罗尔是麻省理工学院的生物语言学家,她研究过两岁前得过脑膜炎的儿童,他们丧失了视觉和听觉,但还保留有触觉。他们能通过触觉补偿语言能力,从而能思维。这证明了语言是比其他感知模态更加基础的官能。

GPT的G就是乔姆斯基生成文法中所谓“生成”。乔姆斯基最出名的例句大概是:Colorless green ideas sleep furiously. 这个生成的句子被传统经验主义者批判为“虚无”,但很多诗人赞赏这个句子,称其富有禅意。按照当下流行的GPT术语,就是“幻觉”(hallucination),或者创造力。

乔姆斯基虽不愿承认还原论,但他的方法论本质上还是还原论的:他企图找到语言的生物学基础。他称赞图灵把生物学问题还原到物理学问题——图灵1952年做过形态学(Chemical Basis of Morphogenesis)。牛顿也很困惑万有引力不能归约到机械力学,即任何运动必须有某种物理的推动。乔姆斯基不认可经验主义和行为主义,他有时也称之为马赫主义。他认为深度学习就是当代的行为主义。洛克说心灵是白板,莱布尼茨说心灵不是白板,而是有纹理的大理石板。虽然图灵测试被看作是行为主义的,但一个基本假设是数据是喂给图灵机的,而图灵机不是白板。经验主义者也不得不承认思维源于某种有组织的物质(organized matter)。如果承认丘奇-图灵论题,那么所谓“有组织的物质”和理性主义者所谓“纹理”都可被看作是图灵机或者与之等价的“语言官能”。经验主义者会把学习看作记忆,而承认丘奇-图灵论题的人会把学习看作压缩。通用人工智能(AGI)不过是不熟悉计算理论的人提出的口号,如果我们认可语言即思维,那么,AGI的标准就是语言,无关乎其他模态,这就又回到图灵测试。

思维不等于语言?

塔南鲍姆(Joshua Tenenbaum)是麻省理工学院大脑与认知科学系的学术新星。他父亲曾是1980年代硅谷人工智能重镇Schlumberger实验室的掌门人,后来连环创业,我和老塔同事时,小塔还没上高中,现在居然成了大佬。ChatGPT出来后,小塔跟风,企图标新立异这样一种观点:大语言模型解决了语言问题,但还是不能思维。他和几位同道学生在arXiv上挂了篇文章Dissociating Language and Thought in Large Language Models: A Cognitive Perspective,标题一目了然:分离语言与思维。他们把语言能力分为形式能力(formal competence)和功能能力(functional competence),结论大致是大语言模型解决了形式能力,而没有解决功能能力,所以思维不等于语言。小塔所谓“功能能力”就是用言语同世界打交道,换算成大模型的术语就是“多模态”。其实,他们对语言能力的划分,都是乔姆斯基玩剩下的,乔老爷早就有内部语言(I-语言)与外部语言(E-语言)之分,内部语言是天生的能力(competence),外部语言用于行为(performance),这本就是两件不同的事情。小塔的“功能能力”对应于乔老爷的外部语言。内部语言受制于生物、数学和物理的约束。乔姆斯基应该认可丘奇-图灵论题的某个版本。任何相信丘奇-图灵论题的人不会是纯粹的理性主义者,也不会是纯粹的经验主义者。乔姆斯基-0型文法等价于图灵机,所谓“语言官能”(language faculty)等价于某种自动机。这间接地支持思维即语言的论断。

乔姆斯基:语言学大师,计算机科学的局外人

塔南鲍姆

内部语言关乎“真”,尺度是内在一致性;而外部语言关乎“意义”,尺度是外在对应性。意义得自交流,维特根斯坦所谓“意义即使用”,或者约翰·奥斯汀所谓“以言行事”(do things with words),“言语行为”都是指外部语言。外部语言对应于工程师们感兴趣的 embodied intelligence(中文别扭地翻译为“具身智能”)或“多模态”(视觉、听觉、触觉等)。意义是功能层在与外界交互时进行强化学习的过程。乔老爷认为外部语言是交流而不是思维。小塔并没有提出什么新东西。即使马斯克这样聪明的工程师也认为自动驾驶之类的具身智能是狭隘的(narrow form),要远比人们想象的简单,这很明显要比喜欢讨好大众的小塔更加有洞见。

承认思维即语言,对工程实践也会有影响。设计多模态大模型时,承认派会把语言模型作为基座,其他模态坐在基座之上,不同模态之间的沟通也通过基座进行。但否认派可能企图直接在任意模态之间建立映射,这明显不经济。

设想在火星上做自动驾驶,如果所有的停车标志(STOP)都是绿色的,难道我们需要拿所有的数据重新训练一遍火星自动驾驶大模型吗?如果驾驶员是人,一条简单的指令:“注意!停车标志是绿色的”,就足以让人适应新的驾驶场景。难道在大语言模型上不可以用一条简单的提示或者“咒语”(prompt):“把所有停车标志的颜色替换成绿色”吗?事实上,1970年代普渡大学的傅京孙就曾经用语言学的手段研究视觉,当时不被广泛认可。可惜他英年早逝。如果在“思维即语言”的立场重新审视视觉,傅京孙可算得高瞻远瞩。

大语言模型的可解释性

2000年,麻省理工学院的人文社科学院成立五十年的庆祝大会上,乔姆斯基、普特南和平克三人参加一个论坛,题为“关于人性,我们知道什么?”(What Do We Know About Human Nature?)这场论坛被组织者称为“三大男高音”齐聚。从休谟起,人性的核心是思维。平克把认知革命归功于乔姆斯基。乔老爷和普特南曾经在宾夕法尼亚大学同学,立场偶有不同,但彼此尊重。 2011年5月,麻省理工学院为配合一百五十周年校庆,召开名为“大脑、心、机器”的研讨会(Brain, Mind and Machine Symposium),本校的几位大佬乔姆斯基、明斯基、温斯顿等悉数出席,并由平克主持。乔姆斯基批评当时重新开始流行的神经网络是黑盒子:没有提供解释和知识。麻省理工学院主办的《技术评论》杂志为这个研讨会发了专文,标题故意挑事儿:“不会思维的机器”(Unthinking Machines)。时任谷歌研发总监的诺维格(Peter Norvig)很快回应乔姆斯基,他批评语言学的规则在自然语言处理上,根本就没用。现在看,诺维格的工程实践还真给了他一些先知先觉。有人用“两种文化”来总结乔姆斯基和诺维格的隔空掐架。

乔姆斯基:语言学大师,计算机科学的局外人

乔姆斯基

语言问题曾被理所应当地认为是逻辑的,现在却被用神经网络得到满意地解决,这本身就是令人惊奇的。工程师们甚至认为语言的中间任务(词分析、句法分析、语义分析)已经不需要认真对待了,因为ChatGPT代表的大模型对语言学问题给出了端到端的解决办法。语言学家就是研究各种中间步骤的,中间步骤就是解释。其实在1990年代统计方法被引入之后,自然语言处理(NLP)就越来越不需要语言学了,曾有玩笑:NLP团队每开除一个语言学家,系统的性能就提升一个台阶。估计令乔姆斯基沮丧的是:大语言模型把自己的工作彻底搞丢了。诺维格的合作者、伯克利教授斯图亚特·罗素(Stuart Russell)的态度则一直温和得多。他怀疑ChatGPT的良好表现是不是碰巧碰上的。他说:“如今的自然语言处理不再研究语言,我认为这是非常不幸的。”这和乔姆斯基的态度差不多,斯图亚特·罗素仍然把希望寄托于知识和推理。他们都认为ChatGPT是工程而不是关乎语言的科学。人类专属的技能不多了,难道我们要等到机器证明了黎曼猜想才能被彻底折服吗?

乔姆斯基与笛卡尔的不同之处在于,乔姆斯基并不是试图在心身之间划一条明确界限的二元论者。这么说,和晚年蒯因的“整体主义”也没啥太大区别,都接近皮尔士的实用主义。相同的是,他们都认为语言是人的独有能力,但乔姆斯基用语言作为人和动物的划界,而笛卡尔用语言作为人和机器的划界。笛卡尔认为人类语言是任何自动机也不能实现的,他大概不会认可丘奇-图灵论题。

乔姆斯基曾说他自己的方法是“伽利略式”的,也就是从小数据里找寻基本定律,而不是用大数据构建黑盒子。但如果人人都有低成本的黑盒子,谁还要麻烦基本定律呢?虽然乔姆斯基在技术上对ChatGPT可能有所误判,但他“思维即语言”的立场却是大语言模型引发的这场革命的哲学基础之一。返回搜狐,查看更多

责任编辑:

尼克, 乔姆斯基, 语言学, 计算机科学

乔姆斯基:语言学大师,计算机科学的局外人

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!