ChatGPT全称为“chat Generative Pre-trained Transformer”,翻译成中文就是生成型预训练变换模型,是一款人工智能技术驱动的自然语言处理工具。它由美国公司OpenAl研发,能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话Al。下文是ChatGPT的详细介绍。
一、ChatGPT的发展历程
GPT功能越来越强大。从2018年6月GPT-1发布以来,模型参数量、预训练数据量越来越大,当前已经发展到ChatGPT-4(ChatGPT4-puls也正在开发中)。
1. 无监督学习GPT-1。GPT-1诞生于2018年,采用了12层Transformer核心结构,通过自左向右生成式的构建预训练任务。GPT-1具有一定的泛化能力,能够进行自然语言推理、问答与尝试推理、语义识别分类。但是泛化能力弱,远低于经过监督微调的有监督任务。
2. 多任务学习GPT-2。GPT-2诞生于2019年,同样基于Transformer,相比于GPT-1,GPT-2采用了更多的网络参数和更大的数据集,最大模型共计48层,参数量达15亿。在性能上,在各种任务如阅读、对话、写小说等方面,效果都有所提高。
3. 海量参数模型GPT-3。GPT-3采用1750亿个参数,规模是GPT-2的117倍,在不经过微调便可以识别数据中隐藏的含义。作为一个无监督模型,GPT-3几乎可以完成自然语言处理的绝大部分任务,例如面向问题的搜索、阅读理解、语义推断、机器翻译、文章生成、自动问答、将网页描述转换为相应代码、模仿人类叙事、创作定制诗歌、生成游戏剧本等等复杂任务。同时,GPT-3在两位数的加减运算任务的准确率几乎达到了100%。但是GTP-3并不完美。最主要的问题之一就是聊天机器人和文本生成工具无法判断内容的质量和好坏,可以学习网络上所有文本,可能产生恶意的甚至攻击性的语言输出,影响落地应用。
4. 基于人工标注数据和强化学习的 GPT-3.5(ChatGPT原型)。ChatGPT在一个开源数据集上进行训练,不过采用了更大规模的训练参数,ChatGPT的训练参数是GPT-3的10倍以上。除了训练参数规模的变化,ChatGPT还采用了颠覆式的迭代方式:人工标注数据和强化学习,其本质是加上了在GPT-3上去掉的微调步骤,从而实现了在与人类互动时从反馈中强化学习,即RLHF(Reinforcement Learning from HumanFeedbac,人类反馈强化学习)。因此,ChatGPT不仅可以理解人类不同指令的含义,也会甄别高水准答案,还能处理多元化的主题任务。既可以回答用户后续问题,也可以质疑错误问题和拒绝不适当的请求。
5. 多态模型ChatGPT-4:ChatGPT-4,相较于GPT-3.5得到了极大的提升,主要体现在以下方面:
(1)输入文字长度:从3000字到25000个字,这样执行指令时就可以获取更多细节。
(2)处理图像和文本:这是与 ChatGPT 3 的最大区别之一,前者只能理解或处理文本输入。除了文本之外,ChatGPT 4 还可以理解和解释图像。
(3)情感、语境和语音感知能力:ChatGPT4 通过对更丰富、更多样化的数据进行训练,可以更好地感知文本中的语境和情感信息,并更精准地理解和表达人类的语言感受和情感状态。
(4)零样本学习能力:ChatGPT4 引入了一种基于元学习的训练技巧,可用于在没有任务特定数据的情况下进行零样本学习。这意味着 ChatGPT4 已经具备了从少量数据中学习、推理和生成文本的能力,可以更快地适应新的任务,并更加灵活地应用于不同领域的应用场景。
(5)上下文感知能力:ChatGPT4 引入了一种新的模型结构,称为细粒度拓扑网络结构,可以更好地感知和理解上下文中的信息,并更精准地生成相应的文本内容。这使得 ChatGPT4 在对话场景中更加智能化和人性化,能够更好地理解用户的意图和需求,并更准确地给出回复和建议。
(6)对提示的响应能力:ChatGPT 4 在响应您的提示时将其创造力提升了几个档次。ChatGPT 3 擅长理解上下文,具体取决于您设置提示的方式,但ChatGPT4 可以更好地理解上下文,阅读字里行间,并理解细微差别。ChatGPT 4 更适合响应需要更复杂、更深入理解的提示。
(7)领域专业知识:与其前身相比,ChatGPT 4 在微积分和法律等领域获得了丰富的专业知识,可以比人类更准确、更快速地解决复杂问题。OpenAI工程师测试了两个版本破解APCalculus BC考试的能力,结果如下 -ChatGPT-4的得分与前10%的候选人相同,而ChatGPT-3的得分与后10%的候选人相同
(8)学习语言能力:ChatGPT 4正在迅速成为多语言。它的英语熟练度为85%,而其前身为70.1%,它可以用25种语言回答,包括普通话,波兰语和斯瓦希里语。
(9)更安全的响应:与其前身相比,ChatGPT 4产生更安全的响应。在这种情况下,更安全意味着非歧视、非种族、一致并符合对话的一般道德标准。这就是 ChatGPT 4的设置方式。虽然在ChatGPT 3的情况下,响应随着它从每天消耗的新数据中学习而演变,但 ChatGPT 4从一开始就已经配置了良好的标准。不安全的响应可能会导致各种麻烦,而 ChatGPT 4正在最大限度地减少这些麻烦。根据OpenAI技术报告,ChatGPT 3将产生6.48%的有毒回复,但ChatGPT 4仅产生0.93%的有毒回复。
二、ChatGPT特点
ChatGPT是一种非常强大和多功能的自然语言处理技术,具有广泛的应用前景。它可以大大提升人们和机器之间的交互效率和便利性,推动人工智能技术的不断发展和进步。
1、非常强大的语言生成能力
ChatGPT拥有非常强大的语言生成能力,可以自动生成符合语法规范和逻辑的文本,使得机器生成的文本更加自然流畅。
2、可以适应不同的对话场景
ChatGPT可以根据对话场景的不同而进行相应的调整,比如在智能客服中,它可以根据用户的问题给出相应的答案;在聊天机器人中,它可以模拟人类的对话风格。
3、可以进行多语言处理
ChatGPT支持多种语言的处理,包括英语、中文、日语等。这使得它可以应用于不同国家和地区的市场,并且可以处理不同语言之间的翻译和交流。
4、可以用于文本生成、摘要和翻译
除了对话应用之外,ChatGPT还可以用于文本生成、摘要和翻译等任务。它可以生成符合语法规范和逻辑的文章,可以对长篇文章进行自动摘要,也可以进行跨语言的翻译。
5、对于数据的敏感性
ChatGPT的开发者非常重视对于数据的敏感性,因此对于一些可能引起争议的数据集(如暴力、种族歧视等),OpenAI公司已经禁止了它们的使用,以确保ChatGPT的安全和公正性。
三、技术原理
ChatGPT 模型的训练过程
在整体技术路线上,ChatGPT在效果强大的GPT 3.5大规模语言模型(LLM,Large Language Model)基础上,引入“人工标注数据 强化学习”(RLHF,ReinforcementLearning from Human Feedback)来不断微调(Fine-tune)预训练语言模型,主要目的是让LLM模型学会理解人类的命令指令的含义(比如给我写一段小作文生成类问题、知识回答类问题、头脑风暴类问题等不同类型的命令),以及让LLM学会判断对于用户给定的问题(也称prompt),什么样的答案是优质的(富含信息、内容丰富、对用户有帮助、无害、不包含歧视信息等多种标准)。
具体而言,ChatGPT的训练过程分为三个阶段:
1. 第一阶段:训练监督策略模型
GPT 3.5本身很难理解人类不同类型指令中蕴含的不同意图,也很难判断生成内容是否是高质量的结果。为了让GPT 3.5初步具备理解指令的意图,首先会在数据集中随机抽取问题,由专业的人类标注人员,给出每个问题(prompt)的高质量答案,形成