文章主题:以下是文章的关键词: OpenAI, 人工智能, 研究报告, 德邦证券

666AI工具大全,助力做AI时代先行者!

(报告出品方/作者:德邦证券,马笑)

ChatGPT概述

OpenAI:人工智能研究领域最前沿的公司之一

作为一家深谙人工智能领域的研究公司,OpenAI凭借一系列独特且创新的产品引领行业潮流。其中,ChatGPT、DALL·E2以及Whisper等特色产品尤为引人注目。成立于2015年12月的OpenAI,是一家由马斯克、Y Combinator总裁阿尔特曼及PayPal全球创始人彼得·蒂尔等硅谷精英共同创立的领先人工智能研究机构。OpenAI的研究方向主要涵盖三个核心领域:首先,训练生成模型算法,也就是我们常说的深度学习生成模型,通过这一技术,他们能够创造出与真实数据相似的全新数据;其次,是从数据中推断算法的神经图灵机,这种算法能够有效地处理复杂的模式识别问题;最后,是强化学习方法,也就是我们所熟知的深度增强学习,它可以使机器在与环境的互动中不断学习和优化自身行为。

ChatGPT月度用户已破亿,正在逐步探索商业化途径

在2022年11月30日,ChatGPT作为一款全新的聊天机器人模型,由OpenAI发布。这款模型具备强大的学习能力,能够理解并掌握人类语言的内涵和外延,进而展开流畅的对话,其交互方式与人类的沟通方式极为相似,仿佛是在进行一场人与人之间的实时交流。不仅如此,ChatGPT还具备高度的智能化,可以处理各种复杂的任务,如撰写邮件、制作视频脚本、编写文案、进行翻译以及编写代码等等。如今,ChatGPT的用户量已经突破了每月一亿,这个数字仍在不断增长,显示出其在市场上的强大影响力。值得一提的是,OpenAI并没有忘记ChatGPT的商业价值,因此在2023年2月1日,他们推出了ChatGPT Plus这一付费订阅项目,每个月的价格为20美元,目前仅限于美国用户购买。这个项目的推出,无疑为ChatGPT的进一步发展和应用提供了更广阔的空间,也预示着未来人工智能技术的更多可能性。

ChatGPT基于GPT3.5模型进化微调,从人类反馈中学习

作为一个人工智能助手,我需要向您介绍的是OpenAI公司如何利用GPT模型来优化ChatGPT。他们采用了一种独特的方法,融合了监督学习和强化学习,以此达到优化ChatGPT的目的。在此过程中,人类反馈强化学习(RLHF)发挥了重要作用,使得ChatGPT能够更接近于人类的价值观和意图。在训练ChatGPT时,OpenAI采取了三个步骤。第一步是训练并微调GPT模型,使其具备语言和代码生成的能力。第二步是根据人类的意图进行训练,对生成的内容进行标记,从而构建出一个奖励模型(Reward Model)。第三步是通过这个奖励模型为生成的内容打分,然后利用近端策略优化(PPO)来优化生成模型,使其更接近于人类的意图。总的来说,OpenAI通过这种结合了监督学习和强化学习,以及人类反馈强化学习的方法,成功地优化了ChatGPT,使其更符合人类的价值观和意图。

第一步:收集数据微调GPT3.5模型

在进行少量的已标注数据调优时,预训练的GPT3.5模型被选中,其目标在于学习和理解如何根据给定的提示词(prompt)列表生成输出,进而形成有监督的策略。在这个模型的选择上,我们参照了InstructGPT的模型,并选择了GPT-3.5系列中的预训练模型,其参数量最高可达175B。比如,当我们输入“你好”这个词汇时,经过GPT的处理后,可能会输出“美”这个词。值得注意的是,GPT每一次的输出都有可能不同,因为网络上的语句千变万化,例如“你好”后面可以接“高”、“吗”等多种方式,而输出结果则是基于概率分布的,即高频出现的组合概率较高。在数据的收集方面,我们采用了两个不同的提示词来源。一部分数据是直接由标注人员或研究人员准备,另一部分则是从OpenAI的API请求(也就是从GPT-3用户处)获取的。最后,在策略生成的阶段,我们会选取一个提示词列表,然后让标注人员按照要求写下预期的输出。最终,我们会得到一个相对较小但质量较高的数据集,这个数据集可以用于调优预训练的语言模型。

第二步:模拟人类偏好,训练奖励模型

在处理众多模型输出后,我们构建了一个以比较数据为基础的新数据集。这个新数据集被用于训练一种名为“奖励模型”(Reward Model,简称 RM)的全新模型。在完成输出排序的过程中,标注者们依据人类对于输出的偏好,将输出从优至劣进行了排列,从而得到了一个新的标签数据集。对于训练奖励模型,我们采用了有标签的数据集进行训练。在模型生成过程中,我们会按照优先级顺序对其输出进行排序。举例来说,如果输入的问题为“台湾最高的山是哪座?”,那么生成的两个输出可能是“玉山”和“谁来告诉我呀”。尽管这两个回答都能够与问题衔接得上,但根据人类的偏好,输出“玉山”的优先级要高于“谁来告诉我呀”。在奖励模型对两个输出进行排序时,优先级较高的输出会被排在前面。

第三步:使用奖励模型,基于PPO进行最优化

强化学习是一种优化方法,主要通过调整模型参数以实现最优性能。其中,一种特定的优化算法被称为近端策略优化(PPO)。PPO是一种强化学习方法,旨在通过学习策略来实现回报最大化或达到特定目标。该算法在便利性、样本复杂性和调优便利性之间找到了平衡点,能够在每一步计算更新,使得代价函数最小化,并保证与前一代策略的偏差相对较小。为了获得最大奖励,我们采用RM作为奖励函数,并通过PPO算法对策略进行微调。这意味着,我们将根据RM函数的评估结果,对策略进行调整,从而在每一步中实现最佳效果。

核心优势

优势一:公司与微软合作,提供上下游支持

微软作为OpenAI的LP投资者,深度参与并支持了公司的研发工作,提供了强大的技术基础设施和应用服务。在资金方面,微软在2019年7月22日和2023年1月23日分别向OpenAI注资10亿美元,展现了其对AI技术的高度认可和支持。此外,微软还与OpenAI建立了长期合作伙伴关系,进入了第三阶段,通过多年的投资,将AI技术推向新的突破点。在服务方面,微软通过投资大规模的超级计算系统,加速了OpenAI的研究进程,同时也在Azure平台上构建了先进的人工智能基础设施。作为独家云提供商,Azure将为OpenAI的所有研究和产品服务提供支持。在应用方面,微软计划将包括ChatGPT、DALL-E等人工智能工具整合进其所有的产品中,并将其作为一个开放的平台供其他企业使用,包括但不限于Bing搜索引擎、Microsoft Office、Azure云服务和Teams聊天程序等。这一举措不仅展示了微软对AI技术的深度投入,也表明了其开放、共享的技术理念。

应用场景

ChatGPT以采取会员收费,未来或拓展商业模式

OpenAI的商业模式主要包括三大核心部分:会员服务、API服务以及与微软的战略合作。在会员服务方面,自2023年2月1日起,OpenAI推出了名为ChatGPT Plus的付费订阅项目,每月收费为$20美元,目前仅针对美国用户。这个付费服务不仅能让用户在高峰时段常规访问ChatGPT,还能提供更快的响应速度以及优先体验新功能和改进。值得一提的是,ChatGPT仍将保持免费访问。在API服务方面,ChatGPT有可能被纳入到OpenAI的API服务中,从而从下游用户的使用中收取费用。目前,OpenAI的API服务是基于Token对自然语言处理的文字进行收费的,例如莎士比亚作品集就需要1.2M的Token。最后,OpenAI还与微软展开战略合作,推出了Azure OpenAI服务。这种服务采用即用即付的消费模式,通过Token或托管时长来收费。

GPT系列API可为下游应用提供语言和代码处理

尽管ChatGPT的API尚未对外开放,但我们仍可以通过已开放的Text-davinci-003和Code-davinci-002 API来对其功能进行一定的推测。作为GPT3.5系列模型之一,ChatGPT具备诸如回答问题、分类、编写代码、对话、生成、翻译以及转换等多种实用功能。

ToB:GPT系列已应用到办公应用、智能客服等

办公应用:1)AI辅助编程 :GitHub copilot 可辅助程序员编程,通过Codex在代码编辑器中为整行或某个函数提供建议。2)市 场调研工具:Viable 使用 GPT-3 从客户反馈中提供有用的见解,可以从调查、票证、实时聊天日志、评论等中识别和提取主题 内容和情绪,并在几秒钟内提供内容总结。 智能客服:Algolia和ActiveChat 使用了 GPT-3 来更好地理解客户的问题,并将他们连接到回答他们问题的内容的特定部分。

ToC:GPT系列已应用到学习类于创作类生成

学习类:1)论文检索:GithubElicit是一个人工智能研究助手,通过检索已发表的论文,从大量研究论文中查找最相 关的摘要,并应用 GPT-3 的自定义功能来生成答案。2)语言学习:Duolingo作为一个语言学习平台,已经使用 GPT3 进行法语语法更正。Duolingo 的一项内部研究表明,使用此功能可以显著提高用户的第二语言写作技巧。

创作类:1)Blog创意生成:Blog Idea Generator通过采用搜索关键字来分析该主题在Google里最受欢迎的内容。基 于获取的数据,软件通过GPT-3生成内容来获得更高的阅读量。2)写作造句工具:Compose.ai 是一个免费的Chrome 扩展程序,可使用AI自动进行写作。只需要输入关键字词和主要内容,GPT-3可协助生成完整语句,构成全文。

ToC:GPT系列还应用于娱乐及生活类APP

娱乐类:1)AI驱动游戏:AI Dungeon是一款由AI驱动的基于文本的角色扮演游戏,AI会自动生成故事,玩家可以在 其中输入对话,人工智能将以新的事件和对话作出回应,创造独特且不可预测的游戏体验。2)AI聊天伙伴: WhatsApp 上的AI Buddy是由GPT-3.5驱动的软件,可以和用户进行对话,就像发消息给朋友一样。例如,“给我讲个 笑话”、“给我一个博客构思”等。

生活类:税务助手:Keeper Tax可帮助个人记录税务情况。在关联到个人财务账号后,Keeper Tax用不同模型提取文 本信息并分类交易类型。

应用一:ChatGPT已与搜索引擎相结合

ChatGPT已加入浏览器扩展程序,集成了ChatGPT-4的BING短暂上线 。 ChatGPT已作为扩展程序加入到Chrome、Firefox、Edge等浏览器的应用中;Bing、谷歌等搜索引擎中将接入ChatGPT, 得到自然语言回答。 集成了 ChatGPT-4 的新版 Bing 曾于2月4日短暂上线。据设计师 Owen Yin分享的截图,新版 Bing 的搜索框变为聊天 框,会在聊天气泡中回复用户的问题。新版 Bing 鼓励用户使用自然语言而不是关键字进行搜索,还能够根据用户的要 求调整搜索结果。

应用二:泛娱乐行业应用,包括游戏、直播等方面

元境科技率先接入ChatGPT,结合自研多模态智能算法,完成了行业首个AIGC互动直播功能的落地。 元境科技虚拟数字人已经接入ChatGPT等模型,并已在Tik Tok跨境电商直播、虚拟主播直播互动等场景实现应用,并 形成产品化解决方案。未来,将更加关注数字人与ChatGPT等模型的整合应用,快速扩展到不同行业、不同场景。 行业首个应用此项技术的虚拟主播是虚拟二次元网红CiCi。在最近的一大段时间里CiCi的直播早已替换为了AIGC互动 直播,在测试应用期间一众粉丝均未看出任何异样,同时在使用测试期间粉丝量也持续稳步提升。

类似产品

Claude:谷歌旗下ChatGPT有力竞品

Claude是Anthropic新推出的一款类似于ChatGPT的AI助手,谷歌已经向Anthropic投资约3亿美元。 Anthropic是由前OpenAI的一支研发团队出走成立的人工智能初创公司,大多为 OpenAI 的早期及核心员工,深度参与过OpenAI 的多项课题,比如GPT-3、神经网络里的多模态神经元、引入人类偏好的强化学习等。 根据Financial Times报道,谷歌已经向Anthropic投资约3亿美元。通过这笔交易,谷歌将获得Anthropic约10%的股份,后者要用 这笔钱从前者的云计算部门购买大量计算资源。 Claude目前还处于实验阶段,开创性引入了“宪法人工智能”(Constitutional AI,CAI)的概念。 与RLHF不同,宪法AI的过程使用模型而不是人类来生成微调输出的初始排名,根据一系列基本原则选择最佳回复,即RLAIF。

百度:拥有打造国产ChatGPT能力的公司

百度拥有飞桨(深度学习开源框架)、百度AI大底座(全栈AI基础设施)和文心大模型(AI应用场景全覆盖)。 PaddlePaddle飞桨是中国自主研发的第一个深度学习框架。深度学习框架是在完成深度学习时一套可以复用的代码,使得使用 者在开发深度学习程序时可以不用从复杂的神经网络搭建开始编代码,而是在已有的模型上进行个性化改进。 百度AI大底座:国內首个全栈自研的Al基础设施,面向企业Al开发和应用,提供端到端自主可控、自我进化的解决方案让企业可 以快捷、低成本地实现“Al能力随用随取” 。文心大模型:源于产业、服务于产业,是产业级知识增强大模型。百度通过大模型与国产深度学习框架融合发展,打造了自主创 新的AI底座,大幅降低了AI开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动AI规模化应用的产业价值。

ERNIE:百度基于BERT打造的NLP模型

2月7日,百度官宣其新的大模型项目“文心一言”,英文名ERNIE Bot。 ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架。 ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世 界领先技术,在国际权威的通用语言理解评估基准GLUE上,得分首次突破90分,获得全球第一。 ERNIE在工业界得到了大规模应用,如搜索引擎、新闻推荐、广告系统、语音交互、智能客服等。

ERNIE由BERT进化而来,经过一系列的升级,目前已推出3.0版本。 在 ERNIE 3.0 中,自回归和自编码网络被创新型地融合在一起进行预训练。 自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务,持续的进行语义理解学习。 通过新增的实体预测、 句子因果关系判断、文章句子结构重建等语义任务进行预训练;同时,创新性地增加了知识增强的预训练任务。 自回归网络基于 Tranformer-XL 结构,支持长文本语言模型建模。多范式的统一预训练模式使得 ERNIE 3.0 能够在理 解任务、生成任务和零样本学习任务上获取 SOTA 的表现。

报告节选:

AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨
AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。

AI领导者OpenAI:ChatGPT月度用户突破亿,商业化之路探讨

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!