文章主题:ChatGPT, AI 竞赛, 开源模型, 自然语言处理

666AI工具大全,助力做AI时代先行者!

ChatGPT的五大开源替代方案

译者 | 李睿

自去年11月面世以来,ChatGPT已引起全球各行各业人士的关注和思考。它的应用范围广泛,不仅能够处理各种任务,还能在潜在的领域中挖掘创新可能性,甚至有望颠覆现有的应用程序,从而开创全新的应用场景

本文介绍了ChatGPT的五大开源替代方案,重点关注了FAIR公司发布的LLaMA模型文章分析了封闭式LLM的优势和局限性,以及开源模型在促进人工智能领域研究

ChatGPT的出现不仅引发了微软和谷歌等科技巨头之间的人工智能竞赛,还加剧了他们在大型语言模型(LLM)领域的竞争,使得该行业的开放性越来越低。大多数遵循指令的LLM的源代码、模型架构、权重和训练数据都不对公众公开,少数可以通过商业API或黑盒网络应用程序获取。这种保密性对于人工智能技术的发展和应用带来了一定的负面影响,因为人们无法了解和评估模型的性能和可靠性,也无法对其进行有效的监督和审查。因此,有必要加强对LLM的开放性和透明度,促进人工智能技术的健康发展和广泛应用。

封闭式语言模型如ChatGPT、Bard和Claude等,尽管具有获取尖端技术的优势,但却给那些希望深入学习和理解此类模型的高校和研究机构,以及希望建立和运营自己模型的企业和组织带来了诸多不便。

很幸运的是,在开发商业LLM的过程中,有一个社区致力于构建与最先进的LLM表现相媲美的开源模型。这些模型的研究成果可以被共享以促进研究的优化。此外,这些努力还有助于防止一些财力雄厚的企业对LLM市场产生过度的影響和控制权。

LLaMa

作为最重要的开源语言模型之一,LLaMA 是由 Meta 公司的人工智能研究实验室 FAIR 开发的。今年2月,FAIR 推出了 LLaMA,这是一个包含四种不同规模参数的 LLM 家族,分别为 7 亿个、13 亿个、33 亿个和 650 亿个参数。值得注意的是,LLaMA 是基于 ChatGPT 的 InstructGPT 模型,其参数数量约为 1750 亿个。

训练模型是人工智能领域中的一个重要环节。最近,FAIR的研究人员对两种不同大小的语言模型进行了训练,分别是1.4万亿个LLaMA 65B和LLaMA 33B,以及1万亿个LLaMA 7B。这些模型的训练都使用了大量的令牌,其中LLaMA 7B的训练规模最小,只有1万亿个令牌。与此同时,作为 InstructGPT 的基本模型,GPT-3 175B 在4990亿个令牌上进行了训练。这些训练工作不仅展示了人工智能技术的进步,也为我们更好地理解和应用这些模型提供了可能。

LLaMa并不像ChatGPT那样是一个仅仅遵循指令的LLM。尽管如此,LLaMA的小型规模背后的理念在于,预先在众多令牌上进行训练的较小型模型更易于重置并针对特定的任务和场景进行微调。这使得其他研究者能够通过应用人类反馈强化学习(RLHF)等方法对模型进行微调,从而达到类似于ChatGPT的表现。换言之,虽然LLaMa与ChatGPT在设计和功能上有所不同,但在实际应用中,它们都具备了灵活性和可塑性,可以适应各种不同的场景和任务需求。

Meta公司发布了一个专注于研究用例的非商业许可模型。该模型的使用仅限于学术研究人员、政府附属组织、民间社会和研究实验室,具体使用情况需视具体情况而定。若想深入了解该模型,公众可查阅相关论文,并可向 trained-model@meta.com申请访问训练过的模型。

LLaMa模型在发布后不久就被泄露到网上,这实际上让所有人都可以使用它。

Alpaca

本文介绍了ChatGPT的五大开源替代方案,重点关注了FAIR公司发布的LLaMA模型文章分析了封闭式LLM的优势和局限性,以及开源模型在促进人工智能领域研究

在今年三月份,斯坦福大学的科研团队推出了一项名为Alpaca的新研究。该项目的核心是基于LLaMA 7B LLM的一种指令形式。值得注意的是,Alpaca的训练过程是在 InstructGPT 生成的52,000个指令数据集上进行的,这个数据集包含了大量的实际应用场景。通过对这个数据集进行分析,科研人员对LLaMA模型进行了精细的调整和优化。

研究人员使用了一种叫做自我指导的技术,在这种技术中,LLM生成指令、输入和输出样本来微调自己。自我指导从一小部分工作人员编写的例子开始,包括指导和输出。研究人员使用这些例子来提示语言模型生成类似的例子。然后他们审查和过滤生成的示例,将高质量的输出添加到种子池中,并删除其余的输出。他们重复这个过程,直到获得足够大的数据集来微调目标模型。

本文介绍了ChatGPT的五大开源替代方案,重点关注了FAIR公司发布的LLaMA模型文章分析了封闭式LLM的优势和局限性,以及开源模型在促进人工智能领域研究Alpaca的训练流程

根据他们的初步实验,Alpaca的表现与InstructGPT非常相似。

斯坦福大学的研究人员发布了整个自我指导的数据集,数据生成过程的细节,以及生成数据和微调模型的代码(由于Alpaca是基于LLaMA的,必须从Meta公司获取原始模型)。

其研究人员表示,其样品生成的微调成本不到600美元,这对于资金紧张的实验室和组织来说很适用。

然而,研究人员强调,Alpaca仅用于学术研究,禁止用于任何商业用途。它是由LLaMa创建的,这使得它受到与其基本模型相同的许可规则的约束。由于研究人员使用了InstructGPT来生成微调数据,因此他们必须遵守OpenAI公司的使用条款,该条款禁止开发与OpenAI公司竞争的模型。

Vicuna

加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的研究人员发布了Vicuna,这是基于LLaMA的遵循指令的另一个LLM。Vicuna有70亿个和130亿个参数的两种大小。

研究人员使用Vicuna的训练代码和ShareGPT上的7万个例子对Vicuna进行了微调。ShareGPT是一个用户可以与ChatGPT分享对话的网站。他们对训练过程做了一些改进,以支持更长的对话场景。他们还使用了SkyPilot机器学习工作量管理器,将训练成本从500美元降至140美元左右。

本文介绍了ChatGPT的五大开源替代方案,重点关注了FAIR公司发布的LLaMA模型文章分析了封闭式LLM的优势和局限性,以及开源模型在促进人工智能领域研究Vicuna的LLM训练流程

初步评估表明,Vicuna的表现优于LLaMA和Alpaca,也非常接近Bard和ChatGPT-4。研究人员发布了模型权重以及安装、训练和运行LLM的完整框架。还有一个非常有趣的在线演示,用户可以在其中测试和比较Vicuna与其他开源指令LLM。

Vicuna的在线演示是“仅供非商业用途的研究预览”。用户要运行自己的模型,必须首先从Meta获取LLaMA实例并对其应用权重增量。

Dolly

Databricks公司在今年3月发布了Dolly,这是EleutherAI的GPT-J 6B的微调版本。研究人员受到LLaMA和Alpaca研究团队所做工作的启发。训练Dolly的费用不到30美元,只需在一台计算机上花费30分钟训练。

EleutherAI基础模型的使用消除了Meta对LLaMA衍生LLM的限制。然而,Databricks根据Standford Alpaca团队通过ChatGPT生成的相同数据训练Dolly。因此,由于OpenAI公司对ChatGPT生成的数据施加了竞业限制,该模型仍然不能用于商业目的。

Databricks公司在今年4月发布了Dolly 2.0,这是一个基于EleutherAI的Pythia模型的具有120亿个参数的大型语言模型。这一次,Databricks公司在15000个示例数据集上对模型进行了微调,这些示例完全由人类生成。他们通过一个有趣的、游戏化的过程收集了这些例子,其中包括Databricks公司的5000名员工。

Databricks公司发布了训练有素的Dolly 2.0模型,它没有以前模型的条款限制,用户可以将它用于商业目的。Databricks公司还发布了15K指令遵循语料库,用于微调Pythia模型。机器学习工程师可以使用这个语料库来微调他们自己的LLM。

Open Assistant

本文介绍了ChatGPT的五大开源替代方案,重点关注了FAIR公司发布的LLaMA模型文章分析了封闭式LLM的优势和局限性,以及开源模型在促进人工智能领域研究

Open Assistant是一个非常有趣的项目,这是一个类似于ChatGPT的语言模型,从一开始就以防止大公司垄断LLM市场为目的。

其研究团队将开放他们所有的模型、数据集、开发、数据收集等,这是一项全面、透明的社区努力结果。所有参与该项目的人员都是志愿者,致力于开放性。

观看其联合创始人兼团队负责人Yannic Kilcher的娱乐视频,可以了解Open Assistant的最佳方式。Kilcher长期以来一直直言不讳地批评OpenAI等公司采取的封闭方式。

Open Assistant有基于LLaMA和Pythia的不同版本。用户可以将Pythia版本用于商业目的。大多数模型可以在单个GPU上运行。

来自世界各地的13000多名志愿者帮助收集了用于微调基本模型的样本。该团队将很快发布所有数据以及一篇解释该项目的论文。经过训练的模型可以在Hugging Face上找到。该项目的GitHub页面包含用于训练模型和使用模型的前端的完整代码。

该项目还有一个网站,用户可以在那里与Open Assistant聊天并测试模型。它有一个任务仪表板,用户可以通过创建提示或标记输出来为项目做出贡献。

开源之美

最近推出开源LLM的努力为科技公司重振合作和共享权力的承诺做出了很大贡献,而这正是互联网最初的承诺。它展示了所有这些不同的社区如何相互帮助,共同推动这一领域的发展。

LLaMA的开源模型帮助推动了这场运动。Alpaca项目表明,创建调整指令的LLM不需要付出巨大的努力和成本。这反过来又激发了Vicuna项目的灵感,该项目进一步降低了训练和收集数据的成本。Dolly则朝着不同的方向努力,展示了社区主导的数据收集工作的好处,以解决商业模型的竞业限制要求。

当然,还有其他几个值得一提的模型,包括加州大学伯克利分校的Koala和LLaMA.cpp, LLaMA .cpp是LLaMA模型的C++实现,可以在ARM处理器上运行。在接下来的几个月,观察开源运动将如何发展以及它将如何影响LLM市场,将成为一件有趣的事情。

原文标题:A look at open-source alternatives to ChatGPT,作者:Ben Dickson返回搜狐,查看更多

责任编辑:

本文介绍了ChatGPT的五大开源替代方案,重点关注了FAIR公司发布的LLaMA模型文章分析了封闭式LLM的优势和局限性,以及开源模型在促进人工智能领域研究

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!