从那时起,GPT 的第一个版本
Posted: Tue Mar 18, 2025 7:19 am
虽然监督学习在某些情况下是有效的,但训练数据集的制作成本非常高。即使是现在,也没有那么多经过适当标记和分类的数据可用于训练 LLM。
认识你的新 AI 队友
尝试 Zapier 代理
谷歌的 LLM 于 2018 年推出BERT ,情况发生了变化。它使用了 Transformer 模型(最早在2017 年的一篇研究论文中提出),从根本上简化了 AI 算法的设计方式。它允许并行计算(同时进行),这意味着训练时间大大减少,并且使模型更容易在非结构化数据上进行训练。它不仅使 AI 模型变得更好,还使它们的生产速度更快、成本更低。
记录在 2018 年发表的一篇论文中,GPT-2于次年 华侨资料 发布。它能够一次生成几个句子,然后情况就会变得奇怪。虽然两者都代表了人工智能研究领域的重大进步,但都不适合大规模的实际使用。随着2020 年 GPT-3 的推出,这种情况发生了改变。虽然它花了一段时间——以及 GPT-3.5 和 ChatGPT 的推出——才真正起飞,但它是第一个真正有用、广泛使用的 LLM。
这就是为什么 GPT 目前在 LLM 领域大受欢迎,尽管它远非唯一可用的大型语言模型。此外,OpenAI 还在不断升级——最近推出了 GPT-4.5。
这张信息图显示了 OpenAI、Google、Anthropic 和 Meta 的法学硕士和聊天机器人的名称
GPT 如何工作?
“生成式预训练 Transformer 模型”实际上只是对 GPT 模型系列的功能、设计方式和工作方式的描述。
我将以 GPT-3 为例,因为这是我们拥有最具体信息的模型,尽管所有 GPT 模型都使用相同的方法。(不幸的是,多年来,OpenAI 对其流程变得更加保密。)
认识你的新 AI 队友
尝试 Zapier 代理
谷歌的 LLM 于 2018 年推出BERT ,情况发生了变化。它使用了 Transformer 模型(最早在2017 年的一篇研究论文中提出),从根本上简化了 AI 算法的设计方式。它允许并行计算(同时进行),这意味着训练时间大大减少,并且使模型更容易在非结构化数据上进行训练。它不仅使 AI 模型变得更好,还使它们的生产速度更快、成本更低。
记录在 2018 年发表的一篇论文中,GPT-2于次年 华侨资料 发布。它能够一次生成几个句子,然后情况就会变得奇怪。虽然两者都代表了人工智能研究领域的重大进步,但都不适合大规模的实际使用。随着2020 年 GPT-3 的推出,这种情况发生了改变。虽然它花了一段时间——以及 GPT-3.5 和 ChatGPT 的推出——才真正起飞,但它是第一个真正有用、广泛使用的 LLM。
这就是为什么 GPT 目前在 LLM 领域大受欢迎,尽管它远非唯一可用的大型语言模型。此外,OpenAI 还在不断升级——最近推出了 GPT-4.5。
这张信息图显示了 OpenAI、Google、Anthropic 和 Meta 的法学硕士和聊天机器人的名称
GPT 如何工作?
“生成式预训练 Transformer 模型”实际上只是对 GPT 模型系列的功能、设计方式和工作方式的描述。
我将以 GPT-3 为例,因为这是我们拥有最具体信息的模型,尽管所有 GPT 模型都使用相同的方法。(不幸的是,多年来,OpenAI 对其流程变得更加保密。)