Mistral 和 Phi – 小型(微调)语言模型的革命?

Showcase, discuss, and inspire with creative America Data Set.
Post Reply
suchona.kani.z
Posts: 261
Joined: Sat Dec 21, 2024 5:23 am

Mistral 和 Phi – 小型(微调)语言模型的革命?

Post by suchona.kani.z »

在人工智能 (AI) 领域,人们通常认为模型越大越好。然而,最近的研究表明,以前被认为只是大型语言模型的中间步骤的较小语言模型在各种应用中的表现优于或至少与大型语言模型 (LLM) 的性能相当。

GPT-4等法学硕士的发展在自然语言理解和生成方面展现了卓越的能力,但也存在高能耗、大内存需求和高计算成本等显着缺点。因此,研究人员正在研究更小的语言模型的潜力,这些模型在某些应用中可能更高效、更通用。

新技术和研究表明,较小的语言模型经过改进后,在某些任务上可以比较大的语言模型表现相似甚至更好。他们还可以利用现有知识,通过迁移学习等技术更有效地适应特定任务。

发展历程
OpenAI 的 GPT-3 和 GPT-4 或 Aleph Alpha 的 Luminous 等大型语言模型 医疗保险线索电子邮件列表 近年来取得了重大进展,很大程度上是由于这些模型的规模不断增加。这种发展的原因在于“放大”假设,该假设指出,更大的模型能够识别其训练的数据中更复杂和微妙的模式。更大的模型能够更好地捕捉人类语言的多样性和复杂性。这通常会带来更好的预测和更相关的答案。这已在许多基准测试和测试中得到证明,其中较大的模型比较小的模型表现更好。然而,这些较大的模型也有缺点:它们在计算能力和数据方面都需要更多的资源来进行训练和操作。它们也可能更难以控制并提供意外或不适当的响应。尽管存在这些挑战,模型大小的持续扩展有助于提高语言模型的性能并实现新的用例。


这些图表表明,准确性随着尺寸的增加而增加。这对应于更多参数会带来更好结果的假设,来源:大型语言模型的紧急能力

数据质量胜过规模
研究人员现在不再添加越来越多的参数,而是专注于更好地利用数据和更有效的训练策略。假设:训练有素的较小模型可能胜过训练不良的较大模型。

龙猫
Google Deep Mind 的“Chinchilla”提供了有关训练大型语言模型(LLM)的深入研究。作者指出了 LLM 训练过程中的一个“最佳点”,超过该点增加参数数量并不一定会提高性能。

他们还强调训练数据的质量和大小的关键作用,而不仅仅是关注模型的大小。本论文使用“Chinchilla”进行了实证测试,该模型具有 700 亿个参数,在 14 亿个代币的数据集上进行训练。尽管其规模相对较小,但 Chinchilla 在几乎所有评估指标上都表现出了优于 2800 亿参数“Gopher”模型的性能。这些结果可能对法学硕士的未来发展和培训产生重要影响。

作者不仅比较了模型的性能,还比较了模型在所使用的计算能力方面的效率。这方面尤为重要,因为训练大型语言模型 (LLM) 需要大量的计算资源,这会产生财务和环境影响。

研究表明,尽管模型尺寸较小,但 Chinchilla 的性能优于 Gopher,同时需要更少的训练和推理计算能力。这意味着Chinchilla不仅在性能上有优势,而且在效率上也有优势。

最后,该研究为优化法学硕士的培训提供了重要的见解。作者指出,仅增加模型大小不足以提高性能。相反,应该在模型大小与训练数据的数量和质量之间寻求平衡。
Post Reply