2022年底,大型语言模型(LLMs)在互联网上掀起了一场风暴,因为OpenAI的ChatGPT在推出后仅5天就达到了100万用户。ChatGPT的能力和广泛的应用可以归功于GPT-3语言模型拥有的1750亿个参数。
虽然使用像ChatGPT这样的终端产品语言模型很容易,但开发一个大型语言模型需要大量的计算机科学知识、时间和资源。我们创建这篇文章是为了帮助大家对大型语言模型训练有基础的了解:
- 大型语言模型的定义
- 大型语言模型的例子
- 大型语言模型的架构
- 大型语言模型的训练过程
以便他们能够有效地利用人工智能和机器学习。
什么是大型语言模型?
大型语言模型是一种机器学习模型,它在大量的文本数据上进行训练,为各种自然语言处理(NLP)任务产生输出,如文本生成、问题回答和机器翻译。
大型语言模型通常基于深度学习神经网络,如Transformer架构,并在大量的文本数据上进行训练,通常涉及数十亿字。较大的模型,如谷歌的BERT模型,是用来自各种数据源的大型数据集进行训练的,这使得它们能够为许多任务产生输出。
如果你是大型语言模型的新手,请查看我们的 “大型语言模型完整指南” 一文。
按参数大小排列的顶级大型语言模型
我们在下面的表格中按参数大小汇编了7个最大的大型语言模型。
模型 | 开发者 | 参数大小 |
---|---|---|
WuDao 2.0 | Beijing Academy of Artificial Intelligence | 1.75 trillion |
MT-NLG | Nvidia and Microsoft | 530 billion |
Bloom | Hugging Face and BigScience | 176 billion |
GPT-3 | OpenAI | 175 billion |
LaMDA | 137 billion | |
ESMFold | Meta AI | 15 billion |
Gato | DeepMind | 1.18 billion |
原文地址:https://www.wbolt.com/large-language-model-training.html