大模型目前有什么经典必读的论文可以推荐的么？

参与3

1同行回答
全部行业
全部行业 软件开发
|
按赞同排序
按时间排序

匿名用户

可以看下综述文章《a survey of large language models》，一些重要研究在里面都有提到

软件开发 · 2023-10-30

关于大模型和大语言模型，以下是一些经典的论文推荐：

"Attention Is All You Need" (Vaswani等人，2017)：这篇论文提出了Transformer模型，它是目前最流行的用于自然语言处理的大模型之一。
"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding" (Devlin等人，2018)：这篇论文介绍了BERT模型，它是目前最流行的用于自然语言处理的大语言模型之一。
"GPT-2: Language Models are Unsupervised Multitask Learners" (Radford等人，2019)：这篇论文介绍了GPT-2模型，它是一个非常大的语言模型，可以生成高质量的自然语言文本。
"XLNet: Generalized Autoregressive Pretraining for Language Understanding" (Yang等人，2019)：这篇论文介绍了XLNet模型，它是一种新型的语言模型，采用了一种全新的预训练方法，可以更好地处理自然语言的复杂性。
"T5: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer" (Raffel等人，2019)：这篇论文介绍了T5模型，它是一种通用的文本到文本转换模型，可以用于各种自然语言处理任务。

以上论文都是目前非常重要的大模型和大语言模型的代表作，值得深入研究和探讨。