大型语言模型入门必知术语汇总

在本文中,我将以一种非数据科学家易于理解的方式分解与LLM和AI相关的一些基本术语和概念。我将涵盖从神经网络到数据增强的所有内容,并为每个术语提供简单的解释和示例。

  1. 人工智能(AI) :它就像一个智能机器人,可以像人类一样思考和做事。人工智能帮助计算机解决问题、做出决策并理解我们的语言。示例:iPhone 上的 Siri。

  2. 深度学习:这是计算机从许多例子中学习的一种方式,比如你如何从经验中学习。深度学习使用称为神经网络的特殊计算机程序来查找数据中的模式。示例:计算机学习识别图片中的猫。

  3. 神经网络:一种像人脑一样工作的计算机程序,使用连接的节点(如脑细胞)分层。示例:可以玩视频游戏的计算机“大脑”。

  4. Transformer:谷歌创建的一种特殊类型的神经网络,用于更好地理解和生成语言。示例:可以像朋友一样与您聊天的计算机。

  5. 大型语言模型(LLM):一种计算机程序,通过研究大量文本来学习理解和创建人类语言。示例:可以编写故事或回答问题的计算机。

  6. 参数:神经网络中在训练期间进行调整以帮助其学习的部分。示例:就像调整吉他以使其听起来更好。

  7. 位置编码:Transformer 记住句子中单词顺序的一种方式。示例:记住“狗追猫”与“猫追狗”不同。

  8. 自我注意(Self-Attention):Transformer专注于句子中最重要的部分的一种方式。示例:知道“蛋糕”是“我想吃蛋糕”中的关键词。

  9. 编码器:Transformer 的一部分,帮助它理解并记住你告诉它的内容。示例:计算机记住问题“今天的天气怎么样?

  10. 解码器:Transformer 的一部分,可帮助它创建响应或答案。示例:计算机回答:今天的天气晴朗而温暖。

  11. BERT:一种 Transformer 模型,可帮助计算机理解语言,以执行诸如猜测人们对电影的看法之类的任务。示例:知道评论是正面还是负面的计算机。

  12. GPT-3 和 GPT-4:一种 Transformer 模型,可帮助计算机像人类一样生成文本,例如完成句子或撰写摘要。示例:一台计算机为您编写读书报告。

  13. T5:擅长理解和生成文本的 Transformer 模型,例如将一种语言翻译成另一种语言。示例:可以将英语翻译成西班牙语的计算机。

  14. 无监督学习:当计算机在没有被告知什么是对或错的情况下学习模式时。示例:一台计算机学习将相似的图片组合在一起。

  15. 基础模型:大型AI模型,如LLM,可用于许多不同的任务。示例:可以帮助完成家庭作业、写电子邮件和讲笑话的计算机。

  16. 零样本学习(Zero-Shot Learning):当计算机无需接受训练即可完成任务时。示例:无需先练习即可玩新游戏的计算机。

  17. 少样本学习(Few-Shot Learning):当计算机只需几个例子就可以学习新任务时。示例:一台计算机,可以在听一两次后学习您喜欢的歌曲。

  18. 微调:调整经过训练的模型以更好地完成特定任务。示例:教计算机理解和回答有关恐龙的问题。

  19. 提示调优:改变您向计算机提问以获得更好答案的方式。示例:问“法国的首都是什么?”而不是“巴黎在哪里?”

  20. 适配器(Adapters):您可以添加到训练模型的微小部件中,以帮助它完成特定任务,而无需对其进行太多更改。示例:在不更改整个游戏的情况下向电脑游戏角色添加新技能。

  21. 自然语言处理(NLP):教计算机理解、解释和创建人类语言。示例:可以与您聊天或阅读您的论文的计算机。

  22. 自然语言理解(NLU):教计算机理解和寻找人类语言的含义。示例:一台知道“我喜欢猫”和“我不喜欢猫”之间区别的计算机。

  23. 自然语言生成(NLG):教计算机创建类似人类的文本。示例:可以写故事或诗歌的计算机。

  24. token化(Tokenization):将文本分解为单词或单词的一部分,称为标记,以帮助计算机理解语言。示例:将句子“我有一只狗”拆分为标记:“我”、“有”、“一只”和“狗”。

  25. 词汇:计算机程序可以理解的独特单词或标记集。示例:计算机知道单词“苹果”、“香蕉”和“橙子”,但不知道“猕猴桃”。

  26. 预训练:训练LLM的第一步,它从大量文本中学习语言。示例:一台计算机阅读大量书籍和文章以学习如何写作。

  27. 迁移学习:使用计算机从一个任务中学到的知识来帮助它完成另一个相关的任务。示例:一台计算机,它学会了识别猫,使用该知识来识别狗。

  28. 序列到序列 (Seq2Seq) 模型:一种将一个序列(如文本)更改为另一个序列(如翻译)的模型。示例:计算机将英语文本转换为法语文本。

  29. 注意力机制:计算机在创建输出时专注于输入重要部分的一种方式。示例:计算机知道“披萨”是“我想吃披萨”中最重要的词。

  30. 波束搜索(Beam Search):一种在计算机生成文本时查找最佳单词序列的方法。示例:计算机选择句子中最有可能的下一个单词。

  31. 困惑(Perplexity):一种衡量计算机预测文本能力的方法。示例:较低的困惑度意味着计算机更善于猜测句子中下一个单词。

  32. 上下文学习:当计算机可以根据输入更改其行为时,无需额外的培训。示例:一台计算机在谈论体育后知道如何回答有关体育的问题。

  33. 数据增强:通过创建新样本(如改写句子)使数据集更大、更多样化。示例:将“猫在垫子上”更改为“猫坐在垫子上”。

  34. 偏差:当计算机因其训练数据不平衡或不具有代表性而犯错误时。示例:计算机认为所有医生都是男性,因为它主要阅读有关男性医生的信息。

  35. 可解释的AI(XAI):使计算机的决策过程更容易被人类理解。示例:一台计算机解释为什么它认为某部电影是喜剧。