transformer理解
2024-10-20
| 2024-12-8
0  |  Read Time 0 min
type
status
date
slug
summary
tags
category
icon
password
 
主要是依据这个视频来做一个理解:
 
 
 
这是一个系列,时常看看都会对里面的概念有一个回顾
 
 
transformer模型的工作流程:
 
  • Tokens: 文本的基本单位,可以是单词、子词或字符。
  • Vectors (Embeddings): 每个token的数值表示,包含语义信息。
  • Attention: 允许模型关注输入的不同部分,捕捉上下文关系。
  • Feed-Forward Networks: 在每个位置上独立应用,增强模型的表达能力。
  • 概率分布: 表示模型对每个可能的下一个token的置信度。
 
 
word embeddings:
模型就是在高维度空间学习words
 
dot product:
模型用向量乘积来measure相似度
The dot product of two vectors is positive when they point in similar directions, zero if they are perpendicular, and negative if they point in opposite directions
 
softmax:
确保probabilities是在0到1之间,then they sum to 1
 
temperature
越高的值,整个output会更diverse和creative,但是也可能更nonsense。就是说输出的话,就是选一个概率最大的,如果temperature越低就是把最有可能的值可能拉到100%但其他都是0,然后越高的话,越diverse。
notion image
 
 
 

self-attention

 
类似于:
就像你在听讲座时,会对某些重点内容给予更多关注,忽略次要的内容,Attention 机制也让模型只关注输入中最相关的部分,从而提高效率和准确性
 
  • 选择性关注:Attention 模型也是这样工作的。当它处理一个输入(比如一句话)时,它不会平等地处理每个词。相反,它会根据任务需要,选择性地“关注”最重要的词,并给这些词分配更多“注意力”(权重)。
  • 相关性:比如在句子中,如果你想理解主语和动词之间的关系,Attention 机制会自动判断哪些词对当前任务最重要,并给予这些词更高的注意力。
  • 加权求和:Attention 机制会根据这些分配的“注意力权重”进行加权,把最重要的信息提取出来,忽略那些不太重要的部分
 
attention机制就是在模型处理中选择性关注其中和任务最相关的部分。
 
query,key,value是最重要的三样东西。
query:当前模型处理的对象,比如可能是要翻译的某个单词。“question” about the context
key:potential answer to the query
value:与 Key 相关,表示与 Key 相关的实际信息内容。当模型决定要关注哪个 Key 时,最终获取的 Value 信息将用于模型的后续处理
通常就用dot production来计算每个query 和 key pair。 越大越相关,就会越关注这个key。
用了softmax normalized之后,就是attention pattern。
加权求和就是对value进行 vectors在attention pattern进行求和,代表了当前query所关注到的最有用的信息。
 
类比:
假设你在图书馆找资料,你问了图书管理员一个问题:
  1. Query:你的问题,比如“我要找关于人工智能的书”。
  1. Key:图书管理员会看每本书的关键词和简介来判断哪些书最符合你的问题。
      • 书的关键词和简介就是 Key,它们告诉图书管理员这本书和你的问题有多相关。
  1. Value:书的实际内容。这是你真正需要的有用信息。
      • 一旦图书管理员通过 Key 判断哪本书和你的问题最相关,他就会把这些相关的书(Value)递给你。
 
Multi-Headed Attention: To capture different types of contextual relationships, multiple attention heads are used in parallel. Each head has its own set of query, key, and value matrices, allowing it to focus on different aspects of the context. GPT-3 uses 96 attention heads per block
MySQL基础RAG的学习
Loading...
Catalog