Transformer学习笔记:自注意力与多头注意力
写在前面
我一直想搞明白"大模型到底是怎么工作的"。结果一搜资料,铺天盖地都是 Transformer、Attention、QKV 这些词。硬着头皮去读那篇 Attention Is All You Need,说实话第一遍读下来是懵的。
后来花了几个周末,找了不少博客、视频、代码实现,才慢慢把整个拼图拼起来。这篇文章就是我自己的学习笔记,从我最开始困惑的地方写起,希望能帮到同样在自学的人。
一、为什么需要注意力机制
在 Transformer 之前,做序列任务的主流方案是 RNN 和 LSTM。它们在处理"一句话"这样的序列数据时,是一个词一个…
Read more...