Transformer学习笔记:自注意力与多头注意力

写在前面 我一直想搞明白"大模型到底是怎么工作的"。结果一搜资料,铺天盖地都是 Transformer、Attention、QKV 这些词。硬着头皮去读那篇 Attention Is All You Need,说实话第一遍读下来是懵的。 后来花了几个周末,找了不少博客、视频、代码实现,才慢慢把整个拼图拼起来。这篇文章就是我自己的学习笔记,从我最开始困惑的地方写起,希望能帮到同样在自学的人。 一、为什么需要注意力机制 在 Transformer 之前,做序列任务的主流方案是 RNN 和 LSTM。它们在处理"一句话"这样的序列数据时,是一个词一个…
Read more...

我理解的 Solidity 存储模型:Storage、Memory 与 Calldata

写在前面 刚开始学 Solidity 的时候,我觉得 Storage、Memory、Calldata 不就是"变量放哪儿"的区别嘛,能有多复杂?直到我写了一个 Token 合约,改了个用户的余额,链上查的时候发现余额纹丝不动——代码没报错,测试也过了,但数据就是没写进去。 后来排查了半天才发现:我把 storage 写成了 memory,改的是副本,链上的数据根本没动。 这件事之后我才认真去搞 EVM 的存储模型到底是怎么回事。这篇文章就是那时候的笔记,把踩过的坑和学到的东西都记下来。 一、先搞清楚三者的本质 维度StorageMemoryCa…
Read more...