gemm

transformer完全改变了2017年后nlp领域的模型

发表于 2025-08-22 bertgpt layernorm softmax

Transformer完全改变了2017年后NLP领域的模型方向从某种意义上说BertGPT等模型都是Transformer模型的变体虽然模型结构有各种改变但是其中的一些基本计算单元则变化较小. Transformer几乎就是为了改善计算性能而专门设计的模型. 完全没有RNN之类的循环计算需求这就极大降低了计算过程中的顺序依赖可以极大提高并行性. 正是由于Transformer使用到的基本计算单元非常简单几乎就只有 gemm +-*/ layernorm softmax 也没有奇怪的计算流程所以原文的作者将其称为一个"简单"的模型是很有道理的. 本文就是简单记录Transfomer中使用到的基本计算单元. 属于未分类分类。作者是edimetia3d。

初始化的方法主要做一件事情分配内存，初始化参数

发表于 2025-08-31 tensor gemm darknet

初始化的方法主要做一件事情分配内存，初始化参数。这里比较关心权重初始化的值是多少，因为会影响到模型训练。固定写死的方法，都是 [-scale scale]的均匀分布， scale 是根据输入大小计算的，在这里的输入大小就是 batch 的大小