核心特性
Token 词元
语言的最小语义单元,将文本切分为可计算的向量,承载着意义的原子
Transformer
革命性的神经网络架构,通过自注意力机制实现并行计算与全局依赖建模
Self-Attention
让每个词元关注全局上下文,捕捉长距离依赖与语义关联的核心机制
词元的智慧之舞
词元(Token)是语言模型理解世界的最小单位。 在 Transformer 架构中,每个词元通过自注意力机制相互连接, 形成复杂的语义网络。词元跳动象征着智能的涌现与流动。
class SelfAttention {
forward(Q, K, V) {
// Attention(Q, K, V) = softmax(QK^T / √d_k) V
const scores = Q.matmul(K.transpose());
const scaled = scores.div(Math.sqrt(d_k));
const weights = softmax(scaled);
return weights.matmul(V);
}
}
// 每个词元都在跳动,相互关注
const tokens = ['词', '元', '跳', '动'];
attention.forward(tokens);