数学符号
数与数组
α 标量
α 向量
A 矩阵
A 张量
In n行n列单位矩阵
vw 词w的分布式向量表示
ew 词w的独热向量表示:[0,0,···,1,0,···,0],w下标处元素为1
索引
αi 向量α中索引i处的元素
α-i 向量α中除索引i之外的元素
wi:j 序列w中从第i个元素到第j个元素组成的片段或子序列
Aij 矩阵A中第i行、第j列的元素
Ai: 矩阵A中第i行
A:j 矩阵A中第j列
Aijk 三维张量 A中索引为(i,j,k)的元素
A::i 三维张量 A中的一个二维切片
集合
A 集合
R 实数集
C 复数集
{0,1,···,n} 含0和n的正整数的集合
[a,b] a到b的实数闭区间
(a,b] a到b的实数左开右闭区间
线性代数
A⊤ 矩阵A的转置
A⊙B 矩阵A与矩阵B的Hadamard乘积
det(A) 矩阵A的行列式
[x;y] 向量x与y的拼接
[U;V] 矩阵U与V沿行向量拼接
x·y或x⊤y 向量x与y的点积
微积分
y对x的导数
y对x的偏导数
▽xy y对向量x的梯度
▽Xy y对矩阵X的梯度
▽Xy y对张量 X的梯度
概率与信息论
a⊥b 随机变量a与b独立
a⊥b|c 随机变量a与b关于c条件独立
P (a) 离散变量概率分布
p(a) 连续变量概率分布
a~P 随机变量a服从分布P
Ex~P(f(x))或E(f(x)) f(x)在分布P(x)下的期望
Var(f(x)) f(x)在分布P(x)下的方差
Cov(f(x),g(x)) f(x)与g(x)在分布P(x)下的协方差
H (f(x)) 随机变量x的信息熵
DKL(P‖Q) 概率分布P与Q的KL散度
N(μ,Σ) 均值为μ、协方差为Σ的高斯分布
数据与概率分布
X或D 数据集
x(i) 数据集中第i个样本(输入)
y(i)或y(i) 第i个样本x(i)的标签(输出)
函数
f:A-→B 由定义域A到值域B的函数(映射)f
f ◦g f与g的复合函数
f (x;θ) 由参数θ定义的关于x的函数(也可以直接写作f(x),省略θ)
log x x的自然对数函数
σ(x) Sigmoid函数
||x||p x的Lp范数
||x|| x的L2范数
1condition 条件指示函数:如果condition为真,则值为1;否则值为0
本书中常用写法
• 给定词表V,其大小为|V|
• 序列x=x1,x2,···,xn中第i个词xi的词向量为
• 损失函数L为负对数似然函数:L(θ)=-∑(x,y)log P(y|x1···xn)
• 算法的空间复杂度为O(mn)