文:孙亚楠
近日,李航老师最新著作《机器学习方法(第2版)》由清华大学出版社正式出版发行,这是作者历时7年,对《统计学习方法》的升级终极版本,中间历经2022年出版的《机器学习方法》第1版,完成了最终版。在内容上,覆盖了传统机器学习(即统计机器学习)、深度学习以及强化学习领域中最为基础且最为广泛使用的方法,力求为读者呈现一幅完整且清晰的机器学习技术画卷。
《机器学习方法(第2版)》
清华大学出版社
2025年7月出版
在人工智能浪潮席卷全球、重塑各行业发展格局的当下,机器学习作为驱动AI技术落地的核心引擎,持续吸引着研究者、开发者与学习者的目光。随着深度学习在近年来取得的突破性进展,其已成为机器学习领域的主流研究与应用方向;大语言模型如ChatGPT的横空出世以及智能体的提出与实践,使得强化学习再次成为焦点。一本仅覆盖传统机器学习的书籍,已无法全面反映当前机器学习技术的全貌以及满足读者的需求。此前,李航老师的《统计学习方法》可以说是机器学习的经典必读书籍,被读者称为机器学习领域的蓝宝书,已累计出版发行35万册,在此基础上,李航老师又推出了《机器学习方法(第2版)》,新增第3篇深度学习和第4篇强化学习,为系统学习机器学习技术提供了完整的学习框架。
以方法为切入点,对机器学习技术加以梳理与总结,是本书的一大特点。除了新增篇章,本书还增加了若干监督学习方法,如线性回归;基于读者的反馈对监督学习的大部分内容和无监督学习的少部分内容做了大幅修改,删除了一部分目前已不常用的技术,如部分机器学习优化算法;修改了大大小小几十处错误;重新绘制了几乎所有的插图。本书延续了《统计学习方法》的风格,每章介绍一两种机器学习方法。详细叙述各个方法的模型、策略和算法。从具体例子入手,由浅入深,帮助读者直观地理解基本思路,同时从理论角度出发,给出严格的数学推导,严谨翔实,让读者更好地掌握基本原理和概念。为满足读者进一步学习的需要,书中还对各个方法的要点进行了总结,给出了一些习题,并列出了主要参考文献,从原理到实践,助你贯通机器学习全脉络!
本书的主要定位是教材或参考书,对最基本、最常用的机器学习技术进行透彻的讲解和分析,构建一个完整且清晰的机器学习框架,无论你是想打好机器学习基础的学生党,还是要攻克技术难点的AI开发者,它将成为你的得力助手。
目 录
第1篇监督学习
第1章机器学习简介...3
1.1机器学习的定义 .........3
1.2本书内容 .......5
第2章监督学习简介...6
2.1监督学习概述 6
2.1.1监督学习的形式化 .....6
2.1.2监督学习三要素 ........8
2.1.3模型评估与模型选择 12
2.1.4正则化与交叉验证 ... 17
2.1.5泛化能力 ...... 18
2.2监督学习问题 21
2.2.1分类问题 ...... 21
2.2.2回归问题 ...... 22
2.2.3序列标注问题 23
2.3监督学习方法概述 .... 24
2.3.1生成方法与判别方法 25
2.3.2分类方法 ...... 25
2.3.3回归方法 ...... 28
2.3.4序列标注方法 29
本篇内容...29
继续阅读...30
习题......... 30
参考文献...30
第3章线性回归......31
3.1线性回归模型 31
3.1.1模型定义 ...... 31
3.1.2概率模型表示 32
3.1.3基函数和模型的扩展 32
3.2线性回归学习算法 .... 34
3.2.1最小二乘法 ... 34
3.2.2正规方程 ...... 35
3.2.3梯度下降 ...... 36
3.3岭回归和 Lasso ......... 38
本章概要...40
继续阅读...41
习题......... 42
参考文献...42
第4章感知机 .........43
4.1感知机模型 .. 43
4.2感知机学习策略 ....... 44
4.2.1数据集的线性可分性 44
4.2.2感知机学习策略 ...... 45
4.3感知机学习算法 ....... 46
4.3.1感知机学习算法的原始形式 46
4.3.2算法的收敛性 49
4.3.3感知机学习算法的对偶形式 50
本章概要...52
继续阅读...53
习题......... 53
参考文献...54
第5章 k近邻法 ......55
5.1 k近邻算法 .. 55
5.2 k近邻模型 .. 56
5.2.1模型...56
5.2.2距离度量 ...... 57
5.2.3 k值的选择 ... 58
5.2.4决策规则 ...... 58
5.3 k近邻法的实现:k-d树 ...... 59
5.3.1构建 k-d树 ... 59
5.3.2搜索 k-d树 ... 60
本章概要...62
继续阅读...62
习题......... 63
参考文献...63
第6章朴素贝叶斯法...64
6.1朴素贝叶斯模型 ....... 64
6.1.1模型定义 ...... 64
6.1.2分类决策 ...... 66
6.1.3概率模型 ...... 66
6.1.4生成模型与判别模型 67
6.2朴素贝叶斯学习 ....... 67
6.2.1学习问题 ...... 67
6.2.2极大似然估计 67
6.2.3学习和分类算法 ...... 68
6.2.4贝叶斯估计 ... 69
本章概要...71
继续阅读...71
习题......... 71
参考文献...72
第7章决策树 .........73
7.1决策树模型与学习 .... 73
7.1.1决策树 ... 73
7.1.2决策树模型 ... 74
7.1.3决策树学习 ... 75
7.2特征选择 .....76
7.2.1特征选择问题 ... 76
7.2.2熵、条件熵和互信息 ... 78
7.2.3信息增益与特征选择 ... 79
7.3分类树的生成 ...81
7.4分类树的剪枝 ...82
7.5 CART算法 ...83
7.5.1 CART生成 .. 84
7.5.2 CART剪枝 .. 88
本章概要...89
继续阅读...91
习题......... 91
参考文献...92
第8章逻辑斯谛回归和最大熵模型 ...93
8.1逻辑斯谛回归模型 .... 93
8.1.1逻辑斯谛分布 ... 93
8.1.2二项逻辑斯谛回归 ... 94
8.1.3多项逻辑斯谛回归 ... 96
8.2最大熵模型 .. 97
8.2.1最大熵原理 ... 97
8.2.2最大熵模型的定义 ... 99
8.2.3最大熵模型的学习 . 100
8.2.4最大熵模型的极大似然估计 104
8.2.5与逻辑斯谛回归模型的关系 105
8.2.6与指数分布族的关系 ........ 105
8.3学习算法 ... 106
8.3.1梯度下降 .... 106
8.3.2拟牛顿法 .... 108
本章概要...110
继续阅读...111
习题....... 111
参考文献...111
第9章支持向量机...113
9.1线性可分支持向量机与硬间隔最大化 ....... 113
9.1.1线性可分支持向量机 ........ 113
9.1.2函数间隔和几何间隔 ........ 115
9.1.3间隔最大化 ...116
9.1.4对偶问题的算法 .... 120
9.2线性支持向量机与软间隔最大化 .. 125
9.2.1线性支持向量机 .... 125
9.2.2对偶问题的算法 .... 126
9.2.3支持向量 .... 129
9.2.4无约束最优化算法 ...129
9.3非线性支持向量机与核函数 ........ 133
9.3.1核技巧 ........ 133
9.3.2正定核 ........ 136
9.3.3常用核函数 ...140
9.3.4非线性支持向量分类机 .... 141
本章概要 ...142
继续阅读 ... 144
习题....... 144
参考文献 ...145
第10章提升方法 .. 147
10.1 AdaBoost算法 ..... 147
10.1.1基本想法 ...147
10.1.2算法 ........ 148
10.1.3 AdaBoost的例子 .... 150
10.1.4训练误差分析 ..... 152
10.1.5前向分步算法解释 ........ 153
10.2梯度提升 ...157
10.2.1基本想法 ...157
10.2.2 GBDT用于回归 ... 158
10.2.3 GBDT算法 ....... 161
本章概要 ... 163
继续阅读 ...165
习题....... 165
参考文献 ...166
第11章隐马尔可夫模型 .... 167
11.1隐马尔可夫模型的基本概念 ... 167
11.1.1模型的定义 ........ 167
11.1.2模型的特点 ........ 169
11.1.3基本问题 ...171
11.2概率计算算法 ....... 171
11.2.1直接计算法 ........ 171
11.2.2前向算法 ...172
11.2.3后向算法 ...174
11.2.4前向-后向算法 .... 176
11.2.5一些概率与期望值的计算 176
11.3学习算法 ...177
11.3.1监督学习方法 ..... 177
11.3.2 Baum-Welch算法 .. 178
11.3.3模型参数估计 ..... 180
11.4预测算法 ...181
11.4.1近似算法 ...181
11.4.2维特比算法 ........ 181
本章概要 ...185
继续阅读 ...186
习题 ....... 187
参考文献 ...187
第12章条件随机场...188
12.1概率无向图模型 ... 188
12.1.1模型的定义 ........ 188
12.1.2概率无向图模型的因子分解 ....... 191
12.1.3概率无向图模型的例子 ...193
12.2条件随机场的基本概念 ... 194
12.2.1模型的定义 ........ 194
12.2.2模型的形式 ........ 195
12.2.3基本问题 ...199
12.3概率计算算法 ....... 200
12.3.1前向算法 ...200
12.3.2后向算法 ...201
12.3.3前向-后向算法 .... 201
12.3.4期望值的计算 ..... 202
12.4学习算法 ...202
12.4.1监督学习算法 ..... 203
12.4.2拟牛顿法 ...203
12.5预测算法 ...204
本章概要...207
继续阅读...209
习题....... 209
参考文献...210
第13章监督学习方法总结 211
第2篇无监督学习
第14章无监督学习简介.... 219
14.1无监督学习问题 ... 219
14.1.1聚类问题 . 219
14.1.2降维问题 . 220
14.1.3话题分析问题 ..... 221
14.1.4概率模型估计问题 ........ 223
14.2无监督学习方法概述 ....... 223
14.2.1机器学习三要素 . 223
14.2.2聚类方法 . 224
14.2.3降维方法 . 224
14.2.4话题分析方法——非概率模型 ... 225
14.2.5话题分析方法——概率模型 ....... 226
14.2.6概率模型估计方法 ........ 227
本篇内容. 228
继续阅读. 228
参考文献. 228
第15章聚类方法 .. 229
15.1聚类的基本概念 ... 229
15.1.1相似度或距离 ..... 229
15.1.2类或簇 ..... 232
15.1.3类与类之间的距离 ........ 233
15.2层次聚类 . 234
15.3 k均值聚类 235
15.3.1模型 ........ 236
15.3.2策略 ........ 236
15.3.3算法 ........ 237
15.3.4算法特性 . 238
本章概要. 239
继续阅读. 240
习题....... 240
参考文献. 240
第16章奇异值分解 242
16.1奇异值分解的定义与性质 242
16.1.1定义与定理 ........ 242
16.1.2紧奇异值分解与截断奇异值分解 246
16.1.3几何解释 . 248
16.1.4主要性质 . 250
16.2奇异值分解的计算 251
16.3奇异值分解与矩阵近似 ... 254
16.3.1弗罗贝尼乌斯范数 ........ 254
16.3.2矩阵的最优近似 . 255
16.3.3矩阵的外积展开式 ........ 258
本章概要. 260
继续阅读. 261
习题....... 261
参考文献. 262
第17章主成分分析 263
17.1总体主成分分析 ... 263
17.1.1基本想法 . 263
17.1.2定义和导出 ........ 265
17.1.3主要性质 . 266
17.1.4主成分分析与降维 ........ 270
17.1.5规范化的总体主成分 ..... 273
17.2样本主成分分析 ... 274
17.2.1定义和性质 ........ 274
17.2.2相关矩阵的特征值分解算法 ....... 276
17.2.3样本矩阵的奇异值分解算法 ....... 279
本章概要. 280
继续阅读. 282
习题....... 282
参考文献. 283
第18章 EM算法和变分 EM算法 ........ 284
18.1 EM算法 .. 284
18.1.1简单例子 . 285
18.1.2基本算法 . 287
18.1.3基本原理 . 288
18.1.4算法收敛性 ........ 290
18.1.5广义算法 . 291
18.2高斯混合模型的 EM算法 ......... 293
18.2.1高斯混合模型 ..... 293
18.2.2 EM算法 .. 293
18.2.3与 k均值的关系 . 296
18.3变分 EM算法 ...... 297
18.3.1变分贝叶斯方法 . 297
18.3.2基本算法 . 299
18.3.3 EM算法和变分 EM算法的比较 300
本章概要. 300
继续阅读. 302
习题....... 302
参考文献. 303
第19章马尔可夫链蒙特卡罗法 .... 304
19.1蒙特卡罗法 304
19.1.1随机抽样 . 304
19.1.2数学期望估计 ..... 305
19.2积分计算 . 307
19.3马尔可夫链 308
19.3.1基本定义 . 308
19.3.2离散状态马尔可夫链 ..... 309
19.3.3连续状态马尔可夫链 ..... 314
19.3.4马尔可夫链的性质 ........ 315
19.4马尔可夫链蒙特卡罗法 ... 319
19.4.1基本想法 . 319
19.4.2基本步骤 . 320
19.5马尔可夫链蒙特卡罗法与机器学习 ......... 320
19.6 Metropolis-Hastings算法 321
19.6.1基本原理 . 321
19.6.2 Metropolis-Hastings算法 324
19.6.3单分量 Metropolis-Hastings算法 .... 324
19.7吉布斯抽样 325
19.7.1基本原理 . 326
19.7.2吉布斯抽样算法 . 327
19.7.3抽样计算 . 328
本章概要. 329
继续阅读. 330
习题....... 331
参考文献. 332
第20章潜在语义分析和非负矩阵分解 .... 333
20.1单词向量空间与话题向量空间 ... 333
20.1.1单词向量空间 ..... 333
20.1.2话题向量空间 ..... 335
20.2潜在语义分析算法 338
20.2.1矩阵奇异值分解算法 ..... 338
20.2.2例子 ........ 340
20.3非负矩阵分解算法 341
20.3.1非负矩阵分解 ..... 341
20.3.2话题分析 . 342
20.3.3非负矩阵分解的形式化 . 342
20.3.4算法 ........ 343
本章概要. 345
继续阅读. 346
习题....... 346
参考文献. 347
第21章概率潜在语义分析 348
21.1概率潜在语义分析模型 ... 348
21.1.1基本想法 . 348
21.1.2生成模型 . 349
21.1.3共现模型 . 350
21.1.4模型性质 . 351
21.2概率潜在语义分析的算法 353
本章概要. 355
继续阅读. 356
习题....... 356
参考文献. 357
第22章潜在狄利克雷分配 358
22.1狄利克雷分布 ....... 358
22.1.1分布定义 . 358
22.1.2共轭先验 . 361
22.2潜在狄利克雷分配模型 ... 362
22.2.1基本想法 . 362
22.2.2模型定义 . 363
22.2.3概率图模型 ........ 365
22.2.4随机变量序列的可交换性 366
22.2.5概率公式 . 366
22.3 LDA的吉布斯抽样算法 .. 367
22.3.1基本想法 . 367
22.3.2算法的主要部分 . 368
22.3.3算法的后处理 ..... 370
22.3.4算法 ........ 370
22.4 LDA的变分 EM算法 ..... 372
22.4.1算法推导 . 372
22.4.2算法总结 . 378
本章概要. 378
继续阅读. 379
习题....... 379
参考文献. 380
第23章无监督学习方法总结 ....... 381
23.1无监督学习方法的关系和特点 ... 381
23.1.1方法之间的关系 . 381
23.1.2无监督学习方法 . 381
23.1.3基础机器学习方法 ........ 382
23.2话题模型之间的关系和特点 ....... 382
参考文献. 383
第3篇 深度学习
第24章深度学习简介 ....... 387
24.1深度学习问题 ....... 387
24.1.1监督学习问题 ..... 387
24.1.2无监督学习问题 . 389
24.2深度学习方法概述 391
24.2.1基本原理 . 391
24.2.2基本工具 . 391
24.2.3监督学习模型 ..... 395
24.2.4无监督学习模型 . 397
24.2.5基本算法 . 398
24.2.6预训练 ..... 398
24.3深度学习应用 ....... 399
本篇内容. 399
参考文献. 400
第25章前馈神经网络 ....... 401
25.1前馈神经网络的模型 ....... 401
25.1.1前馈神经网络定义 ........ 402
25.1.2前馈神经网络的例子 ..... 412
25.1.3前馈神经网络的表示能力 416
25.2前馈神经网络的学习算法 419
25.2.1前馈神经网络学习 ........ 419
25.2.2前馈神经网络学习的优化算法 ... 421
25.2.3反向传播算法 ..... 424
25.2.4在计算图上的实现 ........ 427
25.2.5算法的实现技巧 . 431
25.3前馈神经网络学习的正则化 ....... 436
25.3.1深度学习中的正则化 ..... 436
25.3.2早停法 ..... 437
25.3.3暂退法 ..... 438
本章概要. 441
继续阅读. 443
习题....... 444
参考文献. 444
第26章卷积神经网络 ....... 446
26.1卷积神经网络的模型 ....... 446
26.1.1背景 ........ 446
26.1.2卷积 ........ 447
26.1.3汇聚 ........ 455
26.1.4卷积神经网络 ..... 458
26.1.5卷积神经网络性质 ........ 461
26.2卷积神经网络的学习算法 463
26.2.1卷积导数 . 463
26.2.2反向传播算法 ..... 464
26.3图片分类中的应用 467
26.3.1 AlexNet.... 467
26.3.2残差网络 . 468
本章概要. 472
继续阅读. 474
习题....... 475
参考文献. 476
第27章循环神经网络 ....... 478
27.1简单循环神经网络 478
27.1.1模型 ........ 478
27.1.2学习算法 . 481
27.2常用循环神经网络 485
27.2.1长短期记忆网络 . 485
27.2.2门控循环单元网络 ........ 488
27.2.3深度循环神经网络 ........ 489
27.2.4双向循环神经网络 ........ 490
27.3自然语言生成中的应用 ... 491
27.3.1词向量 ..... 491
27.3.2语言生成与语言模型 ..... 494
本章概要. 496
继续阅读. 498
习题....... 498
参考文献. 499
第28章 Transformer ...... 501
28.1序列到序列基本模型 ....... 501
28.1.1序列到序列 ........ 501
28.1.2基本模型 . 503
28.2 RNN Search模型 . 504
28.2.1注意力 ..... 504
28.2.2模型定义 . 506
28.2.3模型特点 . 507
28.3 Transformer模型 . 508
28.3.1模型架构 . 508
28.3.2模型特点 . 515
本章概要. 516
继续阅读. 518
习题....... 518
参考文献. 519
第29章 GPT和 BERT... 520
29.1预训练语言模型 ... 520
29.2 GPT模型 522
29.2.1模型和学习 ........ 522
29.2.2模型特点 . 526
29.3 BERT模型 526
29.3.1模型和学习 ........ 526
29.3.2模型特点 . 531
本章概要. 532
继续阅读. 533
习题....... 533
参考文献. 534
第30章变分自编码器 ....... 535
30.1自编码器 . 535
30.2去噪自编码器 ....... 536
30.3变分自编码器 ....... 537
30.3.1方法概述 . 537
30.3.2模型 ........ 538
30.3.3学习策略 . 540
30.3.4学习算法 . 542
30.3.5手写数字例 ........ 544
本章概要. 545
继续阅读. 547
习题....... 547
参考文献. 547
第31章生成对抗网络 ....... 549
31.1 GAN基本模型 ..... 549
31.1.1模型 ........ 549
26目录
31.1.2学习算法 . 551
31.1.3理论分析 . 552
31.2图片生成中的应用 553
31.2.1转置卷积 . 554
31.2.2 DCGAN ... 556
本章概要. 558
继续阅读. 559
习题....... 559
参考文献. 560
第32章扩散模型.. 561
32.1去噪扩散概率模型 561
32.1.1直观解释 . 562
32.1.2模型的定义和性质 ........ 562
32.1.3学习和生成算法 . 567
32.2分数匹配加朗之万动力学 571
32.2.1分数匹配 . 571
32.2.2朗之万动力学 ..... 573
32.2.3学习和生成算法 . 574
32.3扩散模型之间的关系 ....... 577
32.3.1分数函数学习 ..... 577
32.3.2随机微分方程 ..... 578
32.4图像生成 . 580
32.4.1扩散模型用于图像生成 . 580
32.4.2隐空间中的生成 . 581
32.4.3有条件的生成 ..... 582
本章概要. 583
继续阅读. 586
习题....... 586
参考文献. 587
第33章深度学习方法总结 588
33.1深度学习的模型 ... 588
33.2深度学习的算法 ... 590
33.3深度学习的优缺点 592
参考文献. 593
第4篇强 化学习
第34章强化学习简介 ....... 597
34.1强化学习问题 ....... 597
34.1.1强化学习的定义 . 597
34.1.2相关问题 . 600
34.2强化学习原理和方法 ....... 601
34.2.1强化学习方法 ..... 601
34.2.2强化学习原理 ..... 601
34.2.3深度强化学习 ..... 602
34.3强化学习应用 ....... 603
本篇内容. 604
习题....... 605
参考文献. 605
第35章马尔可夫决策过程 606
35.1马尔可夫决策过程定义 ... 606
35.1.1基本概念 . 606
35.1.2最优策略 . 610
35.1.3 MDP例子 ......... 611
35.2动态规划算法 ....... 614
35.2.1规划问题 . 614
35.2.2贝尔曼方程 ........ 614
35.2.3策略评估 . 617
35.2.4策略迭代 . 620
35.2.5价值迭代 . 622
35.2.6算法的比较和扩展 ........ 625
本章概要. 626
继续阅读. 629
习题....... 629
参考文献. 630
第36章多臂老虎机 631
36.1多臂老虎机概述 ... 631
36.1.1问题的定义 ........ 631
36.1.2探索和利用的权衡 ........ 633
36.2基本算法 . 634
36.2.1探索优先算法 ..... 634
36.2.2 ε贪心算法 ......... 634
36.2.3 UCB算法 636
36.2.4汤普森采样 ........ 638
本章概要. 641
28目录
继续阅读. 642
习题....... 642
参考文献. 643
第37章基于价值的方法 .... 644
37.1基于价值的方法概述 ....... 644
37.2模型无关预测 ....... 645
37.2.1蒙特卡罗预测 ..... 645
37.2.2时序差分预测 ..... 648
37.2.3预测方法的总结 . 650
37.3模型无关控制 ....... 652
37.3.1蒙特卡罗控制 ..... 652
37.3.2 SARSA算法 ...... 655
37.3.3 Q学习 .... 658
37.3.4在策略和离策略学习 ..... 660
37.4基于价值的方法的总结 ... 661
本章概要. 662
继续阅读. 663
习题....... 664
参考文献. 664
第38章深度 Q网络 ........ 665
38.1价值函数近似法 ... 665
38.2 DQN方法 . 669
本章概要. 671
继续阅读. 672
习题....... 672
参考文献. 672
第39章基于策略的方法 .... 673
39.1基于策略的方法概述 ....... 673
39.2 REINFORCE算法 ......... 675
39.2.1 REINFORCE算法 ....... 675
39.2.2带基线的 REINFORCE算法 ..... 678
39.2.3策略函数 . 680
39.3演员🎭️-评论员算法 .. 681
39.4策略梯度方法总结 683
39.4.1一般形式 . 683
39.4.2策略梯度定理 ..... 684
39.5策略梯度的应用例 686
本章概要. 687
继续阅读. 689
习题....... 689
参考文献. 690
第40章近端策略优化 PPO........ 691
40.1 TRPO算法 ......... 691
40.1.1背景和动机 ........ 691
40.1.2基本形式 . 692
40.1.3算法和理论推导 . 693
40.1.4具体算法 . 696
40.2 PPO算法 697
40.2.1算法概述 . 697
40.2.2 PPO-Clip . 698
40.2.3具体算法 . 699
40.3大语言模型的应用 700
40.3.1 LLM概述 700
40.3.2预训练 ..... 701
40.3.3 SFT ......... 701
40.3.4 RLHF ...... 702
40.3.5 LLM的特点 ...... 703
本章概要. 703
继续阅读. 705
习题....... 705
参考文献. 705
第41章强化学习方法总结 706
41.1强化学习的重要性 706
41.1.1强化学习 . 706
41.1.2强化学习与监督学习 ..... 706
41.1.3强化学习与生物学习 ..... 707
41.2强化学习方法之间的关系 707
41.2.1强化学习方法 ..... 707
41.2.2基于模型、价值、策略的方法 ..... 709
41.3其他强化学习问题和方法 710
41.4强化学习的机遇和挑战 ... 710
参考文献. 711
附录A梯度下降法 712
附录B牛顿法和拟牛顿法 ... 714
附录C拉格朗日对偶性 ...... 719
附录D矩阵空间 .... 722
附录E KL散度和狄利克雷分布 ... 725
附录F深度学习中的偏导数 727
附录G深度学习的优化算法 ......... 729