历时7年,李航老师《统计学习方法》经典升级最终版——《机器学习方法(第2版)》正式出版(李航334斤)

历时7年,李航老师《<strong>统计学习方法</strong>》经典升级最终版——《<strong>机器学习方法(第2版)</strong>》正式出版(李航334斤)

文:孙亚楠

近日,李航老师最新著作《机器学习方法(第2版)》由清华大学出版社正式出版发行,这是作者历时7年,对《统计学习方法》的升级终极版本,中间历经2022年出版的《机器学习方法》第1版,完成了最终版。在内容上,覆盖了传统机器学习(即统计机器学习)、深度学习以及强化学习领域中最为基础且最为广泛使用的方法,力求为读者呈现一幅完整且清晰的机器学习技术画卷。

机器学习方法(第2版)

清华大学出版社

2025年7月出版

在人工智能浪潮席卷全球、重塑各行业发展格局的当下,机器学习作为驱动AI技术落地的核心引擎,持续吸引着研究者、开发者与学习者的目光。随着深度学习在近年来取得的突破性进展,其已成为机器学习领域的主流研究与应用方向;大语言模型如ChatGPT的横空出世以及智能体的提出与实践,使得强化学习再次成为焦点。一本仅覆盖传统机器学习的书籍,已无法全面反映当前机器学习技术的全貌以及满足读者的需求。此前,李航老师的《统计学习方法》可以说是机器学习的经典必读书籍,被读者称为机器学习领域的蓝宝书,已累计出版发行35万册,在此基础上,李航老师又推出了《机器学习方法(第2版)》,新增第3篇深度学习和第4篇强化学习,为系统学习机器学习技术提供了完整的学习框架。

以方法为切入点,对机器学习技术加以梳理与总结,是本书的一大特点。除了新增篇章,本书还增加了若干监督学习方法,如线性回归;基于读者的反馈对监督学习的大部分内容和无监督学习的少部分内容做了大幅修改,删除了一部分目前已不常用的技术,如部分机器学习优化算法;修改了大大小小几十处错误;重新绘制了几乎所有的插图。本书延续了《统计学习方法》的风格,每章介绍一两种机器学习方法。详细叙述各个方法的模型、策略和算法。从具体例子入手,由浅入深,帮助读者直观地理解基本思路,同时从理论角度出发,给出严格的数学推导,严谨翔实,让读者更好地掌握基本原理和概念。为满足读者进一步学习的需要,书中还对各个方法的要点进行了总结,给出了一些习题,并列出了主要参考文献,从原理到实践,助你贯通机器学习全脉络!

本书的主要定位是教材或参考书,对最基本、最常用的机器学习技术进行透彻的讲解和分析,构建一个完整且清晰的机器学习框架,无论你是想打好机器学习基础的学生党,还是要攻克技术难点的AI开发者,它将成为你的得力助手。

目 录

第1篇监督学习

第1章机器学习简介...3

1.1机器学习的定义 .........3

1.2本书内容 .......5

第2章监督学习简介...6

2.1监督学习概述 6

2.1.1监督学习的形式化 .....6

2.1.2监督学习三要素 ........8

2.1.3模型评估与模型选择 12

2.1.4正则化与交叉验证 ... 17

2.1.5泛化能力 ...... 18

2.2监督学习问题 21

2.2.1分类问题 ...... 21

2.2.2回归问题 ...... 22

2.2.3序列标注问题 23

2.3监督学习方法概述 .... 24

2.3.1生成方法与判别方法 25

2.3.2分类方法 ...... 25

2.3.3回归方法 ...... 28

2.3.4序列标注方法 29

本篇内容...29

继续阅读...30

习题......... 30

参考文献...30

第3章线性回归......31

3.1线性回归模型 31

3.1.1模型定义 ...... 31

3.1.2概率模型表示 32

3.1.3基函数和模型的扩展 32

3.2线性回归学习算法 .... 34

3.2.1最小二乘法 ... 34

3.2.2正规方程 ...... 35

3.2.3梯度下降 ...... 36

3.3岭回归和 Lasso ......... 38

本章概要...40

继续阅读...41

习题......... 42

参考文献...42

第4章感知机 .........43

4.1感知机模型 .. 43

4.2感知机学习策略 ....... 44

4.2.1数据集的线性可分性 44

4.2.2感知机学习策略 ...... 45

4.3感知机学习算法 ....... 46

4.3.1感知机学习算法的原始形式 46

4.3.2算法的收敛性 49

4.3.3感知机学习算法的对偶形式 50

本章概要...52

继续阅读...53

习题......... 53

参考文献...54

第5章 k近邻法 ......55

5.1 k近邻算法 .. 55

5.2 k近邻模型 .. 56

5.2.1模型...56

5.2.2距离度量 ...... 57

5.2.3 k值的选择 ... 58

5.2.4决策规则 ...... 58

5.3 k近邻法的实现:k-d树 ...... 59

5.3.1构建 k-d树 ... 59

5.3.2搜索 k-d树 ... 60

本章概要...62

继续阅读...62

习题......... 63

参考文献...63

第6章朴素贝叶斯法...64

6.1朴素贝叶斯模型 ....... 64

6.1.1模型定义 ...... 64

6.1.2分类决策 ...... 66

6.1.3概率模型 ...... 66

6.1.4生成模型与判别模型 67

6.2朴素贝叶斯学习 ....... 67

6.2.1学习问题 ...... 67

6.2.2极大似然估计 67

6.2.3学习和分类算法 ...... 68

6.2.4贝叶斯估计 ... 69

本章概要...71

继续阅读...71

习题......... 71

参考文献...72

第7章决策树 .........73

7.1决策树模型与学习 .... 73

7.1.1决策树 ... 73

7.1.2决策树模型 ... 74

7.1.3决策树学习 ... 75

7.2特征选择 .....76

7.2.1特征选择问题 ... 76

7.2.2熵、条件熵和互信息 ... 78

7.2.3信息增益与特征选择 ... 79

7.3分类树的生成 ...81

7.4分类树的剪枝 ...82

7.5 CART算法 ...83

7.5.1 CART生成 .. 84

7.5.2 CART剪枝 .. 88

本章概要...89

继续阅读...91

习题......... 91

参考文献...92

第8章逻辑斯谛回归和最大熵模型 ...93

8.1逻辑斯谛回归模型 .... 93

8.1.1逻辑斯谛分布 ... 93

8.1.2二项逻辑斯谛回归 ... 94

8.1.3多项逻辑斯谛回归 ... 96

8.2最大熵模型 .. 97

8.2.1最大熵原理 ... 97

8.2.2最大熵模型的定义 ... 99

8.2.3最大熵模型的学习 . 100

8.2.4最大熵模型的极大似然估计 104

8.2.5与逻辑斯谛回归模型的关系 105

8.2.6与指数分布族的关系 ........ 105

8.3学习算法 ... 106

8.3.1梯度下降 .... 106

8.3.2拟牛顿法 .... 108

本章概要...110

继续阅读...111

习题....... 111

参考文献...111

第9章支持向量机...113

9.1线性可分支持向量机与硬间隔最大化 ....... 113

9.1.1线性可分支持向量机 ........ 113

9.1.2函数间隔和几何间隔 ........ 115

9.1.3间隔最大化 ...116

9.1.4对偶问题的算法 .... 120

9.2线性支持向量机与软间隔最大化 .. 125

9.2.1线性支持向量机 .... 125

9.2.2对偶问题的算法 .... 126

9.2.3支持向量 .... 129

9.2.4无约束最优化算法 ...129

9.3非线性支持向量机与核函数 ........ 133

9.3.1核技巧 ........ 133

9.3.2正定核 ........ 136

9.3.3常用核函数 ...140

9.3.4非线性支持向量分类机 .... 141

本章概要 ...142

继续阅读 ... 144

习题....... 144

参考文献 ...145

第10章提升方法 .. 147

10.1 AdaBoost算法 ..... 147

10.1.1基本想法 ...147

10.1.2算法 ........ 148

10.1.3 AdaBoost的例子 .... 150

10.1.4训练误差分析 ..... 152

10.1.5前向分步算法解释 ........ 153

10.2梯度提升 ...157

10.2.1基本想法 ...157

10.2.2 GBDT用于回归 ... 158

10.2.3 GBDT算法 ....... 161

本章概要 ... 163

继续阅读 ...165

习题....... 165

参考文献 ...166

第11章隐马尔可夫模型 .... 167

11.1隐马尔可夫模型的基本概念 ... 167

11.1.1模型的定义 ........ 167

11.1.2模型的特点 ........ 169

11.1.3基本问题 ...171

11.2概率计算算法 ....... 171

11.2.1直接计算法 ........ 171

11.2.2前向算法 ...172

11.2.3后向算法 ...174

11.2.4前向-后向算法 .... 176

11.2.5一些概率与期望值的计算 176

11.3学习算法 ...177

11.3.1监督学习方法 ..... 177

11.3.2 Baum-Welch算法 .. 178

11.3.3模型参数估计 ..... 180

11.4预测算法 ...181

11.4.1近似算法 ...181

11.4.2维特比算法 ........ 181

本章概要 ...185

继续阅读 ...186

习题 ....... 187

参考文献 ...187

第12章条件随机场...188

12.1概率无向图模型 ... 188

12.1.1模型的定义 ........ 188

12.1.2概率无向图模型的因子分解 ....... 191

12.1.3概率无向图模型的例子 ...193

12.2条件随机场的基本概念 ... 194

12.2.1模型的定义 ........ 194

12.2.2模型的形式 ........ 195

12.2.3基本问题 ...199

12.3概率计算算法 ....... 200

12.3.1前向算法 ...200

12.3.2后向算法 ...201

12.3.3前向-后向算法 .... 201

12.3.4期望值的计算 ..... 202

12.4学习算法 ...202

12.4.1监督学习算法 ..... 203

12.4.2拟牛顿法 ...203

12.5预测算法 ...204

本章概要...207

继续阅读...209

习题....... 209

参考文献...210

第13章监督学习方法总结 211

第2篇无监督学习

第14章无监督学习简介.... 219

14.1无监督学习问题 ... 219

14.1.1聚类问题 . 219

14.1.2降维问题 . 220

14.1.3话题分析问题 ..... 221

14.1.4概率模型估计问题 ........ 223

14.2无监督学习方法概述 ....... 223

14.2.1机器学习三要素 . 223

14.2.2聚类方法 . 224

14.2.3降维方法 . 224

14.2.4话题分析方法——非概率模型 ... 225

14.2.5话题分析方法——概率模型 ....... 226

14.2.6概率模型估计方法 ........ 227

本篇内容. 228

继续阅读. 228

参考文献. 228

第15章聚类方法 .. 229

15.1聚类的基本概念 ... 229

15.1.1相似度或距离 ..... 229

15.1.2类或簇 ..... 232

15.1.3类与类之间的距离 ........ 233

15.2层次聚类 . 234

15.3 k均值聚类 235

15.3.1模型 ........ 236

15.3.2策略 ........ 236

15.3.3算法 ........ 237

15.3.4算法特性 . 238

本章概要. 239

继续阅读. 240

习题....... 240

参考文献. 240

第16章奇异值分解 242

16.1奇异值分解的定义与性质 242

16.1.1定义与定理 ........ 242

16.1.2紧奇异值分解与截断奇异值分解 246

16.1.3几何解释 . 248

16.1.4主要性质 . 250

16.2奇异值分解的计算 251

16.3奇异值分解与矩阵近似 ... 254

16.3.1弗罗贝尼乌斯范数 ........ 254

16.3.2矩阵的最优近似 . 255

16.3.3矩阵的外积展开式 ........ 258

本章概要. 260

继续阅读. 261

习题....... 261

参考文献. 262

第17章主成分分析 263

17.1总体主成分分析 ... 263

17.1.1基本想法 . 263

17.1.2定义和导出 ........ 265

17.1.3主要性质 . 266

17.1.4主成分分析与降维 ........ 270

17.1.5规范化的总体主成分 ..... 273

17.2样本主成分分析 ... 274

17.2.1定义和性质 ........ 274

17.2.2相关矩阵的特征值分解算法 ....... 276

17.2.3样本矩阵的奇异值分解算法 ....... 279

本章概要. 280

继续阅读. 282

习题....... 282

参考文献. 283

第18章 EM算法和变分 EM算法 ........ 284

18.1 EM算法 .. 284

18.1.1简单例子 . 285

18.1.2基本算法 . 287

18.1.3基本原理 . 288

18.1.4算法收敛性 ........ 290

18.1.5广义算法 . 291

18.2高斯混合模型的 EM算法 ......... 293

18.2.1高斯混合模型 ..... 293

18.2.2 EM算法 .. 293

18.2.3与 k均值的关系 . 296

18.3变分 EM算法 ...... 297

18.3.1变分贝叶斯方法 . 297

18.3.2基本算法 . 299

18.3.3 EM算法和变分 EM算法的比较 300

本章概要. 300

继续阅读. 302

习题....... 302

参考文献. 303

第19章马尔可夫链蒙特卡罗法 .... 304

19.1蒙特卡罗法 304

19.1.1随机抽样 . 304

19.1.2数学期望估计 ..... 305

19.2积分计算 . 307

19.3马尔可夫链 308

19.3.1基本定义 . 308

19.3.2离散状态马尔可夫链 ..... 309

19.3.3连续状态马尔可夫链 ..... 314

19.3.4马尔可夫链的性质 ........ 315

19.4马尔可夫链蒙特卡罗法 ... 319

19.4.1基本想法 . 319

19.4.2基本步骤 . 320

19.5马尔可夫链蒙特卡罗法与机器学习 ......... 320

19.6 Metropolis-Hastings算法 321

19.6.1基本原理 . 321

19.6.2 Metropolis-Hastings算法 324

19.6.3单分量 Metropolis-Hastings算法 .... 324

19.7吉布斯抽样 325

19.7.1基本原理 . 326

19.7.2吉布斯抽样算法 . 327

19.7.3抽样计算 . 328

本章概要. 329

继续阅读. 330

习题....... 331

参考文献. 332

第20章潜在语义分析和非负矩阵分解 .... 333

20.1单词向量空间与话题向量空间 ... 333

20.1.1单词向量空间 ..... 333

20.1.2话题向量空间 ..... 335

20.2潜在语义分析算法 338

20.2.1矩阵奇异值分解算法 ..... 338

20.2.2例子 ........ 340

20.3非负矩阵分解算法 341

20.3.1非负矩阵分解 ..... 341

20.3.2话题分析 . 342

20.3.3非负矩阵分解的形式化 . 342

20.3.4算法 ........ 343

本章概要. 345

继续阅读. 346

习题....... 346

参考文献. 347

第21章概率潜在语义分析 348

21.1概率潜在语义分析模型 ... 348

21.1.1基本想法 . 348

21.1.2生成模型 . 349

21.1.3共现模型 . 350

21.1.4模型性质 . 351

21.2概率潜在语义分析的算法 353

本章概要. 355

继续阅读. 356

习题....... 356

参考文献. 357

第22章潜在狄利克雷分配 358

22.1狄利克雷分布 ....... 358

22.1.1分布定义 . 358

22.1.2共轭先验 . 361

22.2潜在狄利克雷分配模型 ... 362

22.2.1基本想法 . 362

22.2.2模型定义 . 363

22.2.3概率图模型 ........ 365

22.2.4随机变量序列的可交换性 366

22.2.5概率公式 . 366

22.3 LDA的吉布斯抽样算法 .. 367

22.3.1基本想法 . 367

22.3.2算法的主要部分 . 368

22.3.3算法的后处理 ..... 370

22.3.4算法 ........ 370

22.4 LDA的变分 EM算法 ..... 372

22.4.1算法推导 . 372

22.4.2算法总结 . 378

本章概要. 378

继续阅读. 379

习题....... 379

参考文献. 380

第23章无监督学习方法总结 ....... 381

23.1无监督学习方法的关系和特点 ... 381

23.1.1方法之间的关系 . 381

23.1.2无监督学习方法 . 381

23.1.3基础机器学习方法 ........ 382

23.2话题模型之间的关系和特点 ....... 382

参考文献. 383

第3篇 深度学习

第24章深度学习简介 ....... 387

24.1深度学习问题 ....... 387

24.1.1监督学习问题 ..... 387

24.1.2无监督学习问题 . 389

24.2深度学习方法概述 391

24.2.1基本原理 . 391

24.2.2基本工具 . 391

24.2.3监督学习模型 ..... 395

24.2.4无监督学习模型 . 397

24.2.5基本算法 . 398

24.2.6预训练 ..... 398

24.3深度学习应用 ....... 399

本篇内容. 399

参考文献. 400

第25章前馈神经网络 ....... 401

25.1前馈神经网络的模型 ....... 401

25.1.1前馈神经网络定义 ........ 402

25.1.2前馈神经网络的例子 ..... 412

25.1.3前馈神经网络的表示能力 416

25.2前馈神经网络的学习算法 419

25.2.1前馈神经网络学习 ........ 419

25.2.2前馈神经网络学习的优化算法 ... 421

25.2.3反向传播算法 ..... 424

25.2.4在计算图上的实现 ........ 427

25.2.5算法的实现技巧 . 431

25.3前馈神经网络学习的正则化 ....... 436

25.3.1深度学习中的正则化 ..... 436

25.3.2早停法 ..... 437

25.3.3暂退法 ..... 438

本章概要. 441

继续阅读. 443

习题....... 444

参考文献. 444

第26章卷积神经网络 ....... 446

26.1卷积神经网络的模型 ....... 446

26.1.1背景 ........ 446

26.1.2卷积 ........ 447

26.1.3汇聚 ........ 455

26.1.4卷积神经网络 ..... 458

26.1.5卷积神经网络性质 ........ 461

26.2卷积神经网络的学习算法 463

26.2.1卷积导数 . 463

26.2.2反向传播算法 ..... 464

26.3图片分类中的应用 467

26.3.1 AlexNet.... 467

26.3.2残差网络 . 468

本章概要. 472

继续阅读. 474

习题....... 475

参考文献. 476

第27章循环神经网络 ....... 478

27.1简单循环神经网络 478

27.1.1模型 ........ 478

27.1.2学习算法 . 481

27.2常用循环神经网络 485

27.2.1长短期记忆网络 . 485

27.2.2门控循环单元网络 ........ 488

27.2.3深度循环神经网络 ........ 489

27.2.4双向循环神经网络 ........ 490

27.3自然语言生成中的应用 ... 491

27.3.1词向量 ..... 491

27.3.2语言生成与语言模型 ..... 494

本章概要. 496

继续阅读. 498

习题....... 498

参考文献. 499

第28章 Transformer ...... 501

28.1序列到序列基本模型 ....... 501

28.1.1序列到序列 ........ 501

28.1.2基本模型 . 503

28.2 RNN Search模型 . 504

28.2.1注意力 ..... 504

28.2.2模型定义 . 506

28.2.3模型特点 . 507

28.3 Transformer模型 . 508

28.3.1模型架构 . 508

28.3.2模型特点 . 515

本章概要. 516

继续阅读. 518

习题....... 518

参考文献. 519

第29章 GPT和 BERT... 520

29.1预训练语言模型 ... 520

29.2 GPT模型 522

29.2.1模型和学习 ........ 522

29.2.2模型特点 . 526

29.3 BERT模型 526

29.3.1模型和学习 ........ 526

29.3.2模型特点 . 531

本章概要. 532

继续阅读. 533

习题....... 533

参考文献. 534

第30章变分自编码器 ....... 535

30.1自编码器 . 535

30.2去噪自编码器 ....... 536

30.3变分自编码器 ....... 537

30.3.1方法概述 . 537

30.3.2模型 ........ 538

30.3.3学习策略 . 540

30.3.4学习算法 . 542

30.3.5手写数字例 ........ 544

本章概要. 545

继续阅读. 547

习题....... 547

参考文献. 547

第31章生成对抗网络 ....... 549

31.1 GAN基本模型 ..... 549

31.1.1模型 ........ 549

26目录

31.1.2学习算法 . 551

31.1.3理论分析 . 552

31.2图片生成中的应用 553

31.2.1转置卷积 . 554

31.2.2 DCGAN ... 556

本章概要. 558

继续阅读. 559

习题....... 559

参考文献. 560

第32章扩散模型.. 561

32.1去噪扩散概率模型 561

32.1.1直观解释 . 562

32.1.2模型的定义和性质 ........ 562

32.1.3学习和生成算法 . 567

32.2分数匹配加朗之万动力学 571

32.2.1分数匹配 . 571

32.2.2朗之万动力学 ..... 573

32.2.3学习和生成算法 . 574

32.3扩散模型之间的关系 ....... 577

32.3.1分数函数学习 ..... 577

32.3.2随机微分方程 ..... 578

32.4图像生成 . 580

32.4.1扩散模型用于图像生成 . 580

32.4.2隐空间中的生成 . 581

32.4.3有条件的生成 ..... 582

本章概要. 583

继续阅读. 586

习题....... 586

参考文献. 587

第33章深度学习方法总结 588

33.1深度学习的模型 ... 588

33.2深度学习的算法 ... 590

33.3深度学习的优缺点 592

参考文献. 593

第4篇强 化学习

第34章强化学习简介 ....... 597

34.1强化学习问题 ....... 597

34.1.1强化学习的定义 . 597

34.1.2相关问题 . 600

34.2强化学习原理和方法 ....... 601

34.2.1强化学习方法 ..... 601

34.2.2强化学习原理 ..... 601

34.2.3深度强化学习 ..... 602

34.3强化学习应用 ....... 603

本篇内容. 604

习题....... 605

参考文献. 605

第35章马尔可夫决策过程 606

35.1马尔可夫决策过程定义 ... 606

35.1.1基本概念 . 606

35.1.2最优策略 . 610

35.1.3 MDP例子 ......... 611

35.2动态规划算法 ....... 614

35.2.1规划问题 . 614

35.2.2贝尔曼方程 ........ 614

35.2.3策略评估 . 617

35.2.4策略迭代 . 620

35.2.5价值迭代 . 622

35.2.6算法的比较和扩展 ........ 625

本章概要. 626

继续阅读. 629

习题....... 629

参考文献. 630

第36章多臂老虎机 631

36.1多臂老虎机概述 ... 631

36.1.1问题的定义 ........ 631

36.1.2探索和利用的权衡 ........ 633

36.2基本算法 . 634

36.2.1探索优先算法 ..... 634

36.2.2 ε贪心算法 ......... 634

36.2.3 UCB算法 636

36.2.4汤普森采样 ........ 638

本章概要. 641

28目录

继续阅读. 642

习题....... 642

参考文献. 643

第37章基于价值的方法 .... 644

37.1基于价值的方法概述 ....... 644

37.2模型无关预测 ....... 645

37.2.1蒙特卡罗预测 ..... 645

37.2.2时序差分预测 ..... 648

37.2.3预测方法的总结 . 650

37.3模型无关控制 ....... 652

37.3.1蒙特卡罗控制 ..... 652

37.3.2 SARSA算法 ...... 655

37.3.3 Q学习 .... 658

37.3.4在策略和离策略学习 ..... 660

37.4基于价值的方法的总结 ... 661

本章概要. 662

继续阅读. 663

习题....... 664

参考文献. 664

第38章深度 Q网络 ........ 665

38.1价值函数近似法 ... 665

38.2 DQN方法 . 669

本章概要. 671

继续阅读. 672

习题....... 672

参考文献. 672

第39章基于策略的方法 .... 673

39.1基于策略的方法概述 ....... 673

39.2 REINFORCE算法 ......... 675

39.2.1 REINFORCE算法 ....... 675

39.2.2带基线的 REINFORCE算法 ..... 678

39.2.3策略函数 . 680

39.3演员🎭️-评论员算法 .. 681

39.4策略梯度方法总结 683

39.4.1一般形式 . 683

39.4.2策略梯度定理 ..... 684

39.5策略梯度的应用例 686

本章概要. 687

继续阅读. 689

习题....... 689

参考文献. 690

第40章近端策略优化 PPO........ 691

40.1 TRPO算法 ......... 691

40.1.1背景和动机 ........ 691

40.1.2基本形式 . 692

40.1.3算法和理论推导 . 693

40.1.4具体算法 . 696

40.2 PPO算法 697

40.2.1算法概述 . 697

40.2.2 PPO-Clip . 698

40.2.3具体算法 . 699

40.3大语言模型的应用 700

40.3.1 LLM概述 700

40.3.2预训练 ..... 701

40.3.3 SFT ......... 701

40.3.4 RLHF ...... 702

40.3.5 LLM的特点 ...... 703

本章概要. 703

继续阅读. 705

习题....... 705

参考文献. 705

第41章强化学习方法总结 706

41.1强化学习的重要性 706

41.1.1强化学习 . 706

41.1.2强化学习与监督学习 ..... 706

41.1.3强化学习与生物学习 ..... 707

41.2强化学习方法之间的关系 707

41.2.1强化学习方法 ..... 707

41.2.2基于模型、价值、策略的方法 ..... 709

41.3其他强化学习问题和方法 710

41.4强化学习的机遇和挑战 ... 710

参考文献. 711

附录A梯度下降法 712

附录B牛顿法和拟牛顿法 ... 714

附录C拉格朗日对偶性 ...... 719

附录D矩阵空间 .... 722

附录E KL散度和狄利克雷分布 ... 725

附录F深度学习中的偏导数 727

附录G深度学习的优化算法 ......... 729

特别声明:[历时7年,李航老师《统计学习方法》经典升级最终版——《机器学习方法(第2版)》正式出版(李航334斤)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

什么是无机磨石?(无机磨石的优点)

它不同于传统的环氧磨石,完全采用无机材料,通过特种水泥、矿物颜料和细骨料混合,经过特殊工艺制成的一种新型地面装饰材料。 提升空间品质:无机磨石不仅实用,更具有装饰价值,通过不同的骨料搭配和色彩设计,能够营造出…

什么是无机磨石?(无机磨石的优点)

54岁汪峰穿紧身衣开演唱会,虎背熊腰油腻感拉满,本人回应了(汪峰穿的裤子)

这位曾被乐迷戏称为&quot;皮裤汪&quot;的摇滚老将,此次选择紧身上衣登台,却意外引发新一轮关于艺人形象管理的热议。这种视觉冲击让观众不禁联想到他过去数十年如一日的皮裤造型——那些包裹着并不修长双腿的闪亮皮裤,曾是

54岁汪峰穿紧身衣开演唱会,虎背熊腰油腻感拉满,本人回应了(汪峰穿的裤子)

客服减负!快递批量查询软件,怎么解决 “重复查件” 难题(快递客服处理)

不用学习复杂的功能逻辑,打开软件、导入单号、查历史记录,三步就能完成日常查件工作,完全没有使用门槛。 快递 100客服版也有简单的重复单号提醒功能,但仅在导入时弹窗提示 “存在重复单号”,需要客服手动选择是…

客服减负!快递批量查询软件,怎么解决 “重复查件” 难题(快递客服处理)

从售后到精度,上海高晶凭什么碾压全球服装检针机同行?(售后服务做到极致)

高晶的技术优势,藏在每个 “解决痛点” 的细节里:针对进口机 “多台并排干扰” 的难题,GJ-IX 支持手动选择频率,10台设备同时工作也互不影响;考虑到出口企业 “数据追溯难”,机型能存储 90 天检测…

从售后到精度,上海高晶凭什么碾压全球服装检针机同行?(售后服务做到极致)

上海高价回收钻石:钻戒,裸钻,GIA证书钻石(上海高价回收钻戒的地方)

无论是克拉数较大的豪华裸钻,还是设计精美的品牌钻戒,宝易埠珠宝都能给出极具竞争力的回收价格,让客户在回收过程中感受到自身利益得到充分保障。 多年来,上海宝易埠珠宝凭借专业的服务、高价的回收、便捷的流程和可靠的…

上海高价回收钻石:钻戒,裸钻,GIA证书钻石(上海高价回收钻戒的地方)