机器学习简史,理解深度学习的起源与重要性

深度学习并非总是解决问题的最佳方案:缺乏足够数据时,深度学习难以施展;某些情况下,其他机器学习算法可能更为高效。

若初学者首次接触的是深度学习,可能会形成一种偏见,视所有机器学习问题为深度学习可解决的“钉子”,而手中仅有深度学习这把“锤子”。要避免这种思维局限,关键在于广泛了解并掌握其他机器学习方法,并在实际中适时应用。回顾机器学习方法的历史背景,有助于理解深度学习的起源与重要性。

机器学习

一、概率建模(朴素贝叶斯和逻辑回归)

概率建模(probabilistic modeling)是什么?机器学习中的概率建模是利用概率理论对数据进行建模和分析,以揭示数据内在规律和进行预测的方法。

概率建模主要依赖于随机变量的概率分布模型,这些模型描述了随机变量可能取值的概率。在建立这些模型时,通常需要考虑数据的统计规律,并通过样本分析来确定概率分布的具体形式。

“一图 + 一句话”彻底搞懂概率建模。

“机器学习中,朴素贝叶斯和logistic回归作为概率模型,通过计算概率进行分类。其中朴素贝叶斯分类器基于贝叶斯定理,通过计算给定观测值属于某个类别的概率来进行分类。逻辑回归通过建立逻辑回归模型,将线性回归的结果映射到(0,1)的区间上,从而得到属于某个类别的概率。”

机器学习

二、核方法(SVM)

核方法(kernel method)是什么?核方法是一类将非线性数据映射到高维空间以使其线性可分,并通过核函数简化计算复杂度的模式识别算法。

核方法的核心在于无需直接计算数据点在高维空间中的坐标,而是通过核函数直接计算这些点在新空间中的距离或内积,从而简化计算并避免高维空间的直接表示。

核函数是预先选择的,用于将原始空间中的点映射到目标空间,而分类决策面(如SVM中的超平面)则是通过学习过程得到的。

“一图 + 一句话”彻底搞懂核方法。

“SVM(支持向量机)是一种基于核方法的分类算法,它通过将数据映射到高维空间并利用核函数计算点之间的距离或内积,从而找到最大化间隔的决策边界(超平面),实现对数据的分类。”

机器学习

三、决策树(随机森林和梯度提升机)

决策树(Decision Tree)是什么?决策树(Decision Tree)是一种通过树形结构模拟人类决策逻辑,由决策节点、方案节点、状态节点、树叶节点及连接它们的树枝(包括方案枝和概率枝)构成,用于表示决策过程并得出最终决策结果或分类类别的模型。

随机森林(Random Forest)和梯度提升(Gradient Boosting)都是基于决策树的集成学习方法,但它们通过不同的策略来结合多个决策树的输出以提高预测性能。

“一图 + 一句话”彻底搞懂随机森林和梯度提升。

“随机森林(Random Forest)是一种集成学习方法,通过构建多个决策树并集成其输出来提高模型的稳健性和准确性;梯度提升(Gradient Boosting)则通过迭代训练新模型专门弥补随机森林中原有模型的不足,从而在预测性能上实现优化。。”

机器学习

THE END