数据挖掘的前端是数据收集,清洗和处理等,和大数据有关,都涉及数据仓库等内容,但机器学习并不关心这些,也就是说数据这种原材料对机器学习来说应该要事先准备好了,机器学习更加注重学习问题,努力像人类一样学习知识,理解世界。它们最大的区别是:数据挖掘注重挖掘数据中的规律和知识,但不关心数据为什么会产生这些规律和知识,也就说你只看到表象,并不知道本质原因。

而机器学习恰恰相反,机器学习更加注重学习数据的生成机制,即数据究竟由什么概率模型生成的。有时机器学习也叫统计学习就是这个原因。数据的生成机制出来了,那么数据中的规律自然而然就知道了。正是因为机器学习注重数据的生成机制学习,产生大量的研究内容,发展出核机器,极大似然估计,最大熵模型,最大后验估计,期望最大化算法,高斯过程,概率图模型,变分推理等工具。

怎样估计训练好一个机器学习模型所需要的最少训练数据量?

评估训练机器学习模型所需数据量目前并没有一个定量的计算方式,往往要结合所在问题、模型结构等等实际情况来评估,需要反复的实验来最终决定所需数据量。当然这里说的数据量的前提是,每条数据之间的重复或相似度比较低。否则100条重复的数据会比10条不重复数据更没用,即必须是有效的数据。这种情况下通常来说,对数据量的要求就是韩信点兵,多多益善。

数据量大小对于模型的影响主要在于泛化性,数据量越大模型泛化性越好。其中决定数据量的两个重要因素,一是数据的复杂度或者说特征数目,二是模型的参数数目以及模型的结构。数据的特征数目是指描述一个数据所需的特征维度,如一张100*100大小彩色图片的特征维度就是100*100*3=30000个特征数。而对一段文本的特征表示,如果用词袋模型表示的话,其特征数就是词典中所有词的数目。

按照经验来说,对于特征数目很大的数据,往往需要大量的数据来训练模型,同时也意味着模型的参数也要很多。对于特征维数小的数据往往就使用简单的逻辑回归模型即可。但是对于特征维数多,但是现有的数据量少,可以选择使用基于树的集合模型,如adaboost、随机森林等等。而对于处理具有超多特征维度的数据,最直接的方法就是使用深度神经网络,如图片、文本等。

设计的模型参数越多,那么所需的数据量也要越大,大量实验表明两者之前存在线性关系。此外优良的模型结构能很大程度上减少参数的数目,达到更好的预测效果。比如对于提取图像特征来说,全连接就不如卷积层,后者参数数目还更少。因此在决定所需数据量时,就需要反复实验,不断调整模型参数,判断模型是否存在过拟合等。根据具体情况来具体分析。

如何利用迁移学习解决机器学习模型中分类数量增加的问题?

迁移学习策略#1:我们可以做的是将旧机器学习模型(model_1)添加到我们的新机器学习模型(model_2)。为了利用训练的原始模型的最后状态,我们加载原始模型并将旧模型权重固定为不可训练的,并将我们的新模型附加到旧模型的最后dense 层。意思是,我们指示模型不要对原始模型的层进行反向传播,这样它们就保持不变(不要与旧模型中学习到的内容相混淆),只在新模型上进行训练。

本专栏的核心内容可以从机器学习和深度学习两个领域进行区分,都讲解了目前再NLP任务中主流的算法模型。

 11/11   首页 上一页 9 10 11 下一页

文章TAG:模型  机器  学习  评估  指标  11个机器学习的模型评估指标  机器学习的模型有哪些  
下一篇