无论哪种方法,开发各类机器学习模型是使学习机准确执行新的、未知样本或任务。然后,机器可以通过不断学习改进这些模型。
“开发适合数据的正确模型就像‘金发姑娘’(Goldilocks),” Thompson说。“我们希望不多不少恰到好处。”图1是“过少”拟合或欠拟合的例子,图中捕获数据突出模式的预测模型过于简单。这种模型不能很好地解决未来样本的工作。Thompson说:“简约模型好的方面是条件非常少,但这种模型不能很好地完成拟合工作。”
图1: 欠拟合。
图 2 过拟合,图中预测模型过于复杂。Thompson 解释说:“当我试图分析新群体时,这种模型泛化不是很好。我想用参数比较少的方法–也许使用罚函数或保持函数–找到更适合数据的模型。”
数据科学家经常使用保持数据的均方差或误判率来衡量模型是否过拟合。但Thompson指出:“一些机器学习算法可以考虑您的模型,看看使用的变量是否过多,并用较少的变量自动调整模型。”
数据科学家需要考虑任何复杂性和规模的数据,建立大小适合这些数据的模型。他们可能需要考虑所有数据或数据集建立精确的模型。
更强大的机器学习算法之一是随机森林,它已成为数据挖掘的强大工具。随机森林采用单个决策树并将这们组合在一起。新的输入进入系统后经过所有树。给出经过的所有终端节点的平均值或加权平均值。
Thompson 解释说,“如果我围绕随机森林构建,我可以基于大量随机数据子集建立决策树,然后对其进行平均,建立最终模型。我还可以在决策树建立过程中,将不同的变量分在每个分割点。如果我有 100 个变量,我可以仅在分割点随机查看10 个变量;所以我不仅可以重排观测值,而且可以重排数据。”虽然单一决策树受高方差或高偏差的影响,但这样可以平衡两个极值。
新技术可以查询计算机随机存取存储器 (RAM) 中保存的,以及分布式计算环境中的数据,将处理分在多台计算机上进行,例如内存分析。因此,数据科学家可比以往更快地建立随机森林。
在机器学习模型用于数据挖掘业务应用方面,Thompson指出:“客户往往不知道他们与客户合作的预期利润或成本。采用SAS®企业级数据挖掘器™ (SAS® Enterprise Miner™)进行预测建模时,我尽量选择能够最大化利润或收入的模型。例如,如果我们做与客户在哪方面合作的决定,这不是肯定或否定的决定。相反,我要确定这个决定可以产生的预期收入。将这种要求加入模型中是非常重要的。”
模型建立之后,需要进行验证,以确定是否能够做出有效预测。通常,数据科学家采用训练数据集开发模型,然后利用已知样本外数据测试模型。
如果没有足够数据在一定程度上支持回归测试,Thompson说,“人们一般要做数据随机二次抽样或随机分层二次抽样。您还可以使用K-折交叉验证或留一法 (LOO) 交叉验证等技术。”
不过,Thompson指出,“如果有一百万观察值,事件发生率为1%,我觉得可以通过评估所有数据来了解是否可以分类或预测事件。某些事件发生率很小的情况,如欺诈,我发现可以使用过采样纠正原始数据集偏差,开发偏重小概率事件的有偏样本建立更好的模型。”
有些开发的模型用于数据库营销中评估客户。例如,营销人员需要知道哪些客户最有可能购买针对特定客户提供特别优惠的产品。营销工作还可以包括概率通常称为响应率非常低的事件–一般在 1%以内。
“如果评估我在数据库营销中使用的模型,” Thompson 说,“我可以使用统计了解特定文件深度条件下,模型的提升或表现。我可能对模型整体误判率不感兴趣。我只有1%响应率,
因此零模型99%准确。所以,我首先开发预测,生成提升的预测模型,然后选择一定深度条件下最大提升的模型。”