数据平滑定义和示例|
äºåç©çæ¨
目录:
它是什么:
数据平滑 是一种统计技术,包括从数据集中移除异常值以便模式更加明显。
工作原理(示例):
例如,假设一所大学正在分析过去10年的犯罪数据。暴力犯罪的数量看起来像这样:
正如你所看到的,大部分时间大学每年经历的犯罪少于15次。然而,在2006年和2007年,由于大学公共安全团队的实验报告要求,它经历了44次。报告实验改变了暴力犯罪的定义,将这些年来的任何类型的盗窃都包括在内,这导致了校园内“暴力”犯罪数量的大幅增加。如果我们将这些年份平均包括在内 - 也就是说,如果我们做一些数据平滑处理 - 大学平均每年经历大约19次暴力犯罪。但是如果我们离开这些年,我们可以看到,一个更现实的平均值是每年13起暴力犯罪 - 相差32%。
为什么重要:
平滑数据有许多方法,包括使用移动平均值和算法。这个想法是,数据平滑使模式更加明显,从而有助于预测股票价格,客户趋势或任何其他商业信息的变化。然而,数据平滑可以忽略关键信息或使重要事实不太明显;换句话说,数据的“四舍五入”会过分强调某些数据并忽略其他数据。