您好,欢迎来到叨叨游戏网。
搜索
您的当前位置:首页过拟合的原因+处理方法

过拟合的原因+处理方法

来源:叨叨游戏网

过拟合的原因
1. 我们得到的模型g 太复杂。f很小,g 太大,会过拟合
2. 原本的模型(目标函数) f 太复杂 。g达不到f的形式,也会产生过拟合。模型f太复杂,其实也是一种噪声。
3. 数据的 noise 太大。(所以,有问题的数据一定要删除掉,不然模型就会严重错误。就像那次 仓库优化的项目一样) 这种情况下2做的比10好
4. 数据量受限。

我们现在举两个例子。

因此,在数据量小的情况下,及时你知道目标函数f是10次或者更高,你用10次的模型去拟合,得到的结果也没有用2次的模型去拟合得到的效果好。

f很复杂,那么就更容易过拟合所以数据量小的情况,简单的模型更容易会赢。

所以,以后建模的时候,一定要从简单的模型开始,即使你知道目标函数的形式。

现在我们来看看,noise,模型复杂度,数据量三者对过拟合的影响!!!
我们假设样本的y由真实值f(x),和噪声 ϵ 表示

那么解决过拟合的方法有:

数据清洗,就是有的数据修改标签,或者直接把这个数据删除掉,不要了。
我们希望增大数据量,但是有的时候,数据量并不好获得,那么我们可以考虑一下 数据提示data hinting.
data hinting:有时数据资料无法收集太多,那么我们可以从现有的资料,或者你对这个问题的了解去产生新的或者更多的资料,也就是给机器学习算法多一点的提示。

比如,我们做手写数字识别,但是样本很少。我们就可以把有的数据改一下成为新的数据。比如把数字‘3’向左稍微的挪一下,把某数据稍微的旋转一下,以此获得新数据。但是这有缺点,因为我们所有的模型都是假设数据服从iid条件的,即所有数据都是的,服从同一分布的。我们这样修改,一定要小心,要不然构造的虚拟样本不服从原来分布就不好了。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- gamedaodao.net 版权所有 湘ICP备2024080961号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务