机器学习的训练集和测试集划分问题？

发布日期：2018-06-09 来源：财富国际在线阅读：

机器学习的训练集和测试集划分问题？

文兄 6小时前 168 机器学习

我在做股票行情预测训练中发现一个现象，不知道背后的原因是什么。使用sklearn的train_test_split进行训练集和测试集数据划分后，数据的顺序被打乱，不再按照日期排序。这时候预测的准确度高达80%。鉴于这个准确度比较吓人，我有点怀疑。于是就对数据按照日期顺序划分训练集和测试集，比如2015年之前的作为训练集，之后的作为测试集。重新训练后，预测准确度下降到了50%。有人说是使用了未来数据吗，但是features和lables是在划…

0 赞 0 踩

其他回答

你这种做法，对时间序列来说，相当于所有结果都是insample。D82财富国际

举个例子，如果一个股票14年走势直线下跌，15年走势直线上涨。正常做法14年insample, 模型会更倾向给下跌判断。那么15年outsample就会出现巨大的误差。D82财富国际

但按你的采样方法，相当于模型提前得知了15年涨跌的部分分布，这样结果看起来很美，但实际中你怎么可能得到未来的一部分训练数据呢？D82财富国际

TraderJay's 5小时前 0条评论

0 赞 0 踩

我之前也遇到过这种情况，我的理解是，市场形态和模式是不断变化的，也经常会出现之前从未见过的一种新的市场形态。如果你将时间打乱，通过随机抽样来划分训练集和测试集，相当于可以学到过去现在未来所有出现的市场形态，然而这在现实操作中是不可能的，显著的用到了未来的信息。D82财富国际

文兄 5小时前 0条评论

0 赞 0 踩