机器学习的训练集和测试集划分问题?
文兄 6小时前 168 机器学习我在做股票行情预测训练中发现一个现象,不知道背后的原因是什么。 使用sklearn的train_test_split进行训练集和测试集数据划分后,数据的顺序被打乱,不再按照日期排序。这时候预测的准确度高达80%。鉴于这个准确度比较吓人,我有点怀疑。于是就对数据按照日期顺序划分训练集和测试集,比如2015年之前的作为训练集,之后的作为测试集。重新训练后,预测准确度下降到了50%。有人说是使用了未来数据吗,但是features和lables是在划…
0 赞 0 踩
其他回答
你这种做法,对时间序列来说,相当于所有结果都是insample。
举个例子,如果一个股票14年走势直线下跌,15年走势直线上涨。正常做法14年insample, 模型会更倾向给下跌判断。 那么15年outsample就会出现巨大的误差。
但按你的采样方法,相当于模型提前得知了15年涨跌的部分分布,这样结果看起来很美,但实际中你怎么可能得到未来的一部分训练数据呢?