机器学习的训练集和测试集划分问题?

发布日期:2018-06-09 来源:财富国际在线 阅读:

机器学习的训练集和测试集划分问题?

文兄 6小时前 168 机器学习
我在做股票行情预测训练中发现一个现象,不知道背后的原因是什么。 使用sklearn的train_test_split进行训练集和测试集数据划分后,数据的顺序被打乱,不再按照日期排序。这时候预测的准确度高达80%。鉴于这个准确度比较吓人,我有点怀疑。于是就对数据按照日期顺序划分训练集和测试集,比如2015年之前的作为训练集,之后的作为测试集。重新训练后,预测准确度下降到了50%。有人说是使用了未来数据吗,但是features和lables是在划…
0 0
其他回答

你这种做法,对时间序列来说,相当于所有结果都是insample。D82财富国际

举个例子,如果一个股票14年走势直线下跌,15年走势直线上涨。正常做法14年insample, 模型会更倾向给下跌判断。 那么15年outsample就会出现巨大的误差。D82财富国际

但按你的采样方法,相当于模型提前得知了15年涨跌的部分分布,这样结果看起来很美,但实际中你怎么可能得到未来的一部分训练数据呢?D82财富国际

TraderJay's 5小时前 0条评论
0 0

我之前也遇到过这种情况,我的理解是,市场形态和模式是不断变化的,也经常会出现之前从未见过的一种新的市场形态。如果你将时间打乱,通过随机抽样来划分训练集和测试集,相当于可以学到过去现在未来所有出现的市场形态,然而这在现实操作中是不可能的,显著的用到了未来的信息。D82财富国际

文兄 5小时前 0条评论
0 0

关于我们 联系我们招聘信息免责申明广告服务 网站地图 百度地图 TAG标签

Copyright@2018-2022 Cfgjzx.Com 财富国际在线 版权所有 All Rights Reserved   
财富国际提供:最新财富资讯、房产资讯、股票资讯、区块链、投资理财、保险导购、健康产品、公私募基金,易经等资讯及服务.