金融时间序列数据预测方法探析

时间:2024-02-02 点赞:45644 浏览:89194 作者原创标记本站原创

此文是一篇金融市场论文范文,金融市场类论文范文文献,与金融时间序列数据预测方法探析相关硕士论文开题报告。适合不知如何写金融市场及序列及数据方面的金融管理专业大学硕士和本科毕业论文以及金融市场类开题报告范文和职称论文的作为写作参考文献资料下载。

中图分类号:F201 文献标识码:A

内容摘 要 :本文提出了一种改进的金融时间序列数据预测方法,该方法首先对采集到的数据进行预处理,然后利用决策树来对金融时间序列进行特征抽取,并建立基于支持向量机的时间序列预测模型,最后对时间序列数据进行预测并输出预测结果.仿真结果表明,本文提出的方法可以有效地降低预测模型复杂度,同时提高预测能力和泛化性能.

关 键 词 :金融时间序列 决策树 支持向量机 预测

金融时间序列是指在金融市场(如股票市场、外汇市场等)上金融产品的价格按时间顺序而得到的一列价格数据,它是金融市场分析的基础.本文研究的对象是证券指数中的价格数据与交易数据,研究的任务是要从这些数据中提取有用信息,将这些信息转化为知识或规律,并最终有利于人们当前和未来的生产和生活实践.

相关文献综述

金融时间序列预测方法的研究是目前的热点问题,例如,熊正丰(2002)讨论了金融时间序列的性质,通过实际数据说明,金融时间序列具有两个重要特性.统计自相似性和非平稳性/利用正交小波变换的方法,给出了其分形维的估计方法.最后,实证分析了国内金融市场,并分别得出了上证综合指数序列过程和深证成分指数序列过程的分形维.

辛治远等(2008)提出了一种基于最小二乘支持向量机的复杂金融数据时间序列预测方法.实验中以证券指数为实验数据,对大批量金融数据进行了时间序列预测,相比于神经网络预测方法,该方法在大批量金融数据时间序列预测的训练时间、训练次数和预测误差上都有了明显提高,对复杂金融时问序列具有较好的预测效果.

黄超(2005)针对金融时间序列的趋势性和趋势变动性,提出了基于回归系数的时间序列维约简方法—逐段回归近似(PRA),该方法具有线性时间复杂度,并且对均值平稳的独立噪声干扰不敏感.同时证明了使用PRA方法进行相似性查找满足下界定理(也称为收缩性),因而是有效的.对实际数据的实验结果表明,使用PRA方法,可以对金融时间序列进行基于趋势与趋势变动的相似性查找.

李斌(2001)对金融事件序列数据挖掘的关键算法进行了研究,针对多个时间序列之间数据不同步的问题,提出了非同步多时间序列中频繁结构模式的发现算法,结合本文提出的时间序列符号化转换方法,实现了多个金融时间序列中频繁结构模式的发掘.

然而,上述的金融时间序列预测方法还存在一定的不足,随着测试数据集的不同,方法的有效性以及准确度等都会有迥异的实验结果,甚至有些预测方法针对某些数据集根本无法使用.本文提出了一种改进的金融时间序列数据预测方法.经过分析与实验结果表明,本文提出的方法是有效的.

金融时间序列数据的特征提取

(一)决策树的构造

由于本文考虑的金融时间序列数据(如股票、证劵指数)所包含的属性属于离散属性,所以采用ID3来构建决策树.构造过程如下:第一步是将数据分为训练集和测试集.训练集主要用于分析数据生成决策树,测试集用于测试决策树的正确性.第二步是计算所有属性的信息增量,选择信息增量最大的属性为根节点.具体计算属性信息增量的步骤如下:

1.计算给定的训练集分类数据的信息期望值I.用D表示训练集,分为k类,也即k个子集:D1,D2,D3等Dk.d:训练集中数据的总数量;di:属于Di的数据数量.


那么实例属于第i类的概率为:.训练集分类的信息期望I:

2.计算属性Ai每个取值的信息期望I(A等于aj),j等于1,2,3等m.设A为数据集的某一属性,A的取值为a1,a2,等am.am代表一个数值. dj:aj包含的数值的数量;dij:当A等于aj时,对应的属于子集Di的数量.

实例属于第i类(Di)的条件概率:

3.计算属性A的信息熵Entropy(A). (4)

其中:

4.计算属性A的信息增益Gain(A).属性A对于分类提供的信息量,叫做属性A的信息增益,记为Gain(A),则:

Gain(A)等于Entropy(A)-I (5)

第三步根据信息增益构建决策树.选择信息增益最大的作为根节点来构建决策树.由根节点属性在不同条件下建立分支;第四步采用递归的方法,对各分支的子集依旧选择信息增益最大的属性作为子节点.

(二)基于ID3算法的金融时间序列数据的信息增益计算

第一步以“上证指数”为例选择2008年4月30日前500个交易日的开盘、最高、最低、收盘、成交额和成交量属性数列作为训练集.第二步计算属性的信息增量.

1.计算训练集分类数据的信息期望值I.用D表示训练集,分为6类,即6个子集:D1,D2,D3,D4,D5,D6,设a表示一天内收盘价相对于开盘价的涨幅,D1表示a<-100,D2表示-100≤a<-50,D3表示-50≤a<0,D4表示0≤a<50,D5表示50≤a<100,D6表示100≤a.训练集中的数据总数量为500,即d=500,d1=42,d2=31,d3=125,d4=197,d5=69,d6=36.则:

由公式(1)得知,训练集分类的信息期望I,即:

2.计算属性的每个取值的信息期望I(A等于aj).在此,属性“开盘价”、“最高价”、“最低价”、“收盘价”、“成交量”、“成交额”和“涨幅”分别用A1,A2,A3,A4,A5,A6表示,以“开盘价”A1为例来求解.在计算之前,因为A1的所有取值是不同的,所以要定义数值区间.根据Excel图表中的数值,定义区间(0,2000)、[2000,3000)、[3000,4000)、[4000,5000)、[5000,∞),分别用a1,a2,a3,a4,a5表示,则da1等于149,da2等于75,da3等于94,da4等于93,da5等于89(dai表示区间ai包含的数据数量).用daj,i表示属于区间aj,同时属于Di的数据量(其中i等于1,2等6,j等于1,2等5),则:

相关论文

吉林省居民消费时间序列与预测

本文是一篇计量经济学论文范文,计量经济学类毕业论文参考文献格式,关于吉林省居民消费时间序列与预测相关毕业论文开题报告范文。适合计量经。

金融数据时间序列相似性度量的应用

本文是一篇数据库论文范文,关于数据库函授毕业论文,关于金融数据时间序列相似性度量的应用相关毕业论文的格式范文。适合数据库及序列及社会。

基于权威时间戳的电子数据固定方法

本文是一篇计算机论文范文,计算机类有关在职毕业论文开题报告,关于基于权威时间戳的电子数据固定方法相关硕士论文范文。适合计算机及时间及。