缔冠期刊网

关联规则在股票分析中的应用

2022-06-08

  本文介绍了在数据挖掘中关联规则的基本概念和属性,进一步讨论了关联规则在股票信息数据挖掘中的应用.股票的行情交易数据库在经过一定的预处理后,用Aprorio算法挖掘出隐藏在数据背后的有用的规则,为投资者提供了有效的决策支持.


  关键词:数据挖掘;关联规则;股票分析;知识发现;


  作者:曾朝霞等


  数据挖掘又称知识发现,是指从大量数据中提取可信的、新颖的、有效的并最终能被人们理解的模式处理过程[1,2].它系统地应用机器学习、统计分析、归纳学习,以及其他计算机科学技术和工具等抽取、表示和分析存在于一个大型数据库中的知识,成为近年来热门的研究领域.


  在数据挖掘的知识模式中,关联规则是比较重要的一切.关联规则挖掘从大量数据中发现有趣的关联关系,可以帮助制定决策,如分类设计、交叉购物和投资分析.


  1关联规则的定义和属性


  关联规则是美国IBMAlmadenResearchCenter的RakeshAgrawal等人于1993年首先提出来的KDD研究的一个重要课题[3].现实中一个比较典型的例子是购物篮分析.超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品,物品的数量及金额等.这些数据中常常隐含形式如下的关联规则:在购买牛奶的顾客当中,有60%的人同时购买了面包.这些关联规则很有价值,商场管理人员可以根据这些关联规则有选择地安排货架,能够促进销售.


  引理设I={i1,i2…,im}是项的集合.设任务相关的数据D是数据库事务的集合,D中每个事务T是项的集合,即T⊆I.设A是一个项集,当A⊆T,则称事务T支持项集A.关联规则是如下形式的一种蕴含:A⇒B,其中A⊂I,B⊂I,且A∩B=Φ.关联规则的兴趣度度量用两个参数来表示:


  (1)置信度


  设D中包含项集A的事务中,有c%的事务同时也包含项集B,c%称为关联规则A⇒B的置信度.即:


  confidence(A⇒B)=p(B|A)


  (2)支持度


  设D中有s%的事务同时包含项集A和B,s%称为关联规则AB的支持度.即:


  support(A⇒B)=P(A∪B)置信度和支持度比较能够直接形容关联规则的性质.事实上人们一般只对满足一定的支持度和置信度的关联规则感兴趣.因此,为了发现有意义的关联规则,需要给定两个阀值:最小支持度(min_sup)和最小置信度(min_conf).这些阀值可以由用户或专家设定.同时满足最小支持度和最小置信度的规则称作强规则.


  有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合.但经过一定的预处理后,仍然可以像售货数据那样进行关联规则的挖掘和分析.比如股票的交易行情,每天有数以千万计的交易数据存入行情库,我们对这些数据进行过滤和清理,挖掘出我们感兴趣的规则.


  2关联规则挖掘在股票信息中的应用


  在股票交易的事务处理中,每天有以交易为主的大量数据汇入数据仓库.上市公司之间由于存在合作、竞争等关系,因此某些股票价格在一定时间内会出现相似或相反的趋势.挖掘这些数据或股票之间的关联规则有利于投资者了解各种股票的走势及股票之间有关系,进一步分析上市公司的各种政策和方案,从而做出正确的投资决策.下面用2002年2月到4月沪市中的部分上市股票进行分析为例来说明.


  2.1数据预处理定义1设股票行情数据库D={R1,R2,…,Rn}.


  其中Ri记录了D中股票i的历史行情(1≤i≤n),Ri={Ci,S1,R2,…,Sm},Ci是Ri的股票代码,m为所记录的即时行情个数,Sj记录Ri的第j个即时行情,1≤j≤m.


  Sj中可包含时间,开盘价,收盘价,最高价,最低价,涨幅,成交量,成交额等内容,其中的一小部分见表1.


  现在我们想通过数据挖掘找出类似于“T时间内,当A股票价格上涨时,B股票价格也会随之上涨”的关联规则.所以我们主要关心股票交易的时间和涨跌幅,其他如开盘价,成交量等可以认为是一些无关信息,因此从数据源中挑选股票代码、交易时间、涨跌幅做进一步分析.为减小计算量,引入最小涨幅Zmin,|Zmin|≤10%.


  定义2设股票交易集T={T1,T2,…Ts}.


  其中Ti={Ci1,Ciz,…Cik},1≤i≤s,且如果k1


  将交易行情库的数据进行预处理后的数据如表2所示.在转换后的数据之上,就可以挖掘关联规则.


  2.2挖掘关联规则


  定义3如果项集的出现频率大于或等于最小支持度(min-sup)与D中事务总数的乘积,则该项集满足最小支持度,称它为频繁项集(frequentitemset).


  关联规则的挖掘是一个两步的过程:


  (1)找出所有的频繁项集.


  (2)利用频繁项集生成所需要的关联规则.


  挖掘关联规则整个执行过程中第一步是核心问题.由于股票代码属于布尔型变量,相当于售货数据库中的商品,我们可以直接采用Apriori算法进行挖掘分析[4]:第一步,简单统计所有含一个元素的项目集出现的频率,并找出那些不小于最小支持度的项目集,即频繁1项集.从第二步开始循环处理直到再没有频繁项集生成.循环过程是:第k步中,根据第k-1步的频繁k-1项集产生k侯选k项集,然后对数据库进行搜索,得到侯选项目集的项集支持度,与最小支持度比较,从而找到频繁k项集.由此我们输入预处理后的数据库D和最小支持度阈值min-sup,可以得到频繁项集,用最小置信度对生在的频繁项集过滤,得到强规则.


  2.3实验结果


  本文选择了2002年3月中旬到5月中旬沪市中的部分上市的股票进行关联规则的挖掘分析,得到了许多有意义的规则.如60016⇒600131(support=2%,confidece=60%),在支持度为2%.置信度为60%的条件下,代码为60016和600131的两支股票有同时上涨的趋势,进一步分析称们可以看到这两支股票同为西部地区的电力股.


  在上述挖掘结果的基础上,我们可以进行二次挖掘,进一步分析各支股票之间趋势变化的周期性和多维相似性等,得到更多有用的结果.


  3结语


  本文简单介绍了关联规则及其在挖掘股市有效信息的应用,通过股票价格的变化分析得到我们感兴趣的规则.由于没考虑股票成交量的因素,挖掘的结果有一定局限性.同时我们知道股票的价格往往是政治、经济、社会等因素的综合反映,股票价格对以上信息变化及其敏剐,因此挖掘出的关联规则最好结合证券市场的基本面信息进行综合分析以提高其有效性.

论文中心更多

期刊百科
期刊投稿 期刊知识 期刊审稿 核心期刊目录 录用通知 期刊版面费 投稿期刊推荐 学术问答
基础教育
小学语文 中学语文 小学数学 中学数学 小学英语 中学英语 物理教学 化学教学 生物教学 政治教学 历史教学 地理教学 科学教学 音乐教学 美术教学 体育教学 信息技术 班主任管理 校长管理 幼教 教育管理 微课教学 作文教学 德育教学 教学设计
医学论文
内科医学 外科医学 预防医学 妇科医学 检测医学 眼科医学 临床医学 药学论文 口腔医学 中西医 中医学 外科 护理 基础医学 急救医学 老年医学 医学实验 儿科医学 神经医学 兽医学 肿瘤医学 综合医学
职业教育
教育学原理 电影文学教育 学前教育 教育学管理 高等教育学 教育技术学 职业技术教育 成人教育学 特殊教育学 教育心理学 家庭教育 教育毕业 中专中职教育 教学设计 国学教育 学术研究 大学教育
药学卫生
社区门诊 医药学 医患关系 医院管理 疾病预防 保健医学 公共卫生 医学教育
文科论文
农业经济 工商管理毕业 会计毕业 行政管理 法律毕业 市场营销 经济毕业 汉语言文学 财务管理 物流管理 人力资源 旅游管理 国际贸易 物业管理 新闻学 企业管理 金融银行 社会科学 食品安全 办公档案 审计学 税务税收学 外国文学 哲学
理科论文
机电毕业 土木工程 计算机毕业 电气毕业 建筑毕业 电子商务 工程毕业 设计毕业 机械制造 汽车毕业 园林毕业 农学毕业 数控毕业 软件技术 水利工程 环境生态 畜牧渔业 化工毕业 科技创新 石油矿藏
论文格式
开题报告 论文题目 摘要关键词 目录提纲 论文致谢 参考文献 附录其他 论文答辩
职业论文
教育论文 经济论文 科技论文 财会论文 管理论文 医学论文 法学论文 文学论文 工业论文 建筑论文 农业论文 水利论文 计算机论文 社科论文 机械论文 生态环境 中西文化

先发表后付款 不成功可退款

权威机构认证 专注期刊10余年 1000余家杂志社长期合作

缔冠期刊网

首页 网站地图 返回顶部
Copyright © 1998- 缔冠期刊网