关联规则在艺术品股票预测方面的应用

2016-12-21 07:14赵艳琪
网络安全与数据管理 2016年23期
关键词:股票价格项集置信度

赵艳琪,苟 刚

(贵州大学 计算机科学与技术学院,贵州 贵阳 550025)



关联规则在艺术品股票预测方面的应用

赵艳琪,苟 刚

(贵州大学 计算机科学与技术学院,贵州 贵阳 550025)

股票市场瞬息万变,每天产生大量的交易数据。随着艺术品股票市场的兴起,越来越多的人投资于艺术品股票。由于艺术品股票价格受多方面的影响,需要寻求更为有效的方法来对艺术品交易市场进行预测。利用Apriori算法的改进算法对艺术品股票进行关联规则挖掘,得到艺术品股票之间的关联关系,进而对投资者做出正确决策有一定的辅助作用,防止投资者盲目投资,降低艺术品股票市场交易风险。

数据挖掘;关联规则;艺术品股票

0 引言

近年来,随着中国藏品热和我国政府关于艺术品交易政策的改变,中国已经取代美国成为世界第一大艺术品交易市场。2010年7月,深圳文化产权交易所推出了“深圳文化产权交易所1号艺术品资产包”,这是国内外首次出现的“权益拆分”投资模式,即艺术品股票。自此艺术品股票作为一种新型的金融产品越来越受到人们的关注[1]。

由于艺术品股票价格受多方面的影响,尤其是艺术品交易市场相对于股票市场来说庄家的影响更大,所以需要寻求更为有效的方法来对艺术品交易市场进行预测。在艺术品股票市场,每天都会产生海量的交易数据,这些数据虽然存储在数据仓库中,但是并没有得到有效的利用。通过数据挖掘技术分析股票市场数据,投资者可以从中得出有效的投资信息,并综合分析利弊以后做出投资决策,提高投资收益率。

一般来说,数据挖掘是指从数据库或数据仓库中发现隐藏的、预先未知的、有趣的信息的过程[2]。在国内,台湾义守大学陈庆翰开发了MIAT仿生物智慧股票预测系统,该系统是一个可以建立自我学习、自我组织、自我调节、自我改善的高度自主性智慧型系统[3]。国内还有许多著名的学者在股票预测方面做过大量的工作。国际方面,Morgan、Stannlog等人已经开发了AI(Automated Investor)系统,该系统通过采用聚类、可视化和预测技术来寻求最佳投资时机[4]。

本文致力于通过关联规则算法获得艺术品股票之间的关联关系,如“在某个时间段X范围内,艺术品股票A和B价格上涨时,有80%的情况下,股票C的价格也会随之上涨”。这样,就可以对投资者有一定的借鉴意义,防止被套牢。

1 关联规则介绍

1.1 算法思想

假设有多个购物篮,每个购物篮是由多个项组成的集合(即为项集itemset),那么一个在多个购物篮中出现的项集称为“频繁”项集。

定义1 支持度:如果I是一个项集,I的支持度(support)指包含I的购物篮的数目,此时定义一个支持度阈值(support threshold)s,如果I的支持度不小于s,则I为频繁项集。

定义2 置信度:I→j的置信度即为集合I∪{j}的支持度与I的支持度的比值。顾名思义,置信度即为得到的规则的可信任程度。

AGRAWAL R和SRIKANT R于1994年提出了Apriori算法,该算法是关联规则挖掘的最有影响的迭代算法[5]。设Cm为大小为m的候选项集集合,Ln为大小为n的真正频繁项集集合。Apriori算法是将候选项集不断过滤,得到频繁项集,再将频繁项集进一步过滤,得到新的频繁项集,如:首先找到“1项集”的集合,再将其支持度与支持度阈值相比较,过滤得到频繁“1项集”,记作L1,再将其进行组合,得到“2项集”,再将其支持度与支持度阈值相比较,过滤得到频繁“2项集”,记作L2,以此类推,直到找到最终的频繁项集。具体步骤如图1。

图1 Apriori算法找到真正频繁项集过程示意图

1.2 算法实例

表1 商品购买情况

表1为某商场9天内的商品交易情况,设定支持度为2,置信度为80%。利用Apriori算法寻找所有满足条件的关联规则的过程如图2所示。

图2 Apriori算法实例流程图

接下来四项集只有{I1,I2,I3,I4},且其支持度为1,小于支持度阈值,故{I1,I2,I3,I4}不是频繁项集。由以上步骤可得:最大的频繁项集为{I1,I2,I3}、{I1,I2,I4}。关联规则产生步骤如下:

(1) 对于每个频繁项集l,产生其所有非空真子集;

(2) 对于每个非空真子集s,如果其置信度不小于最小置信度阈值,则为强关联规则。

经计算,强关联规则为I4→I2和I1&&I4→I2,置信度均为100%。

2 改进的关联规则挖掘算法

在关联规则挖掘算法中,经典的Apriori挖掘算法是通过项目集数目不断增长来得到所有的频繁项目集的,即先产生频繁“1项集”,再产生频繁“2项集”,直到频繁项目集中的元素不能扩增为止。传统的Apriori算法有两个瓶颈:(1)需要多次扫描数据库,对于候选项集Ck,需要扫描k次数据库来确定其是否为频繁项集,是否可加入Lk;(2)由于频繁“k-1项集”产生候选“k-1项集”是将频繁项集中的元素进行组合得到,呈指数增长,这将产生大量的频繁项集,从而产生大量的关联规则[6]。这两个瓶颈明显降低了算法的效率。

因此,在传统关联规则算法的基础上,本文提出Apriori算法的改进算法,即Partition算法。由于Apriori算法需要对数据库进行多次扫描,这个过程非常繁琐,可以将数据库逻辑性地分成几个互不相交的块,即分而治之。Partition算法步骤如下:(1)每次都只针对单独一个分块,其中分块的大小要保证可以放入主存,每个阶段秩序被扫描一次,而算法的正确性是由每一个可能的频集至少在该分块中是频集保证的。利用Apriori算法产生它的频繁项集。(2)把所有分区产生的频繁项集合并,生成候选项集,扫描整个数据库,计算这些项集的支持度,最终得到全局的支持度不小于支持度阈值的频繁项集。该算法流程如图3。

图3 Partitioni算法流程图

Partition算法共扫描数据库两次。第一次扫描是对数据库进行分块,找出各块的频繁项集,即局部频繁项集;第二次扫描数据库是求候选集的支持度,用以计算全局频繁项集。相对于传统Apriori算法,Partition算法全程只扫描两次数据库,大大减少了I/O操作。由于Partition算法是并行计算,同时对各个分区进行求频繁项集的操作,大大提高了算法的效率。

Partition算法是高度并行的,即把各个分块的处理分配给不同的处理器来产生频繁项集,在每一个循环结束之后,各个处理器之间会进行通信,以产生全局候选项集。

3关联规则在股票方面的应用

在文化艺术品交易市场,每天都会产生大量的交易数据,利用数据挖据技术对股票市场的股票价格以及股票的走势进行预测,通过运用关联规则技术对艺术品股票市场进行分析,为投资人提供较为准确的预测结果,防止投资者盲目投资[7]。

本文选择了某艺术品股票交易市场2016年1月~5月几个月的交易数据,以此为依据进行股票关联规则挖掘。选取其中6只股票并分别记为A、B、C、D、E、F。然后对股票进行预处理,如果某天A股票上涨,则记为A0,若下跌则记为A1,其他股票同理。部分股票数据如表2所示。

表2 部分股票数据

运用Apriori算法的改进算法——Partition算法进行关联规则挖掘,在实验中,设定支持度为60,置信度为70%,得到如表3所示挖掘结果。

表3 部分实验结果

由规则1可知,当A和D艺术品股票价格均上涨时,C艺术品股票价格上涨的概率为85%。投资者根据这一信息,在艺术品股票A和D均上涨时,可以考虑购买一定的C艺术品股票,因为很有可能过段时间C艺术品股票价格就上涨了。

由规则2可知,当D艺术品股票价格下跌,同时F艺术品股票价格上涨时,C艺术品股票价格下跌的概率为88%。因此,在D艺术品股票价格下跌,同时F艺术品股票价格上涨时,投资者如果手中持有C艺术品股票,可以趁C艺术品股票价格未下跌时及早抛售,如果手中未持有C艺术品股票,可等过段时间C艺术品股票价格下跌时低价购买。其他几个艺术品股票关联规则同理。

4 结束语

本文将关联规则的Apriori算法的改进算法应用到艺术品股票交易市场的预测上,得出如“当A和D艺术品股票价格均上涨时,C艺术品股票价格上涨的概率为85%”这样的关联规则,投资机构和普通股民可以根据挖掘出的关联规则快速得到各个艺术品股票之间的关联关系,进而决定买入或者卖出哪只股票,以使自己的投资收益最大化。对艺术品股票进行关联规则挖掘可为投资者提供较为准确和有效的投资信息,对艺术品股票投资有一定的指导意义,可促进中国文化艺术品交易市场更好的发展。

[1] 王洋.艺术品的股票交易[N].中华工商时报,2011-3-11(21).

[2] 朱明. 数据挖掘[M].合肥:中国科学技术大学出版社,2002.

[3] HAND D, MANNILA H, SMYTH P.Principles of data mining[M].MA: The MIT press,2001.

[4] RAMASUBBAREDDY B. Mining positive and negative association rules[C]. International Conference on Computer Science and Education,2010:1403-1406.

[5] 郑朝霞,刘廷建.关联规则在股票分析中的应用[J].成都大学学报,2002,11(4):46-50.

[6] 周涛,陆惠玲.数据挖掘中聚类算法研究进展[J].计算机工程与应用,2012,48(12):100-111.

[7] 孙媌. 基于数据挖掘的股票分析和预测模型的设计与应用[D].北京:北京邮电大学,2011.

The application of association rules in the prediction of art stocks

Zhao Yanqi,Gou Gang

(College of Computer Science & Technology,Guizhou University ,Guiyang 550025, China)

The stock market is constantly changing , resulting in a lot of transaction data every day.With the rise of the art stock market, more and more people invest in the art stock. Because of the influence of many aspects of the art stock price, it need to seek a more effective method to forecast the art market. Using the improved algorithm of Apriori algorithm to proceed association rules mining to get the relationship between the artstocs. It can help to make the right decision for investors , to prevent investors blind investment, reduce the risk of stock market transactions.

data mining;association rules; art stock

TP399

A

10.19358/j.issn.1674- 7720.2016.23.026

赵艳琪,苟刚. 关联规则在艺术品股票预测方面的应用[J].微型机与应用,2016,35(23):90-92.

2016-08-15)

赵艳琪(1993-),女,硕士研究生,主要研究方向:数据库技术与应用系统。

苟刚(1976-),男,副教授,主要研究方向:地理信息系统,智慧城市,大数据与移动互联网应用技术。

猜你喜欢
股票价格项集置信度
一种基于定位置信度预测的二阶段目标检测方法
硼铝复合材料硼含量置信度临界安全分析研究
基于GARCH族模型的重庆啤酒股票价格波动研究
系统可靠性评估与更新方法
不确定数据的约束频繁闭项集挖掘算法
正负关联规则两级置信度阈值设置方法
一种垂直结构的高效用项集挖掘算法
上市公司财务指标与股票价格的相关性实证分析
我国股票价格指数与“克强指数”的关系研究
基于多元回归与技术分析的组合股票价格预测