人工智能机器学习有关算法内容,请求参看公众号“科技优化生活”之前涉及文章。人工智能之机器学习主要有三大类:1)分类;2)重返;3)聚类。
今天我们重点探究一下Apriori算法。^_^Apriori算法是经典的挖出频密项集和关联规则的数据挖掘算法,也是十大经典机器学习算法之一。Agrawal和Srikant两位博士在1994年明确提出了Apriori算法,主要用作做到较慢的关联规则分析。Apriori在拉丁语中指来自以前。
当定义问题时,一般来说不会用于先验科学知识或者假设,这被称作一个先验(apriori)。Apriori算法正是基于这样的事实:算法用于频密项集性质的先验性质,即频密项集的所有非空子集也一定是频密的。Apriori算法概念:Apriori算法用于一种称作逐级搜寻的递归方法,其中k项集用作探寻(k+1)项集。首先,通过扫瞄数据库,总计每个项的计数,并搜集符合大于反对度的项,找到频密1项集的子集。
该子集记作L1。然后,用于L1找到频密2项集的子集L2,用于L2找到L3,如此下去,直到无法再行寻找频密k项集。每找到一个Lk必须一次数据库的原始扫瞄。
Apriori算法用于频密项集的先验性质来传输搜寻空间。录:数据库中的数据可以是结构化的,也可以是半结构化的,甚至还可以是产于在网络上的异构型数据。Apriori算法是一种最有影响的挖出布尔关联规则频密项集的算法。
其核心是基于两阶段频集思想的行列式算法。该关联规则在分类上归属于单维、单层、布尔关联规则。在这里,所有反对度小于大于反对度的项集称作频密项集,全称频集。Apriori算法中术语:1、项集和K-项集令I={i1,i2,i3……id}是数据中所有项的子集,而T={t1,t2,t3….tN}是所有事务的子集,每个事务ti包括的项集都是I的子集。
在关联分析中,包括0个或多个项的子集称作项集。如果一个项集包括K个项,则称之为它为K-项集。空集是所指不包括任何项的项集。
2、反对度计数项集的一个最重要性质是它的反对度计数,即包括特定项集的事务个数,数学上,项集X的反对度计数σ(X)可以回应为:σ(X)=|{ti|X?ti,ti∈T}|其中,符号|*|回应子集中元素的个数。3、关联规则关联规则是形似X→Y的蕴藏表达式,其中X和Y是不共线的项集,即X∩Y=空。关联规则的强度可以用它的反对度(support)和置信度(confidence)来度量。反对度确认规则可以用作等价数据集的频密程度,而置信度确认Y在包括X的事务中经常出现的频密程度。
反对度(s)和置信度(c)这两种度量的形式定义如下:s(X→Y)=σ(X∪Y)/Nc(X→Y)=σ(X∪Y)/σ(X)其中,σ(X∪Y)是(X∪Y)的反对度计数,N为事务总数,σ(X)是X的反对度计数。对于靠谱的关联规则,其反对度与置信度皆不应小于原作的阈值。那么,关联分析问题即等价于:对等价的反对度阈值min_sup、置信度阈值min_conf,找到所有的符合下列条件的关联规则:反对度=min_sup置信度=min_conf把反对度小于阈值的项集称作频密项集(frequentitemset)。
因此,关联规则分析可分成下列两个步骤:1)分解频密项集F=X∪Y;2)在频密项集F中,找到所有置信度小于大于置信度的关联规则X-YApriori算法思想:1)找到所有的频集,这些项集经常出现的频密性最少和预计义的大于反对度一样。2)由频集产生强劲关联规则,这些规则必需符合大于反对度和大于可信度。3)用于第1)步寻找的频集产生希望的规则,产生只包括子集的项的所有规则,其中每一条规则的右部只有一项,这里使用的是中规则的定义。4)一旦这些规则被分解,那么只有那些小于用户等价的大于可信度的规则才被留下。
为了分解所有频集,用于了迭代的方法。Aprior算法程序如下:Apriori算法优点:1)用于先验性质,大大提高了频密项集逐级产生的效率;2)非常简单不易解读;3)数据集拒绝较低;4)扩展性较好,可以并行计算。Apriori算法缺点:1)有可能产生大量的候选集;2)有可能必须反复扫瞄整个数据库,十分耗时。Apriori算法改良:定理:如果规则X-Y?X不符合置信度阈值,则对于X的子集X′-Y?X′也不符合置信度阈值。
根据此定理,可对规则树根展开剪枝,其明确改良的算法如下:Apriori算法应用于:通过对数据的关联性展开了分析和挖出,挖掘出的这些信息在决策制定过程中具备最重要的参考价值。Apriori算法被普遍应用于各种领域:1)应用于商业活动领域,应用于消费市场价格分析中,它需要迅速的算出各种产品之间的价格关系和它们之间的影响。2)应用于网络安全领域,通过模式的自学和训练可以找到网络用户的出现异常不道德模式,需要较慢的瞄准攻击者,提升了基于关联规则的侵略检测系统的检测性。
3)应用于高校管理中。随着高校贫困生人数的大大减少,学校管理部门资助工作难度也越发减小。针对这一现象,将关联规则的Apriori算法应用于到贫穷助学体系中,挖掘出的规则也可以有效地辅助学校管理部门有针对性的积极开展贫穷助学工作。
4)应用于移动通信领域。基于移动通信运营商正在建设的电子货币业务Web数据仓库平台,对来自移动电子货币业务方面的调查数据展开了涉及的挖出处置,从而取得了关于用户不道德特征和市场需求的间接体现市场动态的简单信息,这些信息在指导运营商的业务运营和辅助业务提供商的决策制定等方面具备十分最重要的参考价值。结语:Apriori算法是一种挖出关联规则的频密项集算法,其核心思想是通过候选集分解和情节的向上堵塞检测两个阶段来挖出频密项集。
主要用作做到较慢的关联规则分析。Apriori算法在世界上广为流传,获得很大的注目。Apriori算法早已被普遍的应用于到商业、网络安全、高校管理和移动通信等领域。
------以往文章引荐------机器学习深度自学人工神经网络决策树随机森林增强自学迁入自学遗传算法朴素贝叶斯反对向量机蒙特卡罗方法马尔科夫模型Hopfield神经网络重返模型K附近算法卷积神经网络有限玻尔兹曼机循环神经网络宽短时记忆神经网络Adaboost算法ID3算法C4.。
本文来源:半岛平台官网-www.hptonerdeal.com