(转载)微软数据挖掘算法应用场景介绍 (1)Microsoft决策数算法 (2)Microsoft 聚类分析 (3)Microsoft Naive Bayes (4)Microsoft时序算法 (5)Microsoft关联规则分析算法 (6)Microsoft顺序分析和聚类分析算法 (7)Microsoft神经网络分析算法 (8)Microsoft逻辑回归算法

对于离散属性,该算法根据数据集中输入列之间的关系进行预测。它使用这些列的值或状态预测指定的可预测列的状态。具体地说,该算法标识与可预测列相关的输入列。

需求场景:

一个销售厂商根据以往的销售记录单,通过数据挖掘技术预测出一份可能会购买该厂商产品的客户名单。如挖掘最有可能购买自行车的潜在客户,决策树算法可以挖掘出分析影响购买自行车的行为因素排序,通过这种算法我们可以知道某些特定群体他们都会有几个比较重要的属性。 

(2)Microsoft 聚类分析

该算法使用迭代技术将数据集中的事例分组为包含类似特征的分类。在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。简单点就是找出相同一部分属性的种类。

需求场景:

物以类分、人以群分,通过聚类分析算法我们要找到那些将要买自行车的顾客群里都有哪些属性 

(3)Microsoft Naive Bayes

Microsoft Naive Bayes 算法是由 Microsoft SQL Server Analysis Services 提供的一种基于贝叶斯定理的分类算法,可用于预测性建模。

需求场景:

以上两种算法可以用的贝叶斯算法都可以用使用,贝叶斯算法就是通过历史的属性值进行简单的两种对立状态的推算,而不会考虑历史属性值之间的关系,这也就造成了它预测结果的局限性,不能对离散或者连续值进行预测,只能对两元值进行预测,比如是/不是,好/不好,对/不对。他无法对离散值或者连续值如:日期,地址等分析。这个算法相比较前两种算法就是可以对属性进行分析。

(4)Microsoft时序算法

用一条时间线贯穿始终,推算和预测未来的结果。

需求场景:

比如销售部门数据,我们需要根据以往的数据来预测出某产品明年的销售营业额或者预测出相应的淡季旺季,以做出相应的准备。还有就是各种产品之间的销售量是否会有影响、存不存在连带销售?是不适合我们做捆绑销售。

(5)Microsoft关联规则分析算法

Microsoft关联规则算法就是用来挖掘关联关系的典型算法

需求场景:

关联规则算法是在大量数据事例中挖掘项集之间的关联或相关联系,它典型的应用就是购物篮分析,通过关联规则分析帮助我们发现交易数据库中不同的商品(项)之间的联系,找到顾客购买行为模式,如购买某一个商品对其它商品的影响。进而通过挖掘结果应用于我们的超市货品摆放、库存安排、电子商务网站的导航安排、产品分类、根据购买模式对用户进行分类,相关产品推荐等等。比较典型的就是:啤酒和尿布的故事

(6)Microsoft顺序分析和聚类分析算法

此算法为上一个关联规则分析算法的一个延伸,为关联规则分析算法所形成的种类进行了更细粒度的挖掘,挖掘出不同种类内部的事例间的顺序原则,进而用以引导用户进行消费。此算法的重点在事例间的顺序规则。

需求场景:

关联规则算法研究的是“鸡与蛋的关系”,而顺序分析和聚类分析算法则研究的就是“先有鸡还是先有蛋的问题”。

Microsoft顺序分析好聚类分析算法常用的场景:

1、网站中的浏览网站所产生的web点击流,进而进行用户行为预测

2、发生事故(比如服务器宕机、数据库死锁等)之前的事件日志,进而预测下一次事故发生的点

3、根据用户发生购买、添加购物车的顺序记录,根据产品优先级进行最佳产品推荐

(7)Microsoft神经网络分析算法

就是模拟我们的大脑从茫茫的数据海洋中思考出有用的信息,来达到数据挖掘的目的。

需求场景:

1、营销和促销分析,如评估直接邮件促销或一个电台广告活动的成功情况。

2、根据历史数据预测股票升降、汇率浮动或其他频繁变动的金融信息。

3、分析制造和工业流程。

4、文本挖掘。

5、分析多个输入和相对较少的输出之间的复杂关系的任何预测模型

6、基于某种目的去数据挖掘时,感觉到无从下手或者在DM中选择不到合适的算法的时候 

(8)Microsoft逻辑回归算法

需求场景:

10086客服服务中心,挂断率(拨入客户服务中心的电话总数中客户因等候时间过长而挂断的电话数占总数百分比)的指标。影响挂断率的的两个最大因素是:1、应答平均时间,2、上班阶段。

两个目标:

1、根据规则发掘出平均应答时间调整到多少最好,或者基于目标,比如要求挂断率控制在0.05以内,应答时间应该控制在多少合适。

2、如何安排岗位时间及岗位人数最佳,比如:安排几班岗位,每个岗位安排多少人,然后什么时间上班最好。

 具体算法操作请看:微软数据挖掘算法:Microsoft 目录篇