数据挖掘入门

当前工作上需要上对数据进行处理分析,以辅助运营部门工作。在此记录下一些过程,以总结提高。

准备

由于第一次接触数据分析以供其他部分同事使用的工作,所以走了一些弯路。一开始的时候是阅读一些大数据分析的书籍,这些书籍基本都是从工具角度去进行介绍,而没有从总体的角度去解析这种事情。所以对初期工作的开展没有太大的帮助,应该是在对事情处理一般流程大概了解后,再利用特定的工具。

接下来让我们看一下CRISP-DM(跨行业数据挖掘标准流程)是怎么样定义流程。

数据挖掘入门

业务理解(Business Understanding)
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

数据理解(Data Understanding)
目的是熟悉数据,识别数据的质量问题,发现数据的内部属性。

数据准备(Data Preparation)
数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

建模(Modeling)
在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

评估(Evaluation)
到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。

部署(Deployment)
模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。这里还遗留一个重要问题:怎么判断modeling是否还有效。

思考

由于整个公司都是围绕业务进行,所以数据挖掘也需要围绕业务进行,这就预示着第一阶段的业务理解将是重要和困难。
说到这,我想起之前读过的两句话:

  • 客户最了解自己的业务
  • 客户不知道自己要什么

这两句话,我的理解是客户在明确自己的业务后,才能从客户处挖掘出其业务流程。而如果客户对于业务流程不明确的情况下,会挖掘出大量伪需求。或许关于需求挖掘有关于这方面的工具可以借鉴。

如果是业务流程不明确,那么是不是就没有事情可做了呢?
在初期可以以很少的投入去完成初始数据的输出,给运营部作参考。这样相当于给客户demo,起抛砖引玉的作用。