一般地,数据分析是指使用适当的统计分析方法对收集到的数据进行分析,将其中有价值的信息整合提炼,找出所研究对象的内在规律的过程。
传统意义上的数据分析步骤如下图所示:
描述性统计分析侧重于运用制表、分类和图形以及计算概括性数据来描述数据特征,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
探索性数据分析侧重于对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律,强调让数据自身“说话”,借此可以最真实、直接的观察到数据的结构及特征,技术手段主要包括:汇总统计、可视化。
推断性数据分析侧重利用样本数据来推断总体特征,需要抽取部分个体即样本进行测量,然后根据获得的样本数据对所研究的总体特征进行推断,包括参数估计和假设检验两方面的内容。
常用数据分析方法包括对比分析法、分组分析法、预测分析法、漏斗分析法、A/B测试分析法等。
该模型将数据挖掘项目的生存周期定义为六个阶分别是商业理解、数据理解、数据准备、建立模型、模型评估、结果部署。数据挖掘人员可以根据实际业务场景进行调整,通过不断地测试和验证,做好一个完整的数据挖掘项目。此外,数据挖掘具有循环特性,并不是一次部署完就结束挖掘过程,需要通过不断的迭代优化,获得最优结果。
大数据架构随着大数据飞速发展,已经形成了一个完备多样的大数据生态圈,但要最终实现数据驱动价值,必须要借助系统平台的力量,常规来说,大数据架构包括数据采集层、数据计算层和数据应用层,如下图所示。
当数据被整合计算完成之后,需要最终提供给用户使用,这就是数据应用层。不同的数据平台针对其不同的数据需求有各自相应的数据应用层的规划设计,数据的最终需求计算结果可以构建在不同的数据库上,比如,MySQL、HBase、Redis、Elasticsearch等。通过这些数据库,用户可以很方便地访问最终的结果数据。
最后再借助BI工具,比如Tableau、Finebi等,实现业务用户的便捷数据应用,最终达到数据驱动业务的目标。