背景及现状
企业信息化建设不断完善、互联网技术应用愈加广泛,使得数据在过去十几年里保持指数级增长,物联网技术的全面应用,将更加推波助澜。 面临日益增长的数据处理压力,企业数据存储、处理技术也不断升级换代,从大型商业数据库,到数据仓库,再到分布式的数据中心。
但数据本身无法直接发挥价值,海量数据背后隐藏的规律和知识才是大数据价值所在。如何从中及时发现有用的知识,辅助业务优化及决策并转化为价值呢? 数据挖掘技术应运而生,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信 息和知识的过程。
数据挖掘并不是一门独立的学科,从业务问题出发,实现预期目标有赖于业务理解、概率统计知识及数据预处理、算法选型、参数调优、模型评估等方法的有机融合。 同时,人工智能、机器学习、模式识别、计算机视觉、专家系统等分支领域也在快速发展,多数企业仅靠现有人员和技术难以突破,数据资产价值大打折扣。