信息化软件 企业管理 营销管理 业界消息 标签索引

浅谈数据仓库和数据挖掘技术及其应用

2009-11-17

浅谈数据仓库和数据挖掘技术及其应用: 1、数据仓库

数据仓库主要有三方面的作用:首先,数据仓库提供了标准的报表和图表功能,其中的数据来源于不同的多个事务处理系统,因此,数据仓库的报表和图表是关于整个企业集成信息的报表和图表。其次,数据仓库支持多维分析,多维分析是通过把一个实体的多项重要的属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度。

应用多维分析可以在一个查询中对不同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。第三,数据仓库是数据挖掘技术的关键基础,数据挖掘技术要在已有数据中识别数据的模式,以帮助用户理解现有的信息,并在已有信息的基础上。对未来的状况做出预测。

数据仓库系统并非一个简单由各种数据合并而成的超大型数据库,而是一种专为联机分析应用和决策支持系统(DSS)提供数据源与决策工具的结构化数据环境。它涉及数据的抽取、转换、装载、存取、元数据管理、查询、报表、分析工具及相应的开发方法学。

(1)数据源。数据源包括操作性的数据库系统和外部数据,为数据仓库提供原始数据;外部数据是由非事务型系统产生,来自于统计数据文件、股市行值数据等资料。

(2)数据抽取、转换、加载。其功能是从数据源中将涉及主题的数据进行清洗、过滤、整理、检验,并且根据数据仓库的设计要求,对数据进行重新组织和加工,加载到数据仓库中。因为数据来自不同的数据源,可能存在不一致性,为保证数据的质量,对移植过来的数据进行选择、清洗,并可周期性的刷新数据仓库,以反映数据源的变化以及将DW中的数据作转储,按数据仓库的时间机制转为历史数据。转存到相应的介质中。

(3)元数据库、OLAP服务器、数据集市。元数据库:描述源数据和目标数据本身的信息。如数据结构,关键字,索引等内容。元数据库用元数据来管理所有与数据仓库相关的模型、视图、操作策略。定义从源数据到目标数据的转换过程。OLAP服务器:是功能强大的多用户的数据引擎,能快速响应用户的各种分析请求,特别用来支持和操作多维数据结构,为前端工具提供多维数据视图服务。

数据集市:数据的最终查询分析往往是基于某个主题的,不同的决策主题所需要的数据也是不尽相同的。如果每次都从整个中心数据仓库去获取数据的话,其执行效率显然是比较低的。数据集市是一种简化的数据仓库,是中心数据仓库的一个子集,它面向部门级业务。并且只是面向某个特定的主题。数据集市可以缓解访问数据仓库的瓶颈,同时可以缩短建立数据仓库的时间和便于管理。

(4)前端分析工具。前端分析工具包括各种查询工具、数据分析工具、报表工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。以上各种前端分析工具运行于客户端,主要功能是提供多维数据查询和分析操作以达到决策支持的目的。它可以应分析人员的要求,快速、灵活地把查询和复杂分析操作的结果以直观、易懂的方式显示出来,便于决策人员发现隐藏在多维数据内部的有用信息,从而准确地掌握业务状况并制定出正确的决策。

(5)数据仓库中的联机分析处理系统。联机分析处理(On-Line Analytical Proeeasing,OLAP)系统是数据仓库的前端支持工具,OLAP是对以多维形式组织起来的数据采取切片、旋转、钻取等分析动作,目的是进行跨维、跨层次的计算和建模,以求得剖析数据,使最终用户能从多个角度,多个侧面观察数据库中的数据,深入了解包含在数据中的信息和内涵,提取出有价值的信息,以便得出准确的结论。

(6)分析方法。多维性是OLAP的关键属性,多维分析是在线分析的处理灵魂,是分析企业历史数据最佳手段。常用的分析方法有:切片、旋转、钻取。多种分析方法结合在一起,促成了联机分析处理系统强大的数据分析功能。

(7)数据挖掘(DM)。数据挖掘(Data Mining,DM)是一种从大型的效据库或DW中提取隐藏的预测性信息的一种新技术,它能挖掘出数据潜在的模式,找出有价值的信息。DM涉及到知识学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算、专家系统等领域。是一种深层次的分析方法。

浅谈数据仓库和数据挖掘技术及其应用: 2、数据挖掘

浅谈数据仓库和数据挖掘技术及其应用: 2.1 数据挖掘的常用方法

(1)分类。分类是找出一个类别的概念描述。并用这种描述来构造模型。分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个类别中去。分类可用于规则描述和预测,如电信部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些类别来区分申请上网的客户是哪一类,以采取不同的营销方案;并可预测银行托收的客户应为高配置策略。

(2)估计与预测。估计是根据有连续性数值的相关属性资料以获得某一属性未知的值。例如,按照信用申请者的教育程度、行为和性别来推估其信用卡的消费量。估计通常使用统计学的相关分析、回归分析和人工神经网络方法。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类和特征进行预测。

(3)关联分析。关联分析是要发现大量数据中项集之间有趣的关联或相关联系,从而为某些决策提供必要支持,它是数据库中存在的一类重要的、可被发现的知识,被广泛应用于决策支持系统。

(4)聚类分析。数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类是把一组个体按照相似性归成若干类型,它的目的是使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。

(5)时序模式。时序模式是指通过时间序列搜索出重复发生概率较高的模式。它是用已知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

(6)偏差分析。数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

浅谈数据仓库和数据挖掘技术及其应用: 2.2 数据挖掘技术的应用

(1)在金融业上的应用。在金融领域,数据置是非常巨大的,如银行、证券公司等交易数据和存储是都是在分大的。对于信用卡欺诈行为,银行每年的损失非常大。因此,可以利用数据挖掘对客户信誉进行分析。典型的金融分析领域有投资评估和股票交易市场预测。

(2)在商业上的应用。在商业领域特别是零售业。数据挖掘的运用是比较成功的。由于MIS系统在商业的普遍使用,特别是码技术的使用,可以收集到大量善于购买情况的数据,并且数据量在不断激增。利用数据挖掘技术可以为经营管理人员提供正确的决策手段,这样对促进销售及提高竞争力是大有帮助的。

(3)在医学上的应用。数据挖掘在医学上的应用十分广泛,从分子制药到医疗诊断,都可以利用数据挖掘的手段来提高效率和效益。在药物合成方面,通过对药物分子化学结构的分析,可以确定药物中哪种原子或原子基因对什么病发挥作用,这样一来在合成新药时,可根据新药的分子结构确定该药将有可能治疗哪一种病。

(4)在零售业中的应用。零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据。如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式洵同技术、分类技术和预测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度;提高货品的销量比率,设计更好的货品运输与分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。

浅谈数据仓库和数据挖掘技术及其应用: 2.3 数据挖掘应用中存在的问题

(1)数据挖掘的基本问题在于数据的数量和维数,数据结构也因此显得非常复杂,如何进行探索,选择合适的分析变量,也就成为首先要解决的问题。

(2)面对庞大的数据,现有的统计方法都会遇到一些问题,而对数据进行抽样,可以有效的解决这一问题。怎么抽样、抽取多大的样本以及如何评价抽样的效果,这些都是值得研究的难题。

(3)各种不同的模型如何应用。其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。

(4)随着互联网的迅速发展,如何进行互联网的数据挖掘,还有文本等非标准数据的挖掘,都是需要进一步深入探讨的课题。

目前市场上有多种适用解决所有商业模式的通用的数据挖掘系统,但在实际运行中这些系统也存在一些不足,普通用户很难应用这些技术解决自己的商业问题。问题在于如何将数据挖掘技术与现有技术很好地结合起来;如果不能将特殊领域的商业逻辑与数据仓库技术集成起来,数据挖掘的分析效果和效益不可能达到峰值。系统的定翩,软件供应商和企业互相交流,对系统功能的不断完善和扩充可以在一定程度上解决这个问题。



相关链接
在线零售站点的自适应和商业智能的发现2009-11-28 BI的未来取决于三个简易化的价值理念2009-11-05
如何透过BI系统巩固双赢客户关系2009-11-30 数据挖掘在6σ质量管理体系中的应用2009-12-12
商业智能在企业中的运用及发展趋势初探2009-10-13 数据挖掘在商务中的应用2009-12-28
应用商业智能提升水泥企业的管理效率2010-01-15 基于Agent的智能电子商务支持系统研究2009-09-03
数据挖掘应用在互联网上产生商业价值2010-02-06 基于SOA的商业智能应用研究2010-02-06
信息化软件目录
OA 办公自动化 CRM 客户关系管理 PM 项目管理 CC 协同商务 BPM 业务流程管理 KM/KBS 知识管理 CMS 内容管理 SCM 供应链管理 BI 商务智能 ERP 企业资源计划 HRM 人力资源管理 EAM 企业资产管理 电子商务系统 IT综合
网站首页 文档首页 信息化软件 企业管理 营销管理 业界消息 标签索引
Copyright © 2005-2010   深蓝信息化知识文档中心   http://www.upblue.com