信息化软件 企业管理 营销管理 业界消息 标签索引 |
商业智能的发展及核心支撑技术 (二)2007-02-20
作者:袁磊 商业智能的发展及核心支撑技术 (二): 三、商业智能核心支撑技术 商业智能实质上是数据转化为信息的过程,这一过程也可称为信息供应链,其目的是把初始的操作型数据变成决策所使用的商务信息。在这一过程中,数据集成工具执行源数据的清洗、格式转化和合并计算等功能;数据存储过程建立数据存储模型,存储企业统一的数据视图,为商业智能系统的应用提供基础数据;数据分析工具一般包括OLAP(联机分析处理)、数据挖掘工具、统计分析工具、其它人工智能工具等,这些工具结合商业处理规则为决策者提供决策辅助信息。 从建立商业智能角度来看,构建一个商业智能系统所需要的技术可以分为三大类,一是支撑技术,二是分析技术,三是表示技术。 1、BI支撑技术——数据仓库/数据集市 实施BI的前提是将来自企业业务系统和外部环境中的各种数据收集、合并起来。这当然离不开数据仓库和数据集市技术的支持。数据仓库(DataWarehouse)是指从多个数据源收集的信息,以一个一致的模式存储起来所得到的数据集合。在构造数据仓库时,要经过数据清理、数据变换、数据集成、数据装入和定期数据刷新等过程。数据仓库收集了整个组织的主题信息,因此,它是企业范围的。宽松地讲,数据仓库是一个数据库,它与组织机构的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。 按照W。H。Inmon这位数据仓库系统构造方面的领头设计师的说法,“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。这个简短而又全面的定义指出了数据仓库的主要特征。四个关键词,面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)相区别。让我们进一步看看这些关键特征。 面向主题的(subject-oriented)是指数据仓库的建立是围绕一些主题的,如顾客、供应商和产品等,它所关注的是为决策者提供数据建模与分析,而不是集中于组织机构的日常操作和事务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图。集成的(integrated)是指通常情况下,数据仓库中的数据来自多个异种数据源,如关系数据库、一般文件和联机事务处理记录等。 时变的(time-variant)是指存储在数据仓库中的数据能够提供历史的信息(例如过去5-10年)。数据仓库中的关键结构,隐式或显式地包含时间元素。非易失的(nonvolatile)是指数据仓库中所存放的数据在物理上是分离的。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常它只需要两种数据访问:数据的初始化装入和数据访问。 概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。为此,数据仓库也常常被看作是一种支持结构化和专门的查询、分析报告和决策制定的体系结构。 数据仓库通常是企业级应用,因此涉及的范围和投入的成本非常巨大,使一些企业无力承担。因而,他们希望在最需要的关键部门建立一种适合自身应用的、自行定制的部门数据仓库子集。正是这种需求使数据集市应运而生。数据集市(DataMart)是聚焦在选定的主题上的,是部门范围的。例如,一个商场的数据集市可能限定其主题为顾客、商品和销售。根据数据的来源不同,数据集市分为独立的和依赖的两类。在独立的数据集市中,数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。依赖的数据集市中的数据直接来自企业数据仓库。 2、BI分析技术——OLAP、数据挖掘等 数据仓库和数据集市解决了数据的收集和合并问题,接下来就需要对数据进行分析了。对于结构化的、数值型的数据,可以采用联机分析处理和数据挖掘技术。而对于非结构化的、文本型的数据,需要采用文本挖掘技术。 根据OLAP委员会的定义,联机分析处理(On-lineAnalyticalProcessing,简称OLAP)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。 进行OLAP分析的前提是已有建好的数据仓库,之后即可利用OLAP复杂的查询能力、数据对比、数据抽取和报表来进行探测式数据分析了。称其为探测式数据分析,是因为用户在选择相关数据后,通过切片(按二维选择数据)、切块(按三维选择数据)、上钻(选择更高一级的数据详细信息以及数据视图)、下钻(展开同一级数据的详细信息)、旋转(获得不同视图的数据)等操作,可以在不同的粒度上对数据进行分析尝试,得到不同形式的知识和结果。 与OLAP的探测式数据分析不同,数据挖掘是按照预定的规则对数据库和数据仓库中已有的数据进行信息开采、挖掘和分析,从中识别和抽取隐含的模式和有趣知识,并利用它们为决策者提供决策依据。 数据挖掘的任务是从数据中发现模式。模式有很多种,按功能可分为两大类:预测型(Predictive)模式和描述型(Descriptive)模式。预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不能直接用于预测。在实际应用中,根据模式的实际作用,细分为分类模式、回归模式、时间序列模式、聚类模式、关联模式和序列模式6种。 其中包含的具体算法有货篮分析(MarketAnalysis)、聚类检测(ClusteringDetection)、神经网络(NeuralNetworks)、决策树方法(DecisionTrees)、遗传算法(GeneticAnalysis)、连接分析(LinkAnalysis)、基于范例的推理(CaseBasedReasoning)和粗集(RoughSet)以及各种统计模型。 OLAP与数据挖掘的区别和联系是:OLAP侧重于与用户的交互、快速的响应速度及提供数据的多维视图,而数据挖掘则注重自动发现隐藏在数据中的模式和有用信息,尽管允许用户指导这一过程。OLAP的分析结果可以给数据挖掘提供分析信息作为挖掘的依据,数据挖掘可以拓展OLAP分析的深度,可以发现OLAP所不能发现的更为复杂、细致的信息。 随着技术的进步,人们已不再满足于分析数值型的数据了,那些埋藏在e-mail、状态备忘录、新闻故事、新闻发布会以至营销作战方案、合同、管理机构的文件和政府报告里的文本信息,如果能够自动由计算机识别出来,对于决策者的支持作用无疑要胜过前者。日趋成熟的文本挖掘技术正好满足了人们的这一需求。 文本挖掘是采用计算语言学的原理对文本信息进行抽取的研究和实践。文本挖掘的关键领域包括: ·特征提取 ·主题标引 ·聚类 ·摘要 采用特征提取能够在文本中发现某种特殊的信息片段,例如某种形式的类型描述或者商业关系。识别出AlphaIndustries是一家公司的名称即为前者,而识别出AlphaIndustries是BetaEnterprises的全资子公司,MargaretJohnson是GammaGroup的主席和CEO,则是发现商业关系的例子。 主题标引使用文本中词汇的意义来识别文档中包含的广泛的主题。例如,有关阿司匹林和布洛芬的文档可能都被分到疼痛缓解剂或止痛剂之下。类似这种的主题标引通常是使用多维分类法实现的。在文本挖掘意义上的分类法,就是一个等级的知识表示方案。有时也被称为本体论,以区别于导航式的分类法,例如Yahoo所采用的分类表。 聚类是另一个应用在商业智能中的文本挖掘技术。聚类按主要特征将相似的文档分到一组。在文本挖掘和信息检索中,通常用一个加权的特征向量来表示一篇文档。这些特征向量包含着一组主要的主题或关键词以及一个表明该主题或词汇相对于整篇文档的重要性的权重值。文档聚类通常采用三种方法:等级聚类、二元聚类和自组织地图。 最后一个文本挖掘工具是自动摘要。摘要的目的就是尽量减少用户阅读的文本量。许多文档的主要思想最少可以用原文篇幅的20%来概括,因此摘要后的损失很少。但正如聚类一样,自动摘要也没有唯一的算法。许多采用词汇的形态分析以识别出最经常采用的词汇,同时消除那些表达很少意义的词汇,如冠词the,an和a。一些算法将首句和尾句中包含的词汇赋予较高的权重,而一些方法则寻找能够表明一些句子很重要的关键词组,例如“总之”(inconclusion)和“尤为重要的是”(mostimportantly)。 3、BI表示/展现技术——信息可视化与web应用 数据经过分析后得到的即为商业智能。为了使它们直观、简练地呈现在用户面前,需要采用一定的形式表示和发布出来,通常采用的是一些查询和报表工具。不过,目前越来越多的分析结果是以可视化的形式表示出来。这就需要采用信息可视化技术。所谓信息可视化是指以图形、图像、虚拟现实等易为人们所辨识的方式展现原始数据间的复杂关系、潜在信息以及发展趋势,以便我们能够更好地利用所掌握的信息资源。所谓一张图片胜过千言万语,就是这个道理。 随着Web应用的普及,商业智能的解决方案能够提供基于Web的应用服务,这样就扩展了商业智能的信息发布范围,享有访问权限的用户只要能够登陆互连网,就可以及时访问自己所关心的内容。作为基于Web的商业智能解决方案,需要一些基本的组成要素,包括基于Web的商业智能服务器、会话管理服务、文件管理服务、调度、分配和通知服务、装载平衡服务和应用服务等。以应用服务为例,需要为用户的查询、分析和报表请求提供浏览器插件。由于商业智能应用涉及到对多个分散在各地的异构数据库的存取,因此还需要CORBA、IIOP协议和Java、XML语言的支持。 商业智能的发展及核心支撑技术 (二): 四、商业智能典型应用 1、产品销售管理 它包括产品的销售策略、销售量分析,影响产品销售的因素分析,以及产品销售的改进方案的预测。通过系统存储的产品销售信息建立销售模型,分总体销售模型和区域、部门销售模型。对产生不同结果的销售模型分析其销售量和销售策略,进行销售影响的因素分析和评估,根据不同的销售环境对相应的产品销售方案进行改进和创新,及时进行产品上架和下架计划,提高企业营销额。通过对历史数据的分析还可以建立提高销售量的预测模型。 2、客户关系管理 顾客是企业生存的“上帝”,对企业来说进行客户关系管理(CRM)是一项重要的工作。通过顾客关系管理子系统,使企业可以分析顾客购买习惯和购买倾向,调查顾客满意度,进而采取相应对策增强顾客保持力,培养忠实顾客,维持良好的顾客关系。 3、产品创新和推广 新产品促进企业的发展,然而新产品的开发和推广必须建立在一定的市场基础上。良好的企业历史信息可用来预测市场需求趋势;了解哪种产品需要更新,是否需要开展某种广告运动;广告运动针对何种用户;具备哪些条件的用户最有可能是企业的潜在客户,针对这样的客户进行直接的广告策略必能胜过无的放矢的收获;预先预测项目的未来收益等。 4、异常处理等 它是商业智能数据挖掘应用的典型事例,通过发展曲线企业及时发现市场和顾客异常情况,快速采取措施,降低企业风险提高企业收益。如信用卡分析,银行、保险等行业的欺诈监测等。 计算机技术及其应用的智能化正在逐渐地应用在各行各业,商业智能是企业信息处理技术发展的必然趋势,商业智能系统的发展得益于计算机技术、人工智能技术和数据处理技术的发展。商业智能系统和企业日常事务处理系统一起服务于商业事务,不同的是日常事务处理服务于操作型员工,而商业智能系统服务对象是企业决策层和管理层人员。这两种系统都是企业竞争和发展的必备条件,可以预见未来的商业社会是依赖于信息和时间的社会,谁抢占到先机,他就定然会得到更大的成功机会。
|
信息化软件目录 OA 办公自动化
CRM 客户关系管理
PM 项目管理
CC 协同商务
BPM 业务流程管理
KM/KBS 知识管理
CMS 内容管理
SCM 供应链管理
BI 商务智能
ERP 企业资源计划
HRM 人力资源管理
EAM 企业资产管理
电子商务系统
IT综合
|