|
升蓝EIP 企业内部门户网站系统功能(4)
数据挖掘
- 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
- 数据挖掘的功能:
- 数据挖掘通过预测未来趋势及行为,做出基于知识的决策,数据挖掘也用于具备相关度功能的全文检索引擎。
- 数据挖掘的目标:
- 是从数据库中发现隐含的、有意义的知识。
- 信息摘要和全文检索:
- 通过数据向量化分析,可对文本信息进行度量,度量的结果通常用于搜索引擎,在信息度量基础上建立的搜索引擎,不是简单文字的搜索,而是经过优化的与主题相关度的搜索引擎。
- 数据采集:建立在数据挖掘技术上的数据采集,可根据“预计主题”在互联网上有目的地采集信息,如可采集相关行业的各种数据资料、创建潜在客户资料库等。
- 自动预测趋势和行为:
- 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。
- 关联分析:
- 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
- 聚类:
- 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
- 概念描述:
- 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
- 偏差检测:
- 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
数据挖掘功能
全文检索技术
- 数据挖掘技术是知识管理、文档管理、知识价值提升的真正核心功能:
- 在信息时代,取得大量知识文献是一件容易的事(例如,通过下载,可以在很短时间内建立起百万数量级的知识库)。
- 但是仅有大量的知识库/文献库实际上是很难产生效益或用途的:
- 由于计算机文件可复制的特点,使得信息的冗余度和噪音非常高;
- 文件有大量相同主题或副本、文件的质量参差不齐,用户不得不花费大量的时候在筛选上,效率低下,而且得不到理想的结果;
- 文件数量巨大,版本众多,用户信息查询上使用的成本非常高;
- 由此可见,如果没有进行有效的数据挖掘,实际上大量的知识/文档是没有用的。
- 例如,当我们遇到问题需要从知识库中查询知识的时候,如果知识库给出的结果是随机无序的10000个答案,那么,我们可以说这个结果显然是没有使用价值的,如果系统给出10个有序的答案才是有价值的。
- 如何筛选、索引、判断质量,使有用的文档能够被用户使用,才是知识管理的最重要核心。
- 深蓝的全文检索技术,为用户提供一个与Google相同的搜索引擎功能,不仅仅具有搜索功能,更能根据输入的关键字,找到最佳匹配的文档,从而实现找到最佳的有用的信息。
- 深蓝的全文检索技术是通过深蓝数据挖掘技术对数据库进行进行数据向量化分析来实现上述的功能,通过对文本信息进行度量,在信息度量基础上建立的搜索引擎,不是简单文字的搜索,而是经过优化的与主题相关度的搜索引擎。
- 深蓝全文检索能根据不同的知识特征进行分类,采用多种类型的数据库进行分布式存储,能对各种结构的知识进行统一集成。深蓝全文检索技术,能以各种手段为普通用户提供便捷的知识查询,返回有用的结果,同时能在查询中起到导航作用。
数据挖掘
- 深蓝的数据挖掘技术是一种自然语言信息测量的技术,主要应用于搜索引擎。简单地理解,就是为企业内部网、知识管理系统、文档管理系统等提供一个类似Google的搜索引擎。
- 信息测量技术是非常复杂的计算过程,通过深蓝的数据挖掘的技术的计算,可以得到每篇文档的信息位置,并编录为索引。
- 用户进行搜索时,系统是从关键字所预测的主题,从索引的相应的位置的最近空间范围内取得相应的文档。具有以下几项(不仅仅)明显特点:
- 搜索结果按关键字相关度进行排序,能保证最符合用户请求的搜索结果排列上方的,使用户可以轻松得到相应的知识。
- (排序还会考虑文档的质量和时间效应等因素)
- 可感知关键字的相关关键字,即使用户没有输入相关关键字,也能得到相应的结果。
- (如:“学校”和“教育”是两个不同的词,但有一定的相关性)
- 可测量文章的关系,并标识相同或相似的文章。
- (例如,有一个重要新闻,主要报纸都会报道,每个记者所写的内容、语文风格都不会相同,但我们没有必要把所有报纸的报道都读一遍,使用信息测试技术,可以测试出不同记者编写同一件事的报道是相同的。)
标题 |
升蓝EIP 企业内部门户网站系统功能 |
标签 |
EIP,
系统功能,
企业门户,
内部网站,
企业门户网站,
门户网站,
模板,
企业内部网,
|
摘要 |
企业流程重组,企业内部结构,企业内部网站,企业网站设计,企业成功案例,企业门户系统,企业为什么要上网,企业知识管理系统,erp 企业,企业vi设计,企业办公自动化软件,企业财务管理流程图,企业采购管理流程,企业采购流程图,企业管理系统论文,SCM 系统,企业信息系统中,ERP 系统,协同商务系统,银行管理系统 |
位置 |
软件目录 > 企业门户 > [系统功能] 升蓝EIP 系统功能 |
日期 |
创建日期: 2010-05-12, 最近更新: 2010-06-14 |
上一篇 |
升蓝EIP 企业内部门户网站系统架构 |
下一篇 |
深蓝企业门户网站及企业内部网站目录 |
|
|
|