信息化软件 企业管理 营销管理 业界消息 标签索引 |
Web挖掘在电子商务货源搜索中的应用2010-01-04
Web挖掘在电子商务货源搜索中的应用:1概述 随着计算机网络技术及互联网的发展,电子商务(ElectronicCommerce, EC)在企业经营业务中的应用越来越普遍。它是传统企业的经营业务在互联网环境下电子化的结果,这些经营业务包括产品或服务的交易以及为实现交易而发生的各种相应业务活动。随着电子商务在企业应用不断深入、对外联系增多,企业对潜在客户、供应商和产品等方面的货源信息要求越来越高。电子商务环境中的企业必须超越以往相对狭隘的经营环境,有效地收集、利用货源信息。 Web挖掘是提高电子商务企业效率的有效工具,它从Web内容、结构、使用等方面提炼对电子商务运作有价值的信息。利用Web挖掘技术在信息方面支持高效电子商务的研究包括:将数据挖掘(data mining)技术应用扩展到Web挖掘的应用中;采用信息检索技术对Web信息进行分类、筛选;支持电子商务运作的信息收集等。 本文研究电子商务环境中企业如何有效利用互联网收集、挖掘业务信息的问题,分析了Web挖掘在电子商务中的作用,利用Agent和Web挖掘技术设计了以元搜索引擎为核心的货源搜索机器人。元搜索引擎利用通用搜索引擎扩大信息搜索范围,搜索有关货源信息,采用Web挖掘方法对货源信息进行过滤分析,从中筛选对企业有潜在价值的客户、供应商和产品信息,为企业电子商务中的业务处理和决策提供依据。 Web挖掘在电子商务货源搜索中的应用:2货源搜索 电子商务在给企业带来巨大发展机遇的同时,也使企业面临超出传统经营模式的挑战。如图1(a)所示,在传统经营环境下,企业的市场范围物理上受到地区或国家的限制,与客户、供应商的业务范围主要集中在采购、销售等外部业务环节,企业竞争压力小。如图1(b)所示,在电子商务环境下,市场和业务范围延伸扩展,企业之间合作加强,并向企业内部渗透,企业与伙伴之间合作紧密,竞争对手增多,竞争压力变大。为了适应电子商务这种大范围、高强度的竞争环境,企业必须充分利用电子商务的有利条件,大力挖掘潜在客户、供应商、产品和竞争对手的相关信息。本文将这些信息统称为货源信息。 采用Agent与Web挖掘技术自动进行货源信息搜索、分检的计算机软件称为货源搜索机器人(Business Search Robot)。货源搜索机器人的主要功能包括: (1)根据用户需要,设置搜索线索条件信息; (2)在互联网上收集满足搜索条件的页面信息; (3)分检所得页面信息,按特指领域知识进行页面过滤、分类、索引; (4)存储搜索结果于数据库中; (5)以用户所需形式提供相关货源信息。 实现这些功能的关键在于(2)和(3)的实现。本文从搜索引擎和货源信息分检方面介绍货源搜索机器人的设计与实现。 Web挖掘在电子商务货源搜索中的应用:3货源搜索引擎 搜索引擎(Search Engine,SE)是以互联网上Web站点提供的页面为信息源,为方便信息使用者检索所需信息而设计开发的计算机软件。目前商业化的通用搜索引擎有很多,如:百度,搜狐,Yahoo!, Google, Excite,A1ta Vista等。尽管通用搜索引擎正不断提高计算和网络访问能力,但仍存在以下几点不足: (1)每个通用搜索引擎相对于整个互联网的覆盖范围是有限的; (2)在搜索结果中有相当一部分是和搜索内容无关的; (3)搜索结果的链接有些是无效链接。 为避免以上问题,本文提出的货源搜索机器人采用元搜索模式设计搜索引擎。元搜索引擎利用多个通用搜索引擎来实现完成自身的搜索,搜索范围要大于单个通用搜索引擎。通过筛选、过滤搜索结果,得到与搜索目标内容尽可能接近的结果。该元搜索引擎的设计结构如图2所示。 货源搜索机器人分为6个功能模块: (1)搜索引擎代理模块按预定的搜索线索制定通用搜索引擎使用的搜索条件,并提交给通用搜索引擎,通用搜索引擎再把搜索结果返回给搜索引擎代理。 (2)检索分析模块对从通用搜索引擎得到的搜索结果进行解析,检验网络链接的有效性。 (3)货源信息分析模块对检索分析结果进行整理、归纳和分类,得到与领域相关的货源信息数据。 (4)信息存储模块负责把分检得到的货源信息存储在数据库中。 (5)查询处理模块根据服务请求在货源信息数据库中检索,并把检索结果反馈给用户。 (6)用户接口模块负责接收用户的检索服务请求,设置系统的参数。 Web挖掘在电子商务货源搜索中的应用:4货源信息分检 在运用元搜索引擎收集到货源相关信息(raw informarion)后,下一步是对这些信息进行货源信息分检。货源信息分检分为2个方面来实现:系统分检和用户分检,如图3所示。系统分检的处理对象是从搜索引擎获得的搜索结果,输出是特指领域相关的货源信息。用户分检的处理对象是系统分检的结果,输出是用户需求相关的货源信息。 4.1系统分检 系统分检对收集的货源信息进行分析整理。由搜索引擎获得的搜索结果虽然经过搜索词的过滤,但为了尽可能扩大搜索范围,搜索结果页面往往很多,其中有很多是与特指领域不相关的。系统分检相当于对搜索结果的预处理,筛选出利用价值更高的货源信息。系统分检的实现步骤如下: (1)校验搜索结果页面的有效性; (2)从搜索结果摘要中抽取描述词汇; (3)分析描述词汇与领域知识叙词的相关性; (4)根据叙词相关性分检搜索结果; (5)排除相关度低于预设17值占.的搜索结果; (6)解析搜索结果页面; (7)将系统分检结果存入货源信息数据库待查。 其中,确定搜索结果与特指领域知识叙词的相关性可以根据需要采用不同判断模型。本文以向量模型为例加以说明。假设搜索引擎搜索到S个页面,搜索特指领域知识有N个叙词。系统分检中还可以采用其他方法或模型对搜索结果领域相关性进行确定,例如基于概率、模糊集合、隐含语义等的判断模型。在特指领域知识表示上,可以采用多层面、多角度的方法选择叙词,设置相应权重。具体实现可借鉴信息检索中全局或局部聚类方法。 4.2用户分检 用户分检是按用户需求进行的。如果把系统分检看作一次分检,那么用户分检就相当于对货源信息的二次分检。用户需求表示为DNF(Disjuncrive Normal Form)范式的形式,用户分检的实现步骤如下: (1)用户输入需求,设置货源查询词; (2)在货源数据库中检索满足用户需求的信息; (3)分析检索结果与用户需求的相关性; (4)保留相关度高于预设17值民的检索结果; (5)以用户所需形式输出检索结果。 综上所述,在货源信息分检过程中,利用系统分检对所关注的领域相关信息进行大范围搜索和初步筛选过滤,再在用户的参与下利用用户分检对货源信息进行小范围的搜索,就可以找到用户需求满意度较高的货源信息。 Web挖掘在电子商务货源搜索中的应用:5实验结果及分析 本节通过实例计算说明了货源搜索机器人的搜索效果。通过2次对货源信息的分检,使搜索结果的查准率和查全率均得到一定的提高。实例采用网络新闻组文献(选自USE-NETnewsgroups)作为实验数据,其中,包括汽车类、摩托车类等其他类文献共2,000篇。 5.1系统分检结果 搜索目标领域是与汽车类相关的货源信息,汽车类文献共600篇。系统分检结果如表1所示。从表1可以看出,系统分检可以有效地从通用搜索引擎的返回结果中提取出与搜索领域相关的货源信息,为之后的用户分检做好充分准备。 5.2用户分检结果 假设用户搜索目标是满足表达式,并与汽车类相关的货源信息。用户分检结果如表2所示。 表2说明,如果直接在通用搜索引擎返回的结果中进行搜索(不经过系统分检),则用户分检的查准率平均值在50%左右,经过系统分检后,查准率平均值能达到75%,并且在返回文献数相同的情况下,经过系统分检后的查准率比不经过系统分检的查准率平均提高22.1%,查全率平均提高15.9%。 用户分检的比较结果如图4所示。图4表明,在查全率相同时,经过系统分检后的用户分检的查准率明显高于不经过系统分检的查准率。因此,货源搜索机器人通过系统和用户的2次分检搜索领域相关的货源信息是非常有效的。 Web挖掘在电子商务货源搜索中的应用:6结束语 本文针对电子商务环境下的货源信息搜索问题,采用Web挖掘和信息检索技术,提出一种货源搜索机器人设计与实现的方法。这种基于元搜索引擎的搜索方法扩大了货源搜索范围,通过对系统和用户的2次分检发现更有价值的货源相关信息。文中提出的搜索机器人的设计方法对其他领域知识相关的大范围信息搜索也有很好的应用价值。
|
信息化软件目录 OA 办公自动化
CRM 客户关系管理
PM 项目管理
CC 协同商务
BPM 业务流程管理
KM/KBS 知识管理
CMS 内容管理
SCM 供应链管理
BI 商务智能
ERP 企业资源计划
HRM 人力资源管理
EAM 企业资产管理
电子商务系统
IT综合
|