您的位置:首页 > 其它

基于WEB 的数据挖掘综述

2010-03-18 09:54 169 查看
周 竞 扬

MG0133041

南京大学计算机科学与技术系分布式与并行系统实验室

江苏 南京 210093

摘 要
基于WEB 的数据挖掘是当前相当热门的方向之一本文对此作了一个比较全面的

综述概括了基于WEB 的数据挖掘的主要概念和特点说明各类WEB 挖掘尤其

是基于WEB 使用的挖掘所常用的技术最后简单介绍了XML 在基于WEB 数据

挖掘中的应用

关键字
基于WEB 的数据挖掘 基于WEB 使用的数据挖掘 半结构化 XML

Abstract:
As web mining is one of the hottest research fields presently, this
survey introduces itsbasic concepts and characteristics, including
semi-structured data model. Three types ofweb mining and their
applications are discussed in this paper, especially the web
usagemining. Using XML in web mining is also stated in the last of the
article.

Keywords
: Web Mining Web Usage Mining Semi-structured XML

我们现在已经生活在一个相当数字化的时代中,通信、计算机和网络技术正极大地影响着整个人类社会。然而,海量信息既给人们带来方便也带来了许多问题使我们
惊叹信息爆炸的同时,又不得不面对知识贫乏的苦恼信息过量难以消化信息真假难以辨别,信息安全难以保证,信息形式相异难以统一处理。人们开始考虑:“如何
才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率。”面对这一挑战,数据挖掘技术应运而生,并得到长足的发展,显示出了强大的生命力.

所谓数据挖掘Data Mining
就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中提取隐含在其中的、事先未知的、但又是潜在有用的信息和知识的过程[1]
。数据挖掘的诞生是人们对数据库技术进行长期研究和开发的结果,而数据挖掘技术发展的同时它又反过来促使数据库技术进入了一个更高级的阶段:传统的数据环
境基本上是数据操作型的传统的信息系统只负责数据的增删及修改操作而在数据库的基础上可实现的工作就是OLTP (OnLine
Transaction Process
联机事务处理)。现在由于数据积累的不断增多,人们需要分析型的数据环境,于是就出现了由数据库导出的数据仓库,以此为基础则可以实现OLAP
(OnLine Analysis Process
联机分析处理):随着海量数据搜集的可能计算机处理技术的增强和先进数据挖掘算法的提出,数据挖掘技术不仅能对过去的数据进行查询和遍历,而且能够找出过
去数据之间潜在有价值的联系并以一定的形式表现出来,从而极大的满足了人们对知识的迫切需求。

数据挖掘基于的原始数据是形成知识的源泉,它既可以是结构化的如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的
异构型数据。本文将着重讨论一种针对半结构化数据的挖掘—基于WEB 的数据挖掘,主要介绍了它的基本概念以及经常采用的技术最后简单说明了XML
在其中的应用。

一、 基于WEB 的数据挖掘的主要概念

1、 什么是基于WEB 的数据挖掘

当前网络发展迅速,各种网站比比皆是。但在竞争日益激烈的网络经济中,只有赢得用户,才能最终赢得竞争的优势。作为一个网站的管理员或拥有者,应该知道用
户都在他的网站上干什么,知道网站哪些部分最为用户喜爱,哪些让用户感到厌烦,什么地方出了安全漏洞,什么样的改动带来了显著的用户满意度,提高什么样的
改动反而丢失了用户等等。“知己知彼”,才能“百战不殆”。而基于WEB 数据挖掘技术正能满足这些需求。

就基于WEB
数据挖掘的确切定义,到目前为止还没有很明确而权威的说法。国外有认为:基于WEB
数据挖掘,就是利用数据挖掘技术自动地从网络文档以及服务中发现和抽取信息的过程。国内则众说纷纭,有认为是在大量已知数据样本的基础上得到数据对象间的
内在特性,并以此为依据在WEB
中进行有目的的信息提取过程。同时,也有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发等等。总之,基于WEB 的数据挖掘(Web
Mining) 正是从万维网(World Wide Web
)上获取原始数据中从中挖掘出隐含其中且潜在可用的知识最终应用于商业运作以满足管理者的需要。

2 、基于WEB 数据挖掘的分类


根据挖掘的对象不同我们可以把基于WEB 的数据挖掘分为三大类:
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: