缔冠期刊网

数据挖掘技术在Web信息检索中的应用研究

2022-06-09

  [摘要]将数据挖掘技术应用到Web信息检索中,可以使网络信息检索更加准确化和智能化。介绍了Web数据挖掘的概念,分析了Web数据挖掘在Web信息检索中的应用,最后对Web信息检索未来发展进行了展望。


  [关键词]数据挖掘;Web信息检索;搜索引擎


  [中图分类号]P209[文献标志码]A[文章编号]2096-0603(2017)29-0033-01


  Web现已成为一个巨大的知识库、信息库,Web信息检索通过搜索引擎返回给用户成千上万个检索到的网页,但是满足用户检索要求的网页却凤毛麟角,用户无法在第一时间得到满足要求的有价值信息。因此,Web信息检索的精度不能为客户提供准而精的检索信息,需要检索精度更高的数据挖掘技术。


  所谓数据挖掘(DataMining)就是从海量的原始数据中提取信息和知识的过程,这些信息和知识隐含在原始数据中,事先未知,但是对用户来说是很有用的。


  一般的数据挖掘对象是结构化数据,而Web数据挖掘的对象是非结构化数据,在现有数据挖掘研究成果的基础上,运用Web数据挖掘技术,可以提高信息检索的精准率和有效率,Web信息检索将会达到向一个新的高度。


  一、Web数据挖掘技术概述


  Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的未知的有潜在应用价值的模式的提取[1]。按挖掘对象来分类,基于Web的数据挖掘分为3大类:基于Web内容的挖掘(WebContentMining)、基于WEB结构的挖掘(WebStructureMining)、基于WEB使用的挖掘(WebUsageMining)。


  (一)基于Web内容的挖掘


  基于Web内容的挖掘,是在Web文档以及相应的Web文档描述中获取知识。目前,WWW信息资源是网络信息资源的主要组成部分,用户直接从网上抓取这些资源,并为之建立索引,从而实现查询服务,而那些被隐藏起来的数据,用户无法进行有效的检索,这就迫使我们把这些被隐藏的内容(比如数据库系统中的数据,由用户的提问而动态生成的结果等)挖掘出来。此外,Web的信息内容是由文本、音频、视频、图片等非结构化的数据,因此基于Web内容的挖掘也是一种针对多媒体数据的挖掘[2]。


  (二)基于Web结构的挖掘


  基于Web结构的挖掘,主要挖掘Web潜在的链接结构模式,是从网页上的相互链接和万维网的整体结构中发现知识的过程。这种模式主要采用网页归类技术,在众多的网页中获得不同网页间的信息,比如相似度及关联度。Web结构挖掘主要是帮助用户找到所需要信息的权威站點,同时也会对Web信息检索结果的排序产生影响。


  (三)基于Web使用的挖掘


  基于Web使用的挖掘,也可以称之为WebLogMining,Web日志挖掘,用户在进行网络访问后,会留下一些重要的第二手数据,它们是Web使用挖掘的主要对象,从而分析用户的网络行为提供依据。


  二、Web数据挖掘在Web信息检索中的应用


  (一)对Web信息源进行挖掘,形成信息源知识库


  对Web信息源内容的挖掘,主要是针对中多媒体数据等Web信息源的内容的特征进行挖掘,统计方法、机器学习、神经网络、人工智能是最常使用的方法,通过抽取、分类、聚类网页内容的特征,形成信息源知识库。


  对Web信息源结构的挖掘,主要通过相关算法对Web页面的超链接关系、URL地址结构的进行挖掘,在Web的组织结构和链接关系中发现知识。


  (二)对Web结构进行挖掘,形成权威网页


  搜索引擎的作用主要有两个,一是搜索与主题相关的内容,二是筛选高水平的相关网页,就是我们所说的权威网页。第二个作用尤其重要,因为用户更希望他们最需要的信息能在最短的时间内呈现在他们面前,而不是浪费大量的精力和时间从大量的检索结果中找寻最需要的信息,采用Web结构挖掘的一些经典算法就能很好地识别出权威网页。


  (三)对用户的访问模式进行分析,为用户提供更加人性化的服务


  用户在进行信息检索时,会在网站上留下许多信息,比如检索的时间、检索词以及浏览了哪些检索结果等。基于Web使用的挖掘可以对其进行分析,采用各种算法对这些日志展开挖掘,从而延伸出更有价值的内容,形成用户知识模型,并对用户潜在相同的检索行为模式进行归纳总结,对这些模式进行系统的研究,对搜索引擎的检索效果进行反馈,从而改进搜索引擎,让检索结果更加智能化,使单个用户感觉使用Web信息检索更高效。


  总之,随着互联网的发展,数据挖掘的一个主要应用领域就是Web数据挖掘,与Web信息检索有着密切的关系,但是又比Web信息检索有着更高的技术层次,可以使基于Web的信息检索发展到一个更高的水平。


  参考文献: 

  [1]韩家炜,孟小峰,王静,等.WEB挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 

  [2]涂承胜,鲁明羽,陆玉昌.Web内容挖掘技术研究[J].计算机应用研究,2003,20(11):5-9. 

    作者:屈慧洁


论文中心更多

期刊百科
期刊投稿 期刊知识 期刊审稿 核心期刊目录 录用通知 期刊版面费 投稿期刊推荐 学术问答
基础教育
小学语文 中学语文 小学数学 中学数学 小学英语 中学英语 物理教学 化学教学 生物教学 政治教学 历史教学 地理教学 科学教学 音乐教学 美术教学 体育教学 信息技术 班主任管理 校长管理 幼教 教育管理 微课教学 作文教学 德育教学 教学设计
医学论文
内科医学 外科医学 预防医学 妇科医学 检测医学 眼科医学 临床医学 药学论文 口腔医学 中西医 中医学 外科 护理 基础医学 急救医学 老年医学 医学实验 儿科医学 神经医学 兽医学 肿瘤医学 综合医学
职业教育
教育学原理 电影文学教育 学前教育 教育学管理 高等教育学 教育技术学 职业技术教育 成人教育学 特殊教育学 教育心理学 家庭教育 教育毕业 中专中职教育 教学设计 国学教育 学术研究 大学教育
药学卫生
社区门诊 医药学 医患关系 医院管理 疾病预防 保健医学 公共卫生 医学教育
文科论文
农业经济 工商管理毕业 会计毕业 行政管理 法律毕业 市场营销 经济毕业 汉语言文学 财务管理 物流管理 人力资源 旅游管理 国际贸易 物业管理 新闻学 企业管理 金融银行 社会科学 食品安全 办公档案 审计学 税务税收学 外国文学 哲学
理科论文
机电毕业 土木工程 计算机毕业 电气毕业 建筑毕业 电子商务 工程毕业 设计毕业 机械制造 汽车毕业 园林毕业 农学毕业 数控毕业 软件技术 水利工程 环境生态 畜牧渔业 化工毕业 科技创新 石油矿藏
论文格式
开题报告 论文题目 摘要关键词 目录提纲 论文致谢 参考文献 附录其他 论文答辩
职业论文
教育论文 经济论文 科技论文 财会论文 管理论文 医学论文 法学论文 文学论文 工业论文 建筑论文 农业论文 水利论文 计算机论文 社科论文 机械论文 生态环境 中西文化

先发表后付款 不成功可退款

权威机构认证 专注期刊10余年 1000余家杂志社长期合作

缔冠期刊网

首页 网站地图 返回顶部
Copyright © 1998- 缔冠期刊网