浅析网络信息检索的方法—搜索引擎
(重庆图书馆,重庆 400037)
摘 要:文章 对网络信息检索方法——搜索引擎的原理、类型、特点及检索方式和检索技术进行了 分析,重点对搜索引擎作了评价。
关键词:网络信息;检索;搜索引擎
中图分类号:G250 文献标识码:A 文章编号:1007—6921(2009)18—0149—02
Internet的发展形成了一个巨大的全球化信息空间,其大容量、异构性、分布性和动态性给 信息检索带来了挑战,快速获取所需信息是用户面临的重大问题。搜索引擎可以解决这个问 题。本文介绍一种信息检索方法—搜索引擎(Search Engine)。
1 搜索引擎的概念及原理
搜索引擎(Search Engine)是在因特网/万维网上进行信息搜索、分析、索引、检索与 服务的信息检索系统。
作为一种因特网上信息检索系统,搜索引擎的基本原理是:使用Robot(一种搜索程序, 类似的还有Spider、Crawler、wander等)来遍历因特网,将Web上分布的信息下载到本地文 档库,然后对文档内容进行自动分析并建立以词为单位的倒排文件(索引)。对于用户提出 的查询提问,搜索引擎通过索引查找出匹配的文档或链接,根据检索词在每篇文章或网页中 出现的频率,对包含这些检索词的文档和网页进行排序,最后输出排序的结果。
2 搜索引擎基本类型及特点
2.1 以分类目录为主的搜索引擎
分类目录搜索引擎又称为目录服务(Director Service),著名的Yahoo就是其代表。搜索 引擎系统将搜索到的Internet资源按主题分为若干大类,每个大类下又分设二级类目、三级 类目等,一些搜索引擎可细分十几级类目。
以分类目录为主的搜索引擎的特点是由系统先将搜索到的网络信息分别归类。这一工作有 的系统由人工操作、有的则有机器自动完成,只要遵循该系统的分类体系按图索骥、层层深 入即可。这与图书馆中传统得分类索引的功能十分相似。
2.2 以全文检索为主的搜索引擎
全文检索搜索引擎通常称为索引服务(Indexing Service),它们与分类目录为主的搜索 引擎中的网站查询功能相似,但有着本质的区别,著名的Alta Vista就是这方面的代表。
以全文检索为主的搜索引擎的特点是信息量特别大,在理论上可以对Internet所有网站 的每一页内容(即可以对每篇文章中的每个单词)进行检索。当想对某一特定的主题进行深 入细致的研究时,不妨借助于这类搜索引擎。
2.3 多元搜索引擎
Internet庞大的信息,使得任何孤立的搜索引擎都无法单独覆盖,而建立在搜索引擎之 上的搜索引擎,通常称之为多元搜索引擎。由于它可以调用其他搜索引擎,从而在一定程度 上能够满足更多、更快地获得网络信息的要求。
当向一个多元搜索引擎发出检索要求之后,该引擎会将检索要求迅速发送给其他独立的搜索 引擎,并将他们反馈的结果集中显示。多元搜索引擎具有同时查询多个数据库的优势,至于 其本身是否拥有数据库则无关紧要。多元搜索引擎可分为串行处理和并行处理两种。
目前,较有影响的多元搜索引擎有Meta Crawler, Savvy Search, Search Spanniel等。
2.4 All-in-One集成搜索
All-in-One集成搜索是指只要通过一个网站,即可选择多个搜索引擎依次进行搜索。这 与多元搜索引擎的工作方式有些相似,只是多元搜索引擎只要一次性输入检索要求,就可以 同时让多个搜索引擎一起或分别进行搜索,并对搜索结果进行分析整理;而All-in-One通常 是逐一输入检索要求(可以相同,也可以不相同),然后从搜索引擎列表中每次选择一个进 行检索,一般不对搜索结果进行处理。
2.5 特殊用途的搜索引擎
一般人们所说的搜索引擎,总是指综合性搜索引擎,它们通常涵盖了各个学科的各个方 面。但也有些搜索引擎,它们是专为某一特殊用途或某一特定目标而设立的,人们将其称为 特殊用途的搜索引擎。如科学信息的搜索引擎Scirus,全球华人寻人搜索引擎——Look 4 U, 软件搜索引擎——SOFT Seek 和Download Power Search,图形、图象搜索引擎——lmage Su rfer,支持自然语言的搜索引擎——Ask Jeeves等。这些专业的搜索引擎,由于其鲜明的特 色和对专业的精通,往往更受欢迎。
3 搜索引擎的检索方式及检索技术
3.1 检索方式
搜索引擎是目前Internet对信息资源进行组织的主要方式。搜索引擎一般设有简单检索与高 级检索两种检索方式。简单检索就是在关键词检索框中输入一个或几个关键词,然后递交系 统进行检索,简单检索的结果往往不尽如人意,因为如果这些单词的使用频率较高,则反馈 的信息就有可能多得让人无法应付;而如果这些单词于“冷僻”,则反馈的信息又往往令人 大失所望。
就搜索引擎而言,简单检索与高级检索往往并没有十分明确的界限。有的搜索引擎整体水平 较高,不但其高级检索具备了许多复杂的功能,就连其简单检索所包含的一般功能都超过了 普通搜索引擎的高级检索功能。
3.2 检索技术
搜索引擎的检索功能强大,能够支持布尔逻辑检索、词组检索、截词检索、字段检索、 限制检索和位置检索等检索功能。但并不是每一种搜索引擎均能提供全部的检索功能,且每 一种检索功能在各个搜索引擎中的表现也不完全一致。从几种检索功能在各个搜索引擎中受 支持的程度看,布尔逻辑检索和词组检索功能排位第一,几乎所有的搜索引擎都支持这两项 功能;居中排列的是截词检索、字段检索和限制检索;而位置检索功能,仅有少数搜索引擎 支持。
4 搜索引擎的评价
搜索引擎的出现为用户检索网络信息提供了方便,但近年来搜索引擎的大量出现也使用 户感到无所适从,不知道如何选择合适的搜索引擎,因此有必要探讨如何评价搜索引擎。19 73年,Lancaster提出的涵盖范围、查全率、查准率、响应时间、用户方便性和输出格式6个 方 面的标准,应该说今天仍然基本上适应对网络搜索引擎的性能评价。但网络检索的超大规模 数据库、多媒体表达和分布式体系结构等特点对检索性能的评价提出了新的课题,例如查全 率对网络空间的信息资源就没有实际意义和价值,其他方面的标准也在发生不同程度的变化 。随着搜索引擎实际应用的深入,关于搜索引擎性能评价的研究非常活跃。下面列出常见的 几种评价标准。
4.1 收录范围
收录范围包括收录信息量的多少、信息类型(文本、图象、声音、动画 等)的多少、信息的语种类型以及信息的来源是否广泛。
4.2 查全率
查全率指搜索引擎检索到的某一主题的信息占所有该主题相关信息的比例。 例如在进行一次关键词搜索时,搜索引擎中本来有10 000个相关文档,但其只返回了其中的 8 000个,那么它的查全率就是80%。查全率越高,搜索引擎的搜索质量越好。
4.3 查准率
查准率指用搜索引擎检索某一主题的信息,检出的相关信息占所有检出信息 的比例。例如一个搜索引擎中对某个关键词的搜索结果有80个,其中只有20各符合搜索条件 ,那么它的查准率只有25%。
4.4 响应时间
检索速度的快慢主要是由响应时间决定的。这个指标在搜索引擎性能评价 中也很重要。一个实用的搜索引擎,必须保证对用户检索表达式有一定的响应速度,在这个 基础上才可以谈论库容量、使用方便等其他因素的影响。Google 和Altavista等搜索引擎响 应速度就非常理想。
4.5 检索功能
搜索引擎是否具有完善的检索手段,如是否支持布尔逻辑检索、位置检索 、截词检索、字段检索等;是否具有范围限制的功能,如分类范围限制、地域时间范围限制 、网站类型范围限制、语言范围限制等;是否还有其他辅助性的功能,如自动加入同义词等 ,这些都在很大程度上影响了搜索引擎的检索效率和检索质量。
4.6 目录设置的合理性和分类的深度和广度
这是评价目录式搜索引擎的重要指标。可以 从几个方面来考察:分类的合理性;分类级次是否完善;是否提供交叉显示功能;类名起得 是否规范;各类内容的说明是否清楚。总之,一个好的分类目录,就像一个指南针,可以非 常方便地让用户找到自己所需要的目标,大大提高检索的效率。
4.7 数据更新的频率和时效
数据更新的频率和时效是指搜索引擎的索引数据库中信息的 更新频率。要尽量缩小搜索引擎的信息库与网上信息更新的滞后性,必须有高智能的自动搜 索、分析、标引和著录系统,以最短的搜索周期更新变化了的Web信息,剔除已成“死链” 的链接。这样才能保证信息的时效性,才能成为用户检索信息的有力工具。
4.8 用户界面
用户界面应简洁明晰,能够提供实时的提示和帮助。
4.9 结果显示
检索结果显示的好坏直接影响到搜索引擎的使用效果,包括显示的内容组 织,排序方式,返回结果描述是否详尽合理,是否提供足够的相关信息(内码、文件大小、 文件日期、内容摘要或评价等),都对用户判断检索结果有很大的影响。
5 常用的搜索引擎
目前,最为著名和常用的搜索引擎有Google,,AllTheWeb,AltaVista,lnktomi,Teoma,W is e Nut,Overture (原为GoTo),百度 (Baidu),慧聪 (HuiCong)等。其中AllTheWeb,Teoma ,Wise Nut这三个新引擎发展很快。
随着网络的发展,搜索引擎拥有了大量的用户群,传统的搜索引擎技术已经不能满足用户的 需求。因此,对搜索引擎的检索技术需要作进一步研究和发展,以满足用户对网络信息的需 求。
[参考文献]
[1] 黄光明网络多媒体信息检索初探[J]情报杂志,2004,(3).
[2] 朱俊卿搜索引擎Google研究[J]现代图书情报技术,2002,(1).
[3] 曾尔雷搜索引擎Ask Jeeves评价[J]农业图书情报学报,2005,(7).
[4] 王娜博客搜索引擎与传统搜索引擎的比较研究[J]图书情报工作,200 6,(7).
版权声明:
1.十号范文网的资料来自互联网以及用户的投稿,用于非商业性学习目的免费阅览。
2.《浅析网络信息检索的方法—搜索引擎》一文的著作权归原作者所有,仅供学习参考,转载或引用时请保留版权信息。
3.如果本网所转载内容不慎侵犯了您的权益,请联系我们,我们将会及时删除。
本栏目阅读排行
栏目最新
- 1在农民收入调查工作动员培训会上讲话
- 22024年领导干部政治素质自评材料(完整)
- 3公司党委党建工作总结报告【完整版】
- 42024年主题教育党建调研开展情况总结
- 52024年度区妇联关于党建工作述职报告(完整)
- 6关于加强企业人才队伍建设调研与思考(完整文档)
- 72024县党员干部抓基层党建工作述职报告
- 8第二批主题教育研讨发言:时刻“以民为本”,听“实言实语”,办实事好事
- 92024关于党员干部法治信仰情况调研报告(2024年)
- 10局网络安全工作责任制落实自查报告(全文)
- 11XX国企分管领导关于党建设引领企业高质量发展研讨发言(范文推荐)
- 122024年第二批主题教育专题读书班研讨发言提纲(6)【完整版】