[网络规模发现服务的研究与实践]计算机网络第7版 pdf

时间：2019-04-17 03:38:00　来源：柠檬阅读网本文已影响人

　　[摘要]分析跨库检索和“下一代图书馆目录”技术存在的缺陷，在此基础上阐述网络规模发现服务的基本原理和主要特点，并介绍WorldCat Local、Summon、EBSCO Discovery Service、Primo Central等几款商业网络规模发现服务产品及美国图书馆界对应用这项服务的反应。指出发现服务在中国的应用刚刚开始，它将有助于提高图书馆西文数据库的利用率，而开发中文网络规模发现服务是当务之急。
　　[关键词]网络规模发现服务跨库检索数字图书馆
　　[分类号]G250.73
　　20世纪90年代之前，磁介质电子资源、联机检索等技术是少数资深馆员才能掌握的检索技术，而且昂贵的联机检索费用也阻碍了用户的使用。今天，虽然在线数字资源已经占据馆藏的半壁江山，使用数字资源也已成为图书馆用户的日常行为，但多种多样的数字资源检索并非一项简单的技能，给用户带来了使用上的障碍。例如，据美国学者Jason Vaughan调查，拥有“谷歌”和“百度”搜索习惯的90后用户尤其觉得图书馆数据库检索是一个难题。
　　1　从“跨库检索”到“下一代图书馆目录”的缺陷
　　迄今，图书馆书目检索和数据库检索的一般步骤还是先选定单个的需要检索的图书馆目录或者特定的需检索的在线数据库，然后进入其检索界面，根据其特定的检索规则，输入检索式，获得检索结果。以笔者供职的南京大学图书馆在线数据库为例，该馆拥有中文数据库61个，西文数据库100个，试用数据库7个，这些数据库的检索界面和规则都存在一定的差异，非专业的图书馆员要想娴熟地检索这些数据库，没有相当长时间的训练是不可能的。
　　图书馆界并非不知道问题所在，为了实现更加便捷的检索，满足90后等习惯于搜索引擎检索的新一代用户的需要，图书馆做了不少工作。其实，早在纸质目录时期，图书馆界就编辑出版了不少联合目录，以揭示跨馆的文献资源。20世纪90年代到21世纪初期，基于互联网技术的“跨库检索”(federated searching，也有人称之为“元搜索”(meta searching))是主要的解决方案。需要注意的是，元搜索引擎从原理上说与跨库检索相类似，但其检索对象仅为网页与网站，不包括网络数据库，故国外的通行做法是将其归人搜索引擎而不是跨库检索。
　　跨库检索是将一个个独立、不同学科、不同类别的数据库进行整合的方式，它从技术上屏蔽了图书馆的不同数据库之间检索方法和界面的差异。但是，跨库检索技术的局限性也非常明显：跨库检索并没有建立自己独立的索引库，面对异构数据库，只是进行简单的数据库字段匹配，与人工逐一检索N个数据库相比，只是节省了登录、键入关键词的时间，而且用户等待跨库系统的N个数据库自动检索结果输出的时间比较长，当跨库检索系统并发量或检索量大时，反应时间会明显延长，检索效率严重下降。
　　除此以外，美国匹兹堡大学网络服务馆员Wisniewski指出，跨库检索在实际使用中还存在另一些问题，首先，需要使用者自己判断检索记录的重要性。其次，许多图书馆期刊论文并未和图书馆目录进行良好的整合，跨库检索还只是联合书目的变种罢了。再次，在移动互联网时代，非常多的用户已经习惯使用iPad、智能手机来查阅图书馆资源，而对于移动终端用户来说，响应速度和延迟性是至关重要的指标，跨库检索是非常耗费带宽资源的一种检索平台，为了完成一个检索要求，浏览器和服务器需要进行繁复的通讯往返，这在移动互联网环境下是不可想象的。第四，移动互联网环境下资源使用需要认证，一个跨库检索请求需要调用属于不同的数据库商的数据库，这在传统的大学社区中使用不成问题——通过IP地址很容易解决认证问题，但是在移动终端环境下的认证就非常复杂了。因此，跨库检索无法很好地适应移动互联网环境。
　　跨库检索不是一种基于独立索引数据库的检索技术，它所有的致命缺憾都来自这一点。2005年前后，图书馆界提出了“下一代图书馆目录”(“next-genera，tion”library catalogs)解决方案。它提供了一种“收割”功能，可以对本地图书馆信息孤岛(silos 0finformation)中的书目信息和非本地馆藏的其他数据库的目录信息进行搜索，整合进单一的“下一代图书馆目录”界面。“下一代图书馆目录”虽然因为分面导航、标签云、Web2.0交互等功能的应用而在用户体验方面有很多突破和创新，但它所涵盖的资源范围仍然局限于图书馆传统的印刷型资源，也就是书刊目录和本地自建数字资源这个有限的范畴内。因此，“下一代图书馆目录”系统依然存在不足。
　　2　网络规模发现服务的原理和特点
　　2.1　网络规模发现服务的基本原理
　　2004年11月，Google第一次发布了Google Scholar的试用版，它以Google对数十亿网页的网络漫游、数据抓取和索引技术为后盾，大胆地将网络搜索理念应用到学术资源领域。以文字为导向的简洁界面、与网络搜索媲美的响应速度和免费使用的天性吸引了大量乐于尝试和体验的用户。Google Scholar后台的超大规模元数据索引是其能够提供高相关度、信息清楚规范的检索结果的基础，这些数据主要由来自“合作伙伴”、“网络抓取”和“引文提取”三部分的资源记录整合而成，其中包含许多首次得以集中呈现在统一平台中供检索的资源，能够帮助用户更加充分地发掘和利用“学术深层互联网”(academic invisible Web)的内容和开放获取资源。Google Scholar的功能设计则为用户带来了学术资源搜索中的全新体验，甚至反过来影响着他们的搜索习惯，例如优化的综合因素的相关度排序、深至全文的索引度、文章级的资源链接和获取粒度、丰富的版本关联、与Web 0f Science并列的文献索引库引用次数、便捷的引文链接、相关文章推荐、网页快照等。Google Scholar给图书馆界提供了新的标杆。而由于在检索速度、资源整合、消除重复数据和分级处理等方面的不足，跨库检索并未像Google Scholar那样吸引到用户的关注。图书馆检索系统需要一个在速度和范围上与Google Scholar相抗衡的检索引擎，在这一背景下，作为跨库检索的替代品，网络规模发现服务(Web，scale discovery)逐渐进入人们的视野。
　　与Google Scholar的原理类同，网络级发现服务是通过对海量的来自异构资源的元数据和部分对象数据以抽取、映射、收割、导人等手段进行预收集，再归并并映射到一个标准的表达式进行预聚合，形成统一的元数据索引，最后通过单一但功能强大的搜索引擎向终端用户提供检索和服务。网络规模发现服务的核心是基于一系列的经过预处理的格式统一、内容丰富、结构清晰的元数据仓储所构建而成的“统一”或“中心”索引，利用这个基于标准的表达式的索引能够灵活地构

相关热词搜索：实践规模发现研究

[网络规模发现服务的研究与实践]计算机网络第7版 pdf

最新文章

热门文章

[网络规模发现服务的研究与实践]计算机网络 第7版 pdf

最新文章

热门文章

[网络规模发现服务的研究与实践]计算机网络第7版 pdf