聚类分析在图书馆馆藏书目中的挖掘与应用

时间：2020-12-17 09:38:52　来源：柠檬阅读网本文已影响人

(三门峡职业技术学院信息工程系，河南三门峡 472000)
摘要：文章从图书馆管理系统中引入数据挖掘技术，利用聚类分析中的K-means算法对图书馆馆藏图书借阅使用情况进行了聚类挖掘，并将挖掘结果进行分析，从而制定出相应的决策，以有针对性地丰富馆藏资源和优化图书馆的馆藏布局。
关键词：数据挖掘；
图书馆；
聚类分析；
K-means算法
中图分类号：G253 文献标识码：A 文章编号：1007—6921(2009)13—0140—02

在图书馆管理系统中，书目的馆藏信息、文献的流通情况、读者基本信息有着详细的记录。

通过挖掘文献使用规律，对图书借阅次数进行聚类分析，可得到哪些图书借阅频率较高，哪些图书的借阅频率较低。从而制定出相应的决策，有针对性的丰富馆藏资源和优化图书馆的馆藏布局。
1 数据准备
1.1 数据选取

为了更好地反映近一年来的读者借阅馆藏书目的情况，文章以三门峡职业技术学院的实际数据作为载体，从图书馆2007年一年的91 810条图书书目借阅明细记录中选取记录和馆藏书目信息作为分析的数据来源。在图书馆管理系统数据中，反映书目借阅情况的数据来自于两个数据表：BookData（馆藏书目信息表）和LendData（读者借阅记录表）。
1.1.1 馆藏书目信息。导出的主要字段包括：记录控制号、图书条码、题名、著者、出版日期、索书号，其中图书条码与读者借阅信息库中的图书条码可以做关联。
1.1.2 读者借阅记录信息。导出的主要字段包括：流通日期、读者条码、读者姓名、图书条码、题名、索书号。其中图书条码与馆藏书目数据库中的图书条码可以做关联。
1.2 数据预处理

由于挖掘使用图书馆2007年一年的91 810条图书书目借阅明细记录以及馆藏藏书目信息作为分析的数据来源。因此，首先对借阅记录中，2007年以前的记录进行了清除；
同时对那些已经注销了图书证的读者借阅信息和已经下架的图书书目信息也进行了清理。再将两个数据表运用查询语言以图书条码作为关键字段进行筛选合并，成为一个新的表（BooksData）。然后将BooksData表中的字段名规范化，得到表结构如下所示：

针对上述已经规范操作后的数据表，根据挖掘的需要，对其进行优化删除记录控制号、题名、著者、读者条码、读者姓名几个冗余的字段，只保留属性概念分层最底层的属性项。

在统计时主要考查两个参数，①该图书最近半年的借阅次数。②该图书总的借阅次数。从这两个方面考查读图书馆馆藏的利用情况，更加全面合理，统计后形成的BookTimesData如图所示：


2 馆藏书目的聚类分析
2.1 聚类算法选取

K-means聚类算法属于聚类分析方法中一种基本的且应用最广的划分方法，是一种在无类标号数据中发现簇和簇中心的方法［1］。选择期望的簇中心数K，K-means过程反复移动中心以极小化整个簇内方差。该算法的基本思想是：给定一个包含n个数据对象的数据库以及要生成的簇的数目K，随机选取K个对象作为初始的K个聚类中心，然后计算剩余各个样本到每一个聚类中心的距离，把该样本归到离它最近的那个聚类中心所在的类，对调整后的新类使用平均值的方法计算新的聚类中心，如果相邻两次的聚类中心没有任何变化，说明样本调整结束且聚类平均误差准则函数已经收敛。

K-means聚类算法流程如下：①随机指定K个样本点Z1（1），Z2（1），…，Zr（1）为初始聚类中心。②按照距离最近的原则，对样本集合聚类，确定每个样本的类属关系。③使用公式1，计算新的聚类中心Z1（k），Z2（k），…，Zr（k）（k）表示迭代次数。④重复执行2～4，直到聚类中心稳定为止。

K-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；
而对于所剩下其他对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；
然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；
不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数。k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

K-means算法作为解决聚类问题的一种经典算法，它的主要优点是算法简洁、快速。如果结果簇是密集的，且簇与簇之间区别明显时，它的效果最好，对处理大的数据集，该算法是相对可伸缩的和高效率的。它的复杂度是O(nkt)，其中n是所有对象的数自，K是簇的数目，t 是迭代的次数［2］。

K-means算法中存在几个关键的参数，这些参数对于数据挖掘的效果起着重要的作用，下面对其一一做解释。①聚类数目K：用以确定聚类的数目，也就是说要分成多少个类，传统K-means算法要求用户手动输入这个参数，因此，常常需要经过多次尝试才能确定一个用户感觉合适的值。②聚类种子：分为初始种子和聚类过程中产生的种子，在传统的K-means算法中，初如种子选择得好坏直接决定聚类的时间的长短和聚类的效果好坏。如果用户能够参与进数据挖掘的过程，可以允许用户在挖掘过程中改变种子，以使挖掘向着用户期望方向发展。③误差准则函数E：误差准则函数直接决定聚类的效果和精确度［3］。
2．2 K-means算法实现

根据抽样得到聚类的初始划分后，形成了 k 个聚类，k 个对象分别为k个聚类的中心。开始进行第一次划分，依据“距离中心最近［4］”的原则，需要将n个数据对象划分至k个类。若每次划分过后，类中心发生了变化，则需要继续进行迭代划分［5］ 。实现代码如下：根据已经预处理完成的数据信息，给定X={x1,…,xc} ，每一点都有 d 维；
给定一个群聚的数目k，求其最好的聚类结果。

对上面得到的BookTimesData表进行聚类挖掘，设置聚类个数为3。一类为借阅次数较多的图书，一类为借阅次数一般性的图书，另一类为较少被借阅的图书。
2．3 聚类结果分析

运用K-means算法对图书馆馆藏书目2007年的借阅记录情况进行聚类分析，得到三类图书的借阅情况表，结果如表3，表4所示。


3 结束语

通过对馆藏图书进行聚类挖掘，文章从读者对馆藏图书的借阅次数角度来衡量馆藏图书的利用情况，捕捉图书馆在馆藏建设方面的某些特征。对聚类结果产生的第一类图书，由于它们的借阅需求比较大，可以考虑调整此类图书流通的册数，及时购买副本，及时对图书的完好性进行检查，保证在读者进行借阅的时候都能借到该类图书。另一方面，根据聚类结果，在馆藏布局方面，可以考虑将借阅需求比较大的此类图书排列在图书馆醒目的位置，方便读者借阅，同时对借阅需要比较少的图书进行分析，找到借阅次数少的原因，对此次图书的数量的位置做相应的调整。
［参考文献］
［1］张永梅,韩众,薛海丽.数据挖掘技术及其在数字图书馆中的应用［J］.计算机与现代化,2005,(10):79～81.
［2］李志明,胡森树. 数据挖掘及其在现代化图书馆中的应用［J］. 图书馆学研究 ,2006,(6) :39～41.
［3］余建国,聂荣.数据挖掘技术在图书馆中的应用［J］.电脑知识与技术,2008 ，(14):796～797.
［4］张红云,刘向东,段晓东,等. 数据挖掘中聚类算法比较研究［J］.计算机应用与软件,2003,20(03):45～48.
［5］司徒浩臻.数据挖掘技术在图书馆信息服务中的应用［J］.现代图书情报技术, 2005,(10):21～23.

相关热词搜索：馆藏挖掘书目 图书馆 分析

聚类分析在图书馆馆藏书目中的挖掘与应用

最新文章

热门文章