关联挖掘技术在图书馆推送服务中的应用研究_关于图书馆的推送

【www.zhangdahai.com--教学心得体会】

  【摘 要】关联规则是数据挖掘的主要的技术之一,本文阐述了图书馆个性化信息推送服务以及关联规则数据挖掘技术,介绍了基于Apriori关联算法在图书馆读者借阅历史数据分析中的应用,论述了关联挖掘分析结果对图书馆推送服务的积极作用。指出了在使用关联规则中可能会存在的若干问题,并对相关问题提出了一些解决方法。
  【关键词】数据挖掘;关联规则;图书馆;推送服务
  
  1.引言
  随着信息技术的飞速发展,大部分图书馆由传统意义上的图书馆转变为现代化的数字图书馆。在图书馆自动化程度不断提高的同时,也带来了图书馆数据量的成倍增长,这些数据除了用于记录读者的账户信息外,一般只用来做一些常规的业务数据统计,其潜在的使用价值还远没能得到充分的挖掘和利用。[1]由于目前大多数图书馆缺乏数据的集成和分析,更缺乏对统计数据中隐含的关联进行归纳与揭示,使图书馆对读者信息需求的捕获停留在比较浅显的层面,更谈不上辅助决策和知识的自动获取。数据关联挖掘技术正好为我们提供了解决上述问题的有效方法,它通过对海量数据的分析,从中挖掘出有价值的知识和规则,挖掘和发现读者借阅行为中隐含的规律,为图书馆管理、信息服务、信息资源采集提供了科学决策的有效方法。
  2.关联挖掘技术
  2.1 数据挖掘
  数据挖掘是近年来随着人工智能和数据库技术的发展而出现的一门新兴技术。数据挖掘又称为数据库中的知识发现(KDD:Knowledge Discovery in Database),是指从大量的、不完全的、模糊的、随机的数据中,提取隐含的、未知的和潜在有用的信息的非平凡的过程。简单地说,数据挖掘就是从大量的数据中提取或“挖掘”出有用的知识。
  数据挖掘实质上不能算是一门新技术,它只是集合了人工智能、数据库、机器学习等多个领域的理论和技术。数据挖掘的方法按其功能可划分为:关联分析、分类和预测、聚类分析、孤立点分析、演变分析等。其中最广泛的应用方法之一就是关联规则挖掘算法。
  2.2 关联规则
  关联规则反映一个事物与其他事物之间的相互依存性和关联性,可用于表示数据库中诸多属性(项集)之间的关联程度。如果两个或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。
  关联规则挖掘,在1993年的SIGMOD会议上被首次提出,在事务、关系数据库中的项集和对象中发现频繁模式、关联规则、相关性或者因果结构,其目的是为了发现数据中的规律。随着对大量数据的不停收集与存储,数据库中挖掘关联规则显得越来越重要。[2]
  2.3 关联规则挖掘求解问题的步骤
  从数据库中发现强关联规则的步骤为:①预处理与挖掘任务有关的数据,根据具体问题的要求对数据库进行相应的处理,从而生成规格化的数据库;②从数据库中找到所有支持度大于最小支持度的项集,这些项集称为频繁项集;③使用第2步找到的频繁项集产生期望的规则,这些规则必须满足最小置信度,形成输出规则。
  2.4 关联规则Apriori算法
  Apriori算法是最著名的关联规则算法,Apriori算法命名源于算法使用了频繁项集性质的先验(Prior)知识,它将发现关联规则的过程分为两个步骤:①通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集。挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。②利用频繁项集构造出满足用户最小信任度的规则。
  3.关联规则在图书馆推送服务中的应用
  3.1 图书馆个性化信息推送服务
  数字图书馆个性化信息推送服务是一种能满足用户的特定信息需求的服务,即根据用户提出的明确或模糊的要求,或通过对用户借阅历史信息的分析,在研究用户行为、兴趣、爱好、专业和习惯的基础上,根据用户的个性化需求而主动向用户提供其可能需要的信息的服务。它包括两层含义:首先是针对不同的用户需求提供不同的服务;其次是发现用户的潜在需求,进行主动的信息服务。[3]
  个性化信息推送服务是数字图书馆服务发展的根本要求,这种服务方式在数字图书馆中的实现不仅能够满足用户的个性化信息需求,而且可以大大提高图书馆的资源利用率,便于图书馆服务的大众化及服务效率和质量的提高。
  推送服务的有效开展必须基于对数字图书馆中用户历史事务数据库中信息的挖掘来实现。随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用,在图书馆积累了大量的用户对资源的历史访问数据,这些数据背后隐藏着许多重要的信息,如用户类型与图书类型存在某种关联,A类图书与B类图书存在某种关联等。如果能够对其进行更高层次的分析,就可以更好地利用这些数据为用户服务。因此,需要获取“不同类型的用户喜欢哪类书籍”的统计分析,以便向不同类型的用户推荐相关图书;需要了解“有多大比例的用户借阅了图书A同时又借阅了图书B”,以便向已借阅图书A的用户推荐图书B。所以,我们可以利用关联规则对用户群的流通历史数据进行挖掘分析,发现隐含的规律,更好地为用户服务,更深入地开展图书馆的工作。
  3.2 关联规则应用于图书馆推送服务
  在进行关联分析前,首先要进行数据准备工作,将图书馆借阅数据进行预处理,形成关联分析所需的事务数据库,然后应用关联算法进行关联分析,最后挖掘出有效的关联规则。
  (1)数据准备与数据预处理
  在图书馆的用户信息数据库中存有大量的用户信息,如果需要找出用户年龄、职业、学历与其借阅文献的关联规则时,我们需要关心的是用户信息中的年龄、职业、学历,其他的如姓名、性别等可以认为是一些无关的信息,有时某些字段属性值可能存在空缺值或者噪声不一致的现象。因此可以在数据挖掘前使用清理、集成、变换、归约等预处理方法改善数据质量,将原始数据形式转换成需要的数据形式,从而提高数据挖掘的效率和质量。[4]
  (2)基于Apriori算法的图书借阅关联规则的挖掘
  下面我们将对图书馆图书借阅问题进行讨论,通过分析发现哪些种类的图书被用户同时借阅,计算不同种类图书的支持度和置信度。经过关联分析形成借阅模式,根据这些借阅模式,主动地向用户推荐相关的书目,从而提高图书馆的服务质量。
  在下面的例子中,我们期望在图书馆流通历史记录中找出有多大比例的用户借阅A类图书的同时又借阅了B类图书。如果我们挖掘出了A类图书和B类图书之间的强的关联规则,就可以向用户推荐相关的图书,提高图书馆的服务质量。我们以5位到馆用户借阅记录为例来说明关联规则的应用,表1是用户借阅事务数据表,设定最小支持度为4O%。[5]
  运用Apriori算法进行数据挖掘,首先扫描事务数据,生成候选的频繁1-项集的集合C1,见表2。
  根据C并结合我们设定的最小支持度40%,从而产生频繁1-项集的集合L1,见表3。
  由频繁1-项集L1。生成的候选频繁2一项集的集合C2,见表4。
  根掘C2并结合事先设定的最小支持度40%,从而产生频繁2-项集的集合L2,见表5。
  由频繁2-项集L2生成的候选频繁3-项集的集合C3,见表6。
  根据C3并结合事先设定的最小支持度40%,从而产生频繁3-项集的集合L3,见表7。
  在此例中,频繁3-项集无法产生候选的频繁4-项集,由此我们得出下列规则:(1)借程序设计类图书的用户同时借高数类和英语类图书的支持度是40%,置信度是50%;(2)借高数类图书的用户同时借程序设计类和英语类图书的支持度是4O%,置信度是67%;(3)借英语类图书的用户同时借高数类和程序设计类图书的支持度是4O%,置信度是50%;(4)借程序设计类和高数类图书的用户同时借英语类图书的支持度是40%,置信度是100%;(5)借程序设计类和英语类图书的用户同时借高数类图书的支持度是40%,置信度是5O%:(6)借英语类和高数类图书的用户同时借程序设计类图书的支持度是4O%,置信度是5O%。
  关联分析:对于第一条规则,我们发现,如果用户是以借程序设计类图书为目的,那么他同时借高数类和英语类图书的可能性不是很大,置信度只有50%,第三条规则同理;对于第五条规则,如果用户是以借阅程序设计类和英语类图书为目的,那么他同时借阅高数类图书的可能性不是很大,置信度只有50%,第六条规则同理;而对于第二条规则,我们发现,如果用户是以借高数类图书为目的的,那么他同时借程序设计类和英语类图书的可能性就大大增加,达到67%;对于第四条规则,我们发现,如果用户是以借阅程序设计类和高数类图书为目的,那么他同时借阅英语类图书的将大大增加,达到100%(一般情况是不会达到100%的,这是因为事务数据太少只有5条导致的)。因此可以向借高数类图书的用户推荐程序设计类和英语类的图书;特别是借阅程序设计类和高数的用户,一般对英语类的图书都较感兴趣,可以向其推荐。[6]
  4.进行关联规则挖掘过程中应注意的问题
  4.1 确定恰当的项集和恰当的层次
  在进行关联挖掘前要选择合适的用户群,对于过于宽泛的用户群会使我们在庞杂的数据中,很难发现任何有价值的信息。在一个图书馆里,存有几十万甚至上百万册图书,这些图书拥有不同的编码和不同层次的代码,当我们在分析中使用的层数增加的时候,要考虑到的组合数会非常快速的增长。这就要求使用分层中较高层次的项,比如使用“数据库类”而不是具体的某本数据库书。另外,项越具体,结果的可操作性可能越高。例如,知道什么书与算法设计搭配,可以更好地为用户进行书籍的推荐。由于数据挖掘的时间视数据的规模而定,要保证数据处理的顺利进行,必须要确定适当的数据规模,数据过少很难说明问题的普遍性,而数据过大也会降低数据处理的效率。
  4.2 确定合理的挖掘时间段
  由于关联挖掘是从大量的数据中发现规律,挖掘过程需要占用大量的系统资源,因此数据挖掘通常是在系统空闲的时候进行,或者是将系统的数据导出以后再进行。[7]
  4.3 从所有数据中产生最佳规则
  在关联规则数据挖掘过程中必需的最小支持度和最小置信度是人为设置的,如果设置不合理,最终得到的规则将会很多或者非常的少,为了避免这种情况的出现,我们在进行数据挖掘的过程中要根据规则产生的实际数量和预定的目标适时地调整最小支持度和最小置信度。
  5.结语
  数字图书馆的流通信息为我们提供了最基础的原始的数据,通过对流通数据的关联挖掘,不仅能揭示隐藏在大量数据后的重要关系信息,同时也为这种关系提供了量化描述手段。这些定性定量的信息不仅能对图书馆的各项工作提供技术上的支持,也是图书馆开展以用户需求为导向的各项服务工作的基础。
  
  参考文献:
  [1]石军.数据挖掘在高校图书馆的应用[J].江西图书馆学刊,2005(3):35-36.
  [2]Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].机械工业出版社,2001,162-176.
  [3]石岩.智能推送技术在数字图书馆个性化服务中的应用[J].情报探索,2006(11):71-72.
  [4]王磊,刘东苏.关联规则挖掘在图书馆信息服务中的应用[J].情报杂志,2008(2):154-158.
  [5]胡丽蓉.关联规则挖掘在医学图书馆信息服务中的应用探讨[J].晋图学刊,2010(4):23-26.
  [6]胡根桥.基于关联挖掘技术的图书馆个性化信息服务[J].科技情报开发与经济,2007(21):12-14.
  [7]罗凤莉.图书流通数据的关联规则挖掘[J].情报探索,2006(8):40-41.
  
  作者简介:苏帆(1988―),女,西南大学2010级情报学硕士研究生,研究方向:网络信息组织与服务。

推荐访问:推送 关联 挖掘 图书馆

本文来源:http://www.zhangdahai.com/jiaoxueziyuan/jiaoxuexindetihui/2019/0319/22674.html

  • 相关内容
  • 热门专题
  • 网站地图- 手机版
  • Copyright @ www.zhangdahai.com 大海范文网 All Rights Reserved 黔ICP备2021006551号
  • 免责声明:大海范文网部分信息来自互联网,并不带表本站观点!若侵害了您的利益,请联系我们,我们将在48小时内删除!