国外典型图书馆推荐系统简介

library-recommender-system

由于起步较早，目前国外的图书馆信息化程度整体上优于国内，推荐系统也已经开始应用在数字化图书馆领域，为读者提供个性化的图书推荐服务。其中，BibTip，ExLibris bX，Foxtrot，TechLens，Fab和LIBRA是几个比较有代表性的图书馆推荐系统解决方案。

德国卡尔斯鲁厄大学的BibTip推荐系统从2009年开始作为一项独立的付费服务对用户开放。BibTip是一个基于行为的推荐系统，通过对用户行为的匿名监控与评估提供推荐服务。该系统在服务器上进行推荐的数据分析及管理，图书馆无需过多的技术投入即可使用BibTip的服务。BibTip的体系结构包含3层，自底向上分别为数据层、代理层和用户界面层。BibTip的理论基础是Andrew Ehrenberg提出的重复购买理论，该理论对消费者的行为进行了分析^[1]。Ehrenberg证明人们在做出商品支付决定后会重复他们的选择，并且在下一次购物时会倾向于选择同一个品牌。BibTip使用了这一理论。通过用户的初始行为可得出用户的兴趣和喜好。例如，假设某用户对刊物X感兴趣，则该用户很可能对同一作者的刊物Y也感兴趣。BibTip需要大约几个月的时间收集和分析用户的初始行为数据。如果用户的访问频率较高，初始阶段可以缩短一些，但是推荐系统仍然面临着冷启动的问题。由于是基于用户行为的推荐系统，BibTip的适用范围比较广泛。

ExLibris bX（以下简称bX）从2009年开始为使用SFX（ExLibris的上下文敏感连接服务器，可在学术环境下实现不同Web资源之间的连接）的图书馆用户提供按需式服务。bX基于OpenURL和OAI-PMH标准，这两个标准协议用于对资源和相关元数据进行唯一标识。作为一种基于行为的推荐系统，bX根据对Web会话链接点击的分析生成推荐信息^[2]。系统所需的统计数据来源于ExLibris链接解析器的日志文件，所有相关院校的日志文件均可为推荐系统所用。bX在一定程度上解决了传统的基于行为的推荐系统中存在的一些问题，例如它应用了一些虽然简单但是行之有效的方法去除出版物与用户中存在的重复数据。由于系统使用了来自于很多不同高校的日志数据，因此冷启动问题也得到了明显的缓解。但是，如果没有足够的高校日志数据可用时，bX必须先收集到足够的日志信息，然后才可以开始做推荐^[3]。

Foxtrot使用一种本体论（研究论文话题本体）来描述用户并以此建立档案。Foxtrot基于相似用户和相似资源生成推荐信息，因此Foxtrot是一个结合了协同过滤与基于内容过滤方法的混合型推荐系统，其用户交互（访问URL，用户反馈）通过Web代理进行记录。包含有热门出版物与日期的可视化档案可以帮助用户理解系统的工作原理。每一篇论文都由规范化条目组成的向量以及诸如日期、题名、分类号、链接和论文URL等元数据进行描述。Foxtrot使用多级分类器IBK对论文进行分类。表示用户兴趣的档案可以通过本体的推理得到增强。Foxtrot同时也为利用相关数据集成外部本体提供了可能性，从而消除了冷启动的问题。

TechLens最重要的特性是其协同过滤方法关注论文本身的特征^[4]。一篇论文隐式地将其引用文献定性为优质论文，后者将被用作推荐使用。用户档案只包含一篇论文（隐式：最后浏览的论文，显式：用户选择的论文）。算法的作者认为该方法可以对当前用户的兴趣进行最优匹配。这种用户档案的优势是无需在用户端设置其他的监控系统，缺点是用户兴趣的演化无法得到跟踪。通过对10种不同的协同过滤，基于内容的过滤以及混合算法的测试，结果表明混合式的Fusion推荐算法表现优于单纯的协同过滤方法。Fusion以并行运行的方式同时使用了协同过滤与基于内容的过滤。通过这两种算法得出的备选项目使用特定的排序算法加入到推荐列表当中。此外，使用该方法得出的用户档案不适于长期使用，因为单独的一篇论文所包含的知识容量非常有限。

斯坦福大学数字化图书馆项目研发的Fab也是一个集成了协同过滤与基于内容过滤的混合式推荐系统^[5]。FAB的研发可以追溯到主流推荐引擎出现之前的1997年，用于从大量的网站中筛选出用户感兴趣的相关站点。推荐的依据是活跃用户及其相似用户对网站的评分。用户通过档案中的加权检索词向量进行描述。项目档案使用Rocchino算法通过相关性反馈进行更新。网站同时也通过一个100维的加权检索词向量进行表示，应用了TF-IDF模型^[6]。

LIBRA是Learning Intelligent Book Recommendation Agent（智能学习图书推荐代理）的简称，专门为数字化图书馆的图书推荐而设计^[7]。用户必须首先对前10项搜索结果进行评估，此后结果集将根据用户偏好进行排序。资源通过题名、作者、摘要、评论、相关作者、相关题目和关键词等属性来描述。要建立一个档案，用户需要对10本图书在1（最差）到10（最好）的区间内评分。机器学习领域的朴素贝叶斯学习算法用来为用户对图书进行排序。LIBRA通过搜索与用户相似的活跃用户生成推荐信息。用户之间的相似度通过皮尔逊相关系数进行计算，最后根据相似用户的评分进行评分预测。

参考文献：

[1] Geyer-Schulz A, Neumann A, Thede A. An architecture for behavior-based library recommender systems[J]. Information Technology and Libraries, 2003, 22(4): 12-13
[2] Bollen J, Sompel H V. An architecture for the aggregation an analysis of scholarly usage data[C]. Technical report, Los Alamos National Labatory, 2006: 298-307
[3] Gottwald S, Koch T. Recommender Systems for Libraries[EB/OL]. (2011-7-5) [2014-04-30]. http://www.zib.de/gottwald/dokumente/ACM_recsysbib.pdf
[4] Torres R, McNee S M, Abel M, Konstan J A, et al. Enhancing digital libraries with TechLens+[C]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries, JCDL ’04, USA, 2004: 228–236
[5] Balabanovic M, Shoham Y. Fab: Content-based, collaborative recommendation[J]. Communications of the ACM, 1997, 40:66–72.
[6] 黄晓斌，张海娟. 国外数字图书馆推荐系统评述[J]. 情报理论与实践, 2010,33(8): 125-128
[7] Mooney R J, Roy L. Content-based book recommending using learning for text categorization[C]. Proceedings of the ﬁfth ACM conference on Digital libraries, DL ’00, USA, 2000: 195–204.

本文链接：http://bookshadow.com/weblog/2014/07/01/brief-introduction-of-typical-foreign-library-recommender-system/
请尊重作者的劳动成果，转载请注明出处！书影博客保留对文章的所有权利。

周一	周二	周三	周四	周五	周六	周日
2014年6月				2014年8月
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31