自我介绍范文网

当前位置:自我介绍范文网 > 毕业论文 > 公共管理 > 图书馆管理 > >

国家图书馆数据管理与分析平台建设

来源::网络整理 | 作者:管理员 | 本文已影响

  内容提要:国家图书馆数据管理与分析平台是国家图书馆大数据工程的一个实验性项目。该项目选取国家图书馆五个核心系统的数据,在虚拟化平台上搭建相应的系统平台,通过数据收集、ETL处理、数据统计与分析等流程,形成统一的数据处理规范,并建立读者、资源和行为数据的标签化体系,从数据层面上揭示国家图书馆的馆藏资源、资源利用情况和用户行为等重要信息,为国家图书馆大数据利用提供理论与实践依据。

  关 键 词:数据处理与分析 ETL 大数据 标签体系

  图书馆作为社会重要的信息资源中心,不仅担负着保存人类文化遗产、传承人类文明的重要责任,还担负着传播文化知识、参与社会教育的重要职责。随着信息技术的高速发展,图书馆的信息服务也愈来愈依赖互联网、云计算、大数据等技术[1]。因此,将大数据与图书馆业务相结合,分析图书馆现阶段数据组织、分析、挖掘的开展情况,以及大数据时代用户对信息资源的利用需求,对推动大数据在图书馆建设和服务中的应用具有重要意义。

  1 国内外图书馆大数据应用情况

  随着美国、英国、法国等欧美国家纷纷提出大数据发展战略[2],大数据逐渐成为各行业的研究热点,图书馆界也开始了相关的研究与应用[3]。以美国为例,图书馆大数据主要应用在数据共享、公益服务和知识服务上,并为专业机构、社会团体和个人用户提供服务。例如,美国国家医学图书馆为实现生物学和临床信息数据共享开展的“整合生物学与临床信息项目”[4];美国各类公共图书馆、行业协会等非营利机构利用大数据开展的“数据无边界运动”,为公益服务的开展提供帮助[5];哈佛大学图书馆将1200多万种书目、音视频、手稿等数据向读者公布,并提供下载服务,满足用户的知识服务需求[6]。除美国外,欧洲国家的图书馆大数据应用也主要集中在数据的开放与共享上。例如,由大英图书馆、荷兰代尔夫特理工大学图书馆和德国国家科学技术图书馆等共同组建的DataCite非营利组织,为社会团体提供研究数据的数字对象唯一标识符(DOI),帮助其寻找、识别和引用权威研究数据;欧盟委员会在2011年11月提出的“欧盟开放数据战略”,向社会开放大部分公共部门数据,范围覆盖图书馆、博物馆和档案馆等组织。

  与国外相比,国内图书馆对大数据的研究和应用起步较晚,研究内容主要集中在大数据的内涵、特征和应用边界等基础理论上[7]。虽然不少学者指出大数据可应用于信息服务、学科服务、参考咨询、个性化服务、信息营销、预测分析和新型知识服务等方面[8],但在实际应用上仍处于探索阶段。近年来,受益于数字图书馆的建设成果,我国图书馆界大数据应用的数据基础已经形成,国内各大图书馆也开始了大数据实际应用的探索与尝试,如国家图书馆的数据管理与分析平台建设,上海图书馆的“智慧图书馆”建设;各地图书馆还利用大数据技术发布年度分析报告或各类研究专题等,其中包括上海图书馆自2013年起发布的年度阅读报告和读者阅读账单,武汉大学图书馆发布的2015年度阅读报告等。

  2 项目概述

  2.1 项目目的

  目前,由于大数据在国内图书馆界的实际应用仍处于探索阶段,尚无成熟经验可以借鉴,存在落地较难的问题,不便进行大规模的工程建设。因此,国家图书馆尝试利用大数据的思想和方法建立数据管理与分析平台,从数据的ETL(Extract-Transform-Load,抽取、转换、装载)处理、组织、读者与资源描述入手,利用多种分析方法从不同角度对重点系统的数据进行分析与挖掘,探寻已有数据的潜在价值。

  该项目旨在实现以下几点:(1)在对各重点应用系统相关数据内容的抽取、净化与转换的过程中,形成数据管理与分析平台的统一数据处理规范。(2)构建标签化体系,将读者数据和资源数据打上结构化标签,构建用户和资源的“数据画像”。(3)通过读者属性和行为数据的分析与挖掘,为图书馆的个性化服务或线上线下活动提供数据辅助。(4)以资源特征为基础,结合读者对资源的访问行为,开展涵盖资源访问量、热点资源、检索热点词关联等多维资源分析,为资源采购、资源服务布局和资源优化调整提供一定的数据依据。

  2.2 建设边界

  对图书馆而言,基本业务需求来自读者服务、资源建设以及两者之间的关联关系,同时考虑到本项目属于实验性项目,故数据采集的范围限定在与读者和资源相关的核心业务系统内,选取具有代表性的五个系统,分别为Aleph系统①、文津搜索系统②、统一用户管理系统③、读者门户系统④和门禁系统⑤,并以这五个系统的数据作为数据边界进行数据处理与分析,其分析内容也仅限于读者与资源所呈现出的特点与关系,以及两者之间的影响与相互作用。

  3 数据调查与收集

  3.1 数据调查

  按照数据种类,调研数据主要分为读者数据、资源数据和行为数据三大类,为了摸清数据的真实情况,本项目对每类数据的主要字段、来源和作用进行了详细的调查,详见表1。

  (1)读者数据:描述读者属性的元数据,包括读者ID、性别、出生日期、国家地区等,可用来刻画“读者画像”,分析读者特征。

  (2)资源数据:包括描述馆藏资源(含纸质资源和电子资源)属性的元数据和描述系统内所有数据库自身属性的数据,不包含对象数据,主要描述字段有题名、责任者、出版信息等,可用来刻画“资源画像”,分析资源特征和资源使用情况。

  (3)行为数据:记录读者行为、行为趋势的数据,与时间要素相关,既包括登录记录、检索记录、浏览记录和借阅记录等能够直接从系统中获取的字段信息,也包括检索效率、排行榜和阅读偏好等通过间接计算获取的信息。

国家图书馆数据管理与分析平台建设


本文标题:国家图书馆数据管理与分析平台建设
分享到: 更多

更多关于“图书馆管理”的文章

随机阅读TODAY'S FOCUS