时间:2021年06月26日 分类:经济论文 次数:
摘要利用汇文文献信息系统抓取了2011-2020年间东北财经大学图书馆用户借阅数据,该数据包含了用户信息、借阅信息及图书信息。通过数据匹配和加密处理,共获得1464729条记录。其中对用户信息ID进行了UUID重新编码处理,保证了用户隐私。本次公开的数据集有助于高校图书馆准确掌握近年来文献资源利用情况、探寻用户群体借阅行为的变化趋势、挖掘用户阅读兴趣;同时有助于为图书馆馆藏布局调整、资源与服务的有效推广及文献资源精准化服务提供决策支持。
关键词借阅行为借阅记录数据集东北财经大学
0引言
随着自动化信息系统及数据库技术在图书馆的快速普及,图书馆存储了大量用户的借阅数据。通过借阅数据、用户特征及借阅行为影响因素的深入挖掘,已经成为图书馆提升馆藏文献利用率、改进馆藏建设质量、创新文献个性化推荐服务的重要手段。
本数据集通过东北财经大学图书馆文献信息管理系统采集的近十年图书馆用户借还记录,数据完善规范,在高校图书馆拥有一定代表性[1]。本数据集可辅助开展文献资源利用评估,用户借阅行为分析,图书文本信息的智能发现,为用户提供智能化、精准化的文献推荐服务和知识服务具有较高的研究和实践价值。
1数据采集和处理方法
本数据集涉及数据均采集自汇文文献信息管理系统的后台Oracle数据库。用户信息数据存储在READER表中,图书借还数据存储在LEND_HIST表中,图书相关信息数据分别存储在MARC表、INDI_ACCT表及LOCATION表中,其均为结构化数据。
1.1数据采集和匹配
准备一台安装SQLServer2005关系型数据库的服务器专门用于数据采集和数据匹配。为保证借阅数据具有利用价值,本数据集不仅采集了发生借阅行为的用户信息,而且对借阅文献的主题、摘要、作者简介等详细信息进行了关联。通过SQLServer导入功能将Oracle数据库的READER表、READER_TYPE表、LEND_HIST表、MARC表、DOC_TYPE_CODE表及LOCATION_LST表同步到数据采集服务器的SQLServer2005数据库中。
通过SQL语句关联READER表和LEND_HIST表,关联限制条件为READER表CERT_ID字段与LEND_HIST表CERT_ID_F字段关联;READER表关联REDR_TYPE_CODE表,关联限制条件均为REDR_TYPE_CODE字段;LEND_HIST表关联MARC表,关联限制条件为LEND_HIST表MARC_REC_NO_F字段与MARC表的MARC_REC_NO字段关联;LEND_HIST表关联INDI_ACCT表,关联限制条件为LEND_HIST表PROP_NO_F字段与INDI_ACCT表的PROP_NO字段关联;MARC表关联DOC_TYPE_CODE表,关联限制条件为均为DOC_TYPE_CODE字段;LEND_HIST表关联LOCATION_LST表,关联限制条件为LEND_HIST表LOCATION_F字段LOCATION_LST表的LOCATION字段。
由于文献信息中关联了主题、文摘(摘要)、作者简介等信息,上述三部分内容存储在MARC表的同一字段中,不便于区分。因此在实际数据采集中,我们利用汇文文献自动化的系统管理模块中MARC字段导出功能,将606、330、314字段的相关含有主题、文摘及作者介绍等数据导出到文本文件中,再将文本数据导入至SQLServer数据库中,最后进行用户信息表、借阅记录信息表及文献信息表的关联匹配,一共汇总到1464729条记录。
1.2数据清洗
借阅用户的信息采集了学生用户的学号及教工用户的职工号,用户的学号及职工号信息属于学校师生个人敏感数据,为了避免隐私数据泄露,对数据进行了脱敏处理。首先给每条用户记录增加UUID编码,实际上就是用UUID来代替用户ID,保证ID的唯一性。UUID是通用唯一识别码(UniversallyUniqueIdentifier)的缩写[2],在任何一台计算机或服务器上生成的数字,在所有空间和时间上被视为唯一的。对用户记录ID重新编码后,可以直接抹去用户ID,再用UUID与密钥拼接进行MD5加密,可完全保证使用者安全利用数据。
汇文系统中的用户性别是来源于学校一卡通中心同步数据,但大部分性别不准确。为尽可能保证性别的准确性,利用用户信息的身份证ID字段,来修正用户的性别信息,修正完成后抹去身份证字段。但早期注册用户缺失身份证ID信息或性别数据的,SEX字段统一置为NULL值。为了区分用户的年龄段,根据身份证ID信息提取用户的出生年信息存入BIRTHYEAR字段。但有个别用户的身份证在原始数据录入时错误或存入了非身份证信息(军官证号、护照号、考号等),都会导致提取的值存在异常,例如出现“1016”、“1086”、“2886”及“2(3)”等异常值。
通过与原始数据进行比对,将明显错误的BIRTHYEWAR字段进行了修正,但对于无法获取用户身份证信息的BIRTHYEAR字段赋予NULL值。年级组字段(CODE01)在数据同步时,不同年份学校一卡通中心提供的字段值有所区别,因此年级组字段根据用户注册年份来修正。出版年字段中含有字母和其他非数字字符的,需要将字母和非数字字符清洗掉,只保留年份。单位字段(DEPT)和专业字段(OCCUPATION)中含有括弧、空格及其他特殊字符也需要清洗。另外,对于单位或专业的文字表述,有的年份是全称,有的年份是简称,需要尽可能对同一单位或专业的数据进行名称统一化处理。用户字段数据均来源一卡通同步数据,存在部分字段为空值的记录。
借阅历史表中财产号字段(PROP_NO_F),可以唯一识别借阅数据中每册文献。为了隐去原有系统的财产号信息,我们仍然采用UUID编码的方法生成每册文献的唯一记录号信息。数据处理中首先对文献财产表(INDI_ACCT)的每册图书信息进行编码存入BOOK_ID字段,再将BOOK_ID字段关联到图书借阅信息表中。
从汇文系统管理模块导出的借阅文献主题词存储在了不同的字段,为了方便数据使用,我们将每个主题词之间用分号隔开,对主题词中含有“①”、“-”及空格等特殊字符进行了清洗,并合并到一个字段(SUB)。对于汇文系统没有主题描述的,均赋予空值。以上数据清洗的过程在SQLServer2005数据库查询编辑器中完成,部分清洗语句如下:生成UUID编码语句(去掉字符中的“-”):select*,replace(newId(),'-','')asUUIDinto用户表1from原始用户表;年级组字段修正语句:update用户表1setCODE01=substring(REDR_REG_DAY,1,4);MD5加密语句(去掉字符中的”0x”):select*,replace(sys.fn_sqlvarbasetostr(HashBytes('MD5','拼接字符串1'+UUID+'拼接字符串2')),'0x','')USERIDinto清洗完成用户表from用户表1;性别字段修正语句:SelectUSERID,DEPT,OCCUPATION,REDR_REG_DAY,CODE01,REDR_TYPE_CODE,casewhenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=0then'女'whenlen(ID_CARD)=15andcast(substring(ID_CARD,15,1)asint)%2=1then'男'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=18andcast(substring(ID_CARD,17,1)asint)%2=1then'男'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=0then'女'whenlen(ID_CARD)=17andcast(substring(ID_CARD,17,1)asint)%2=1then'男'elseNULLendasSEXinto用户表2FROM用户表1;出版年字段修正语句UPDATE文献信息表SETPUB_YEAR=replace(replace(PUB_YEAR,'c',''),'.','')wherePUB_YEARlike'c%';主题词特殊字符处理和合并语句:update借阅历史表setSUB=ISNULL(SUB1+';','')+ISNULL(SUB2+';','')+ISNULL(SUB3+';','');update借阅历史表SETSUB=LEFT(SUB,len(SUB)-1)whereLEN(SUB)>0;
2数据字典、数据样本和数据量
数据集包含用户信息、借阅信息及文献信息三大部分。
3数据质量控制
本数据集涉及所有数据均由汇文系统后台Oracle数据库和系统管理模块采集。为了保证数据质量,通过汇文流通模块的流通日志和统计模块对近十年的用户借阅记录进行了核实,流通借阅日志和统计模块的借阅统计数据均与从后台提取的借阅记录条数一致,确保了数据采集准确无遗漏。另外选取多个用户(不同用户类型),从流通管理模块用户个人借阅历史记录查询,并与本数据集比对,数据信息内容均一致[1]。最后通过汇文统计模块的书刊信息查询功能,对本数据集的借阅文献的摘要、主题词、作者介绍等信息进了抽查核对,所采集信息均与MARC详细信息借阅文献信息一致,确保了数据真实可靠。
4数据价值
本数据集包含2011-2020年间东北财经大学图书馆用户在利用图书馆文献过程中产生的借阅行为数据,数据字段较为丰富(22个),对高校图书馆用户的文献利用评估、用户借阅行为分析和用户需求预测等具有重要意义。近十年用户借阅数据是对图书馆馆藏进行评价的数据基础,通过对这些数据的分析,不仅可全面评估现有馆藏结构及文献保障水平[3],而且可从借阅时间变化趋势、不同用户类型借阅特征、热门借阅文献、借阅文献主题词热度等多维度出发,为高校图书馆文献资源建设创新服务、用户多元化服务、个性化推荐服务等提供科学的决策依据。
5数据使用方法和建议
本数据集可采用Tableau、Excel、SPSS、Python语言及关系型数据库等软件工具进行统计分析[1]。例如,针对年度热门借阅文献的特点进行可视化分析;根据近十年年度借阅量统计数据分析用户文献借阅量的变化趋势;根据用户的年龄、性别、单位、专业等属性来分析不同用户的借阅特征和借阅频率差异;通过时间序列分析借阅文献主题词词热度在一年中的变化趋势。
图书馆论文范例:图书馆阅读推广的问题表现与优化对策
根据近十年的用户借阅记录进行统计性描述分析,选择目标用户群体和某大类图书作为研究对象,对图书的摘要简介和主题词进行分析,借助相关模型进行主题挖掘,将主题化后的特征与用户的借阅行为特征进行融合分析,探索用户的借阅关系,兴趣变化趋势,设计特征融合的推荐模型,为用户提供更友好、更准确的图书推荐和导引,提高文献服务的效率[4];可引入深度学习相关算法,将近十年历史数据形成用户借阅行为的共现矩阵,研究满足用户多样化需求的推荐模型[5];还可结合用户的社交媒体行为、科研行为、校内学习行为等图书馆外部数据进行融合分析,尽可能全面和精确地构建用户画像,满足深入研究图书馆用户借阅行为的需求,提高数据的使用价值[6]。
5.1数据引用格式
李荣,廖映红,李双.东北财经大学图书馆用户借阅记录数据集[DB/OL].[日期].hdl:20.500.12304/10566.V1[Version]
5.2论文引用格式李荣,廖映红,李双.东北财经大学图书馆用户借阅记录数据集[J/OL].图书馆杂志,2020
参考文献
[1]肖铮,吴至艺,林俊伟.2007-2017年厦门大学图书馆纸质文献借阅记录数据集[J].图书馆杂志,2020,39(6):113-117.
[2]百度百科.UUID[EB/OL].[2020-11-30].https://baike.baidu.com/item/UUID/5921266?fr=aladdin.
[3]李荣,王庆石,李双,等.基于读者行为大数据的图书馆精准服务与管理创新研究——以东北财经大学图书馆为例[J].图书馆研究,2018,48(3):19-23.
[4]施国良,张潇潇,杨小莉.高校读者群体差异对其借阅行为和阅读偏好的影响研究[J].图书馆,2020(4):59-64;78.
作者:李荣廖映红李双