古籍数字化的新模式研究数字文献实验室-铜仁学院学报

作者:admin , 分类:全部文章 , 浏览:166
——古籍数字化的新模式研究 数字文献实验室-铜仁学院学报

数字文献实验室
——古籍数字化的新模式研究
李海伦
(首都师范大学文学院,北京 100089 )
摘 要:针对古籍数字化发展后劲不足的现实,文章提供了一种新的建设模式——创立数字文献实验室。从“数字文献学”的交叉学科角度,联合相关领域,解决界内主体分离问题;从“实验室”的技术研发角度,着重攻关技术瓶颈。此外,着重介绍了首都师范大学数字文献实验室,从其建立背景、硬件配置、软件支持、核心技术、数字化流程、管理模式等六个方面予以具体分析,冀求从中得出有益启示,以助力古籍数字化的发展。
关键词: 古籍数字化; 数字文献实验室; 建设模式; 软件支持; 核心技术
中图分类号:I206.2文献标识码:A 文章编号:1673-9639 (2017) 04-0010-06
一、数字文献学
古籍数字化的实践虽持续三十余年,然其系统的理论研究则相对滞后,理论滞后所带来的最直接影响便是古籍数字化方向的不明确。因此,成立古籍数字化的专门学科(我们不妨将其称为“数字文献学”)从理论体系上总结成果、明确方向,显得尤为重要。
当前大学的学科建设体系,总体而言呈现的是分专业化的教育模式,以培养“高、精、尖”的专才。然而极度的专业分科,导致知识的四分五裂,产生“隔行如隔山”之感。对于古籍数字化来说,实践早已先于理论证明了:其发展必须依靠文献学与信息技术学的交叉、渗透与合作,开设数字文献学是古籍数字化的必然趋势。
事实上,首都师范大学这方面已经开始了尝试——在首师大电子文献研究所古籍数字化的实践经验之基础上创立了数字文献学。该学科从属于中国古代文学(一级学科)下的中国古典文献学(二级学科),研究方向为数字文献,属于新兴的应用型交叉学科。结合笔者在研究生阶段对该学科的深入学习,现对其进行如下定义:数字文献学是以保存和传播中国优秀传统文化为基本目的,以古籍数字化的建设与研究为主要任务,以中国古典文献学与相关计算机信息处理技术为授课内容,并在具体实践中完成对以中文古籍为主的中国古典文献的储存、整理与利用的一门新型交叉学科。
二、数字文献实验室
数字文献实验室是针对古籍数字化而建立的实验室——这是在阐明其概念之前须先明确的关键,在此前提下,笔者从关键词分析的角度来具体论述其内涵。
“数字”在大数据时代里,已是“数字化”之代称。所谓数字化,一方面是指数字化过程:以计算机技术为核心,以多媒体技术与互联网技术为辅助,将复杂多样的信息资源转换为能被计算机识别的一系列包含0和1的二进制代码,并进行字符识别、图像处理、数据分析等数字化处理。另一方面,数字化还指代嵌有计算机信息技术的一系列数字化设备,是包括高分辨率的拍照、扫描、打印设备亿佰欧,高质量的图文声像多媒体显示设备在内的一系列古籍数字化仪器。
“文献”的含义,各家说法大同小异,区别在于内涵与外延的限制程度,笔者认同张舜徽先生的“历史文献观”,即不仅囊括1911年辛亥革命以前写成的具有历史研究价值的古籍,还包括了部分碑帖、字画、舆图,乃至简牍帛书。熊嘉琪
“实验室”是进行实验,从事科学研究的基地,在我国当前对实验室的归属体系里,按从属范围,实验室分为大学直属(或代管)、政府直属、企业直属三大类,三者之间根据所研究的课题或任务,往往有合作交叉的部分泰奇八宝粥。本文所论及的数字文献实验室当属合作项目,参考我国科学技术部对国家重点实验室的定义,“(国家重点实验室)是国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科技人才、开展高水平学术交流、科研装备先进的重要基地”(见于《中华人民共和国科学技术部国家重点实验室建设与运行管理办法》[Z].2008-09-23)。
综上,现对数字文献实验室的概念做如下界定:数字文献实验室是相关单位从事古籍数字化建设的科技创新平台,它是由官方或民间的学术组织,依托大学(或大学与科研机构、企业联合)的优势领域建立的面向古籍数字化建设的应用型研究基地。其主要任务是利用自身数字化技术与设备的优势,针对当前古籍数字化实践中遇到的问题,研究并开发出合适的解决途径,以引领古籍数字化行业的科学、可持续发展。
三、首都师范大学数字文献实验室
(一)成立背景
首都师范大学数字文献实验室建立于2014年7月1日,是我国首家以数字文献学为依托而建成的科研实验室,其建立与大数据时代下的古籍数字化建设以及首都师范大学电子文献研究所在该领域内的实践经验密切相关。
首都师范大学是国内高度重视古籍数字化建设的重点院校,其对古籍数字化的关注与实践几乎可概括这一领域的中期发展史:1998年,在该校文学院召开的全国高等师范院校中文系古代文学教学改革研讨会上,引进并宣传当时的第一代古籍电子化成果——《国学宝典》;2002年,由该校诗歌研究中心与文学院牵头,与南京师范大学、四川师范大学、鞍山师范学院联合研发《中国古代文学史电子史料库》;2003年,成立电子文献研究所;2008年,该校的数字文献学成功申报北京市重点交叉学科——这标志着古籍数字化终于得以开宗立派,为学术界所认可;2013年,该校数字文献学专业正式开始招收硕士研究生,致力于从文理结合、综合应用的角度上培养古籍数字化人才。
首都师范大学电子文献研究所,是首师大古籍数字化事业的常备军,所长尹小林先生从事古籍数子化工作二十余年,乃国内知名的古籍数据库专家,在其带领下,首师大电子文献研究所前进的每一步都结着古籍数字化的硕果——建立国学网、承担《国学备览》《中国古代文学史电子史料库》等古籍整理重点课题,参与《儒藏》《中华大典》等国家重大科研课题;参与研发《国学宝典》(收录上起先秦、下至清末两千多年间的中文古籍文献5000余种,至今总字数已近20亿)数据库;推出《国学智能书库》;完成“古籍电子定本工程”;持有国学时代公司研发的三大核心技术(自动比对、自动标点、自动排版)。在古籍数字化的理论与实践方面,首师大电子文献研究所更是该领域的积极倡导者和组织者:自2007年起,每两年组织一次古籍数字化国际学术研讨会,与国内外从事古籍数字化事业的单位及个人广泛交流经验、互相学习、共谋古籍数字化之发展大计。
由此可知,首都师范大学数字文献实验室的创建,是该校在大数据时代中致力于更好地助力古籍数字化建设的必然产物。
(二)硬件配置
实验室的硬件部分由输入、处理和输出三部分的相关设备组成。
就输入部分而言,将古籍内容从纸质媒介转移到数字媒介,是古籍数字化的第一步,这关系到图像处理、文字识别、人工校对等后续相关步骤的展开,因此选择优良的录入设备尤为重要。首师大数字文献实验室的录入设备以扫描仪为主,鉴于古籍本身的诸多差异,不同类型的扫描仪各展所长,或从分辨率,或从色度,或从操作方式,或从文件格式、存储形式等不同的角度与古籍文本相结合。
处理加工类设备:总体而言,分为两类,一类是安装(配套)了古籍处理软件(字符识别、图像处理、数据分析、比对、标点、排版等)的计算机,所谓古籍数字化,其核心即在此。古籍资源经过加工处理变为古籍数字资源之后,根据研究目的和用途,或制成光盘,或制作数据检索系统,或开发为网络版,或交由另一类加工设备——切装机、胶订机、塑封机等进行排版后的成书小样预览,为输出古籍现代印刷书做准备。
输出类设备:首师大数字文献实验室输出设备的特色在于除打印机之外,另有一套从声音到图像的立体输出,力求从图、文、声、象全方位展示古代文明。
图1为首师大数字文献实验室的设备平面布局,笔者分别从三类设备中择其一二介绍之。
Book2net 博耐书刊扫描仪(编号10)——A2幅面扫描区域,0.3秒超快扫描速度,1.9秒扫描周期,2000页/时,3亿次快门,使用寿命超长。光学分辨率区间100~800dpi,支持TIFF,JPEG,PDF等多种文件格式。此款扫描仪因其超高分辨率(对于古籍文本内容乃至纸张介质的拍照扫描,有着纤毫毕现的效果)和多种文件存储形式,承担数字文献实验室的主要扫描任务。
中晶(microtek)ScanMaker 1000XL Plus A3幅面彩色平板扫描仪(编号12)——专业A3幅面影像机种,最新三波长(R.G.B)白光LED光源技术3600dpi高分辨率,48-bit色彩深度,3.7D最大动态密度值,色彩变化表现细腻,可选择搭载专业胶片适配器(12″×16″),支持网络共享扫描(PC),随机标配专业扫描驱动及图像编辑软体。3200 dpi 光学结构设计、4.2 Dmax 光学密度值、48bit的色彩解析能力,能够给予文本图像以影像级的呈现,对于画卷、舆图等含图像与色彩的文献来说,是不二之选。
EPSON9710 爱普生双5色高速大幅面喷墨绘图仪(编号17)——最大打印幅面为60cm,最大分辨率可达1440x720dpi(彩色图像),1440x1440pi(黑白线条图);介质类型可为普通纸,粗面纸,照片纸关思婷。此款设备可将实验室图片资源库所收的字画、碑帖等图像资源高度还原为初始状态,对原始图像既是抢救性保护,也是开发性利用。
84英寸SONY 4K电视(编号1)——3840 x 2160分辨率,50W十单元扬声器,4K迅锐图像处理引擎PRO,3D精密显像。此款电视在实验室的作用有二:其一是作为高清显示器显示扫描的古籍文本,在超大显示屏、高清像素与3D精密显像技术的作用下,指导老师可以在不直接接触古籍原本的情况下更为直观形象地展示其版本学的相关特征;其二是作为放映设备,在计算机及动画软件的辅助下为将来的古籍多媒体输出进行开发探索。
(三)软件支持
首都师范大学电子文献研究所所长尹小林先生研发的大型古籍文献全文检索数据库《国学宝典》,是首师大数字文献实验室对古籍文献予以进一步开发利用的数据资源库,更是其主要的软件支持。
《国学宝典》数据库收录了上起先秦下至清末两千多年间的5000余种中文古籍文献,总字数近20亿,逾10万卷宗长青,且仍以每年新增一亿字的速度扩充,其古籍分类以传统的经、史、子、集四部分类为主,另有四库未收、四库禁毁以及近现代文献的部分书(书目)并入“其他”类,总体而言包括自《十三经》《二十五史》到诸子百家,自唐诗宋词元曲明清戏曲小说到晚清文献,以及历代学术笔记、佛典、道典等。其数据规模超过《四库全书》约50 %,是目前国内最大的、经标点整理的、适用于互联网的大型古籍全文数据库。
除了全文逐字及高级智能检索、字频统计、生成卡片、输出文件、浏览等功能之外,《国学宝典》另附有人名词典、书名词典、真人发音词典、国学字库等后台数据库,以及繁简体转换、帝王年号表等多种辅助工具,全方位地体现数字化古籍的研究支持功能。这些后台数据库的实用功能同样十分强大,如:人名字典,目前已收入古代3万多人的资料(资料来源于《全上古三代秦汉三国六朝文》《列朝诗集》等古籍文献),输入一个人名或字号、别称,即可查出其生平资料等相关信息。又如书名词典:其数据库资料部分来源于《四库全书总目提要》,部分来源于今人授权的编纂资料,输入一个书名,即可查出该书的相关资料。
综上,数字文献实验室将《国学宝典》数据库作为其主要软件支持与进一步开发利用的数据资源库的好处体现在:一方面可以根据需要随时调取相关的古籍数据资源,另一方面可将相应的数据资源进一步加工处理,输出为其他介质的数字化产品。对于让界内普遍感到棘手的极生僻汉字(包括不常用异体字、死字)的显示处理问题,《国学宝典》采用的是配备图形字与自造字相结合的方法,对于古籍中原缺字及无法辨别的残缺字,均用囗符号代替;特殊文字都按图形予以处理。此种汉字处理方法与unicode编码字符集相结合,适合各种语言的Windows操作系统,基本解决了古籍中全部汉字的显示和检索难题。
(四)核心技术
自动比对、自动标点、自动排版是数字文献实验室的三大核心技术,三者共同构成古籍自动标点、比对、排印智能一体化,其运行机制是:数据中心(录入计算机内的图像型文献资源库)——预处理(版面切分、文字识别、统一格式等)——标点、比对、排印(三者可全选,亦可取其一二)——输出,输出内容即为新的数据资源。新的数据资源经过人工排查与检校后,一方面回馈给原始数据中心,另一方面可利用文印设备与互联网进一步输出为古籍的现代印刷本或网络版古籍。
为了更系统地了解三大技术的工作机制,笔者分别对其进行简要介绍。
1.自动标点,是基于对大规模语料库的分析统计,以句型为基础,辅以语法分析和字词切分技术,对无标点的古籍文献自动加上标点符号的数据处理技术。该技术包含智能分析系统、古籍基因库和联机工具包,经过由句型库、语法库和参考文本库为主体的古籍文字基因比对后,自动输出带标点的文本,再辅以人工重检,纠正误差,最后产生古籍的点校本,这一技术的研发广东博文学校,使大规模的古籍标点成为可能。
2.自动比对。自动比对服务器中包含多版本比对引擎、预设版本库以及繁简转换系统,该系统能自动进行多种版本古籍的逐字比对,完成后即可在古籍中标示出文字和符号的任何差异。自动比对的工作原理不难理解——任何两个古籍版本(同一种书同一章节篇目)之间的文字只有“相同”与“不同”两种情况,而“不同”又包括三种类别——多字、漏字、错字,所以,版本之间的比对结果一共只有四种:同、多、漏、错。计算机处理这类情况时,采取类似“或”、“与”、“非”的信息处理机制,分别予以标示。
3.自动排版,是以《国学宝典》数据库为基础的专用排版软件,据其研发者尹小林先生介绍,当前的古籍自动排版系统通常包括三个步骤:提取现有的数字化成果;利用计算机语言模拟排版再加入排版符号实现批量自动处理;计算机辅助审校。数字文献实验室所采用的自动排版技术遵循的同样是这样三个步骤:“现有的数字化成果”即《国学宝典》数据库,除了“五千余种古籍原典,总数近20亿字”的大容量之外,且全部施以新式标点,所有书名、朝代、作者、卷数、版本等信息均已按一定的格式纳入数据库中,是计算机自动排版的优良底本;“计算机模拟排版”的对策是建立图书版式模拟库,有传统版式(指宋代至清代各种刻本的版式,现在影印出版的各种古籍书均保留的是传统版式)和新排版式(指新中国成立后为整理排印古籍设计使用的各种版式,现在排印出版的各种古籍书均为新排版式)两大类;“计算机辅助审校”则是开发自动排版和比对的专用软件。
(五)数字化流程
实验室按照计算机的工作原理将古籍数字化的流程分为输入、处理和输出三个步骤,三部分之间以扎实的古典文献学知识和娴熟的数字化设备的操作水平贯穿始终。
输入区的任务是将古籍从实体转化为图像,这一部分有两方面不容忽视:一是版本学知识渊博的人才,二是高端智能化扫描设备,前者负责从众多的古籍版本中甄别出善本乃至孤本——这一步骤决定了古籍数字化的价值所在;后者负责最大程度上呈现出古籍原貌——这决定后续加工的质量水平。
处理区是古籍数字化的中心枢纽,这一部分需要充分利用计算机技术,对已存储的古籍文本进行预处理和深度加工。通过光学字符识别技术将古籍图像转化为字符编码并最终以汉字字符的形式呈现出来,再建立目录数据库或全文数据库,创造具有超链接功能的浏览环境,完善以全文检索为基础的智能检索系统,设计既支持特定格式又兼具版本还原功能的阅读界面,设置不同版本比勘校对的接口。所以在这一分区,计算机的硬件配置和软件选择显得极为重要,同时对操作者而言,必须具备一定的计算机信息处理能力和软件应用水平。而且,在汉字处理的过程中,由于古书里异化字、古今字、避讳字的大量存在而造成的部分字体无法被计算机识别的问题,需要输入人员进行人工录入、补字造字。
输出区作为古籍数字化的终端斯派克李,其功能是输出经过数字化处理之后的古籍数字化产品,产品的形式根据古籍自身的特点和外界的需求而不同,大体分为三类:一是显示输出,以显示屏或移动终端为媒介的网页版或单机版多功能数据库的输出,此为数字化古籍研究支持功能的实现;二是实物输出,以现代印刷版为主体的书籍(亦可根据使用者的需求采取个性化排版、装帧方式)输出,此为保存古籍原物功能的实现;三是以声音、画面为代表的多媒体输出,此为数字化时代向大众传播优秀传统文化的功能之实现。
(六)管理模式
首师大数字文献实验室在建设初期已定下了“以学术为依托、以技术为支撑、以需求为导向,集科研、教学、应用为一体”的建设方针。以该建设方针为基础,确定了领导组、专家组、工作组三位一体的管理模式,具体而言:
领导组是该实验室的上级机构,组长由首都师范大学相关校领导和北京市文物局领导共同担任,成员由双方的主要负责人构成,其职能是负责实验室中长期规划、确定实验室建设目标、筹措经费、检查指导实验室具体工作,以保证实验室健康发展。
专家组是顾问团队,其成员主要是国内信息技术和古典文献方面的专家学者(北京大学、北京师范大学、首都师范大学等高校均有相当数量的研究者在顾问之列),其职能为鉴定古籍版本、提供古籍整理的前沿信息、交流计算机信息技术等。
工作组是该实验室的日常管理机构,由数字文献学专业相关人员构成,主要负责承担相关科研课题和专项任务,兼及实验室具体规章制度的制定,日常运行工作的管理。
具体到实验室日常工作的开展,尤其是对于首师大数字文献学专业的教学与该专业的研究生培养,该实验室还有如下细则:
实验室主任一名,主要负责实验室的规划与发展,布置实验任务,联系对外交流与展示,总体决策实验室的对内对外事务;指导教师两名,主要负责培养操作人员,向其传授有关古典文献和古籍数字化的专业知识及技能,指导其完成实验任务并引导其实验创新;维护人员若干名,负责古籍的保护与修复,以及仪器设备的检修与维护;数字化操作人员(为数字文献学专业的硕士研究生)五名,在指导老师与维护人员的带领下,学习数字文献学这一交叉学科所涉的古籍整理与古籍数字化的两方面知识,并在实践中不断提高该学科的专业技能——包括对古籍的整理、扫描、翻拍、识别及对古籍数据资源的校勘、标点、比对、排版、处理、输出等,从理论到实践,全方位强化古籍数字化的综合能力。
四、建立数字文献实验室对古籍数字化的意义
从根本上说,建立数字文献实验室一方面是总结并发扬我国古籍数字化三十余年以来的成功经验;另一方面是深入研究在大数据与数字阅读的时代环境里,如何更好地开展古籍的整理、研究工作,而做到这一点的前提是解决好当前古籍数字化领域所面临的问题——技术上缺乏相关领域的交流合作,组织上缺乏类似行业联盟的规范引导。故笔者以为,建立数字文献实验室对于当前的古籍数字化建设,至少有以下三点意义:
(一)能借实验室的从属关系联合相关单位合作共建,促进领域间的交流合作。整合资源、集中优势,加强相关领域间的融合。将文博系统管理者、文献知识传播者、数字化技术人员三方同时纳入实验室的组织体系,则三者分别从古籍资源统计与提供、文献版本鉴定与整理、数字技术的维护与升级三个方面发挥优势、整合资源,对当前已存在的数据库进行选择与淘汰。三者共同发力所形成的新局面,或将在界内树立行业标杆,充当行业联盟或数字古籍组委会性质的先行者,以尽早统一界内的规划与标准。
(二)可借实验室的建设与实践将古籍数字化定位为一项长期的、系统的工程,而非几个短暂的、离散的项目。建立实验室,从组织形式上联系科研院校、文博系统与科技单位三家,从签订长期协议的文件合同上予以合作时间上的保证,确保推出的数据库若出现某些不足,可返回修正、完善。对于多个版本并存的数据库,择其最优而将该版的“数据库善本”作为范本(由于数字技术是不断发展的,因此数据库善本的数字化程度也是随之而不断完善,呈动态的、发展的状态)。对于鲜有单位涉足的类书,亦应择优而进行数字化。如此,方可遏止资源浪费、减少数据垃圾、开拓数字化领域。
(三)可以充分利用自身数字化技术与设备的优势,引领行业发展。针对当前古籍数字化实践中遇到的问题,研究并开发出合适的解决途径,以引领古籍数字化行业的科学、可持续发展,确保数字信息技术与古籍文献知识的最大限度契合,从而让科技为古籍所用。
参考文献:
[1] 龚玉.基于学科交叉的高校国家重点实验室研究[D].上海:华东师范大学,2010.
[2] 李国新.中国古籍资源数字化的进展与任务[J].大学图书馆学报,2002,(1).
[3] 蓝永.对中文古籍数字化的几点建议[J].数字兰台,2008,(8).
[4] 毛建军.古籍数字化理论与实践[M].北京:航空工业出版社,2009.
[5] 毛建军.论古籍电子文献学研究范畴的确立[J].图书馆理论与实践,2010,(9).
[6] 吴洪泽,张家钧.计算机在古籍整理中的应用[M].成都:四川大学出版社,2009.
[7] 尹小林.中国古籍数字化国际学术研讨会论文集[C].北京:五洲传播出版社,2015.
[8] 张舜徽.中国文献学[M].上海:上海世纪出版集团,2009.
(责任编辑 白俊骞)(责任校对 郭玲珍)(英文编辑 何历蓉)
微信号:trxyxb主办:铜仁学院学报编辑部 邮箱:xbtu07@vip.163.com
文章归档