1、古籍数字化研究现状
古籍又称典籍、文献,是指没有采用现代印刷技︾术来印制的书籍。中华●文明五千年从甲骨文、简牍、卷轴再到线装,留下了大量宝贵的古籍,作为中华文明文化延续≡的印证,古籍整理是非常重要的。
古籍整理的传统方法,是通过对古籍进行审校释(审定、校勘、注释)等加工整理后形成新版本,便于现代人进行︽阅读。古籍整理的传统方法主要依赖手工进行,有着操作⌒ 过程繁杂、效率低的缺点,而且新版本仍然是书本形式,难以再次利用。在计算机技术出现后,古籍整理有了新的工♀具和方法,即古籍数∏字化技术。通过利用信息技术将古籍文献进行加工和整理,并使其转化为电子ξ 数据,可以通过光盘、网络进行保存和传播,有效解决了传统古籍整理的缺点。
中文古籍的数字化最早是二十世纪七十年代,从计算机技术发达的美国开始的。我国在引入相关技术后,产生了大批有价值ぷ的成果。国家图◣书馆的“古籍特藏文献数字化计划”,完成了“甲骨文”、“数字方志”、“碑砧菁华”、“敦煌遗珍”、“西夏碎金”、“永乐大典”等成果。其他研究机构也推出了大量产品。
国际上,拉丁文体系古籍的数字化工作也进行了大量研究工作。由欧盟二十六家图书馆联合推出的IMPACT(Improving Access to Text)项目,是一个通过研究OCR(Optical Character Recognition,光学≡字符识别↓)技术,来推动拉丁体系文字古籍数字化工程。
2、古籍数字化的发展与瓶颈
我国古籍数字化的发展经历了联合目录阶段、目录+影像阶段和全文检索三个阶段。
第一阶段是20世纪80年代,联合目录为古籍数据库检索系统的开发,以数据◤库的形式储存》。通过利用计算机№,对古籍资料进行目录检索、内容整理、储存、数量统计,以及编制索引,极大的改进了古籍文献的检索方式,是古籍研究的辅助工具。最初的古籍数据库主要是书目数据库,很多省市级图书馆都建立了书目数据库,其中南京图书馆卐建立了40万条中文古籍书目数据。
第二阶段是20世纪90年代◣的目录▃+影像阶段。这个阶段形成了以光盘为载体,可通过目录进行查询、浏览原文的影像页的古籍文献或古籍数据库,所以又称为光盘版古籍。1997年武汉大学出版社推出的“四库全书光盘版”共150张光盘,以文渊阁本〖《四库全书》为底本,将全书两百余万页逐页╱扫描成电子文件。
第三阶段,2000年起古籍数字化进入↑了全文检索阶段。将古籍的全文录入进数据库系统,通过文本与检索项匹配,实现直接到段落的精确查找。并且配置网络化,以各地区的图书馆为节点、网络为纽带建立了网络上的联合数据库。
通过网络共♂享服务,可以不再⌒依赖个人存储也能得到海量资源。然而古籍数字资源不足,影响了网络化的发∑ 展。古籍数字化加工有着ζ 很多的问题。
整理好的古籍进行数字化的第一步,便是古籍录入。
图书数字化录入的方法有两种,分别是人『工键盘输入和计算机光学字符识别(OCR)扫描输入。人工键∑ 盘输入属于手工作业,需要由录入人员看着图书,逐字录入,有着效率低▼、成本高的缺点。OCR是一种先进的自动化技术,通过机器来大量识别图像为文本,是大量图书数字化的主要手段。
赛数OS12002V专业古︽籍文献扫描仪,采用投射式无眩目冷光源技术为珍贵的古籍和文献数字化提供了极其充分的保护,高精度真彩色扫描镜头完美再现原稿的真实细节,独有的90°V型稿台, 特别适用于装订成册且不能完全打开的珍贵资料的数字化,自动开启压①稿玻璃,自适应调节V型玻璃◣下降速度和压力,最大限度保护文献资料,人性化▃设计为用户提供了安全、可靠并符合人体工程学的操作环境。
技术参数:
描述:顶置式扫描头、台式非接←触扫描,适合文物、古籍、图书、报纸、字画地图等单页♀或装订成册稿件。
扫描尺寸:600 (2 x 300) x 450 mm (> 2 x 超A3
书稿台:书本最厚可达 150 毫米,V型台可90°调整;可调V型台两侧、中央、高度、书脊柱的宽◥度。
扫描模式:42 位彩色采◣集 | 24位彩色输出14 位灰度采集 | 8位灰度输出1 位黑白采集 | 1位Ψ黑白输出
光学分辨率:600dpi
输出分≡辨率:100-600dpi
扫描速度:3.8 秒(400dpi)
扫描仪接口:IEEE1394 火线接口
影像格式:所有∴的标准格式,如TIFF 不压缩,TIFF G4,JPEG,JPEG2000,
PDF,多页TIFF,BMP,PCS,PNG 等。
扫描软件:OS12 扫描软件
图像处理软件( 选配):纠斜、去杂点、翻转、去黑边、遮幅、锐化、弯曲修正、剪裁、黑白扫描与动态阈值。
Perfect Book( 选配):双扫描系统、完美3D扫描、书脊弯曲修正和文件自动检测。
电气要求:220V/50Hz.
体积(W x Dx H):1023 x 880 x 1025 mm