面向数字出版的可扩展PDF资源标准化工具研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:qq591570317
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今移动互联网快速发展,数字出版行业也面临着巨大的变革,人们更愿意使用手机来进行阅读,而传统出版社有着大量的PDF图书资源,这些PDF格式的图书在手机上的阅读体验并不好,因此出版社需要将PDF格式的资源转换成适合手机阅读的epub格式,这其中的转换就包括先将PDF格式转换成符合出版社标签集标准的XML格式,再转换成epub格式。因此设计一个PDF资源标准化工具,完成将PDF格式转换成符合标准的XML格式这一功能就有了很大的必要。本文设计了一个可扩展的PDF资源标准化工具,该工具通过人工标引和自动标引两种工作模式,完成PDF资源到XML资源的转换。出版社的工作人员可以通过操作该工具,对PDF资源内的文字图片的等元素打上对应的标签,完成标引工作,然后转换成符合出版社要求的XML文件,同时工具还支持工作人员设置一定的标引规则,工具自动完成简单PDF元素的自动标引工作,提高了工作人员的工作效率,该工具同时支持出版社标签集标准的替换,以适应不同的出版社的生产需要。该工具相比于其他格式转换工具,优势在于工具能做到对PDF元素精确的打上正确标签,同时能处理报纸、杂志等复杂版面资源,处理速度和正确率都非常令人满意。且本文设计了 一个完整的自动标引算法,减少工作人员的重复工作,提高工作效率。本工具基于Sumatra PDF阅读器进行二次开发,采用win32框架技术完成操作人员的PDF的标引操作,同时利用Itext工具包对PDF进行解析提取成需要的元数据,再设计了一整套自动标引算法,完成PDF的自动标引工作,使用线程池和FreeMarker技术实现XML文件的快速生成。研究结果表明,该工具能很好的完成出版社为了数字出版对PDF资源进行标准化处理的需要,同时可以大大提高出版社在PDF资源标准化工作中的效率,减少出版社的人力投入。
其他文献
移动网络和物联网的高速发展引发了人们对于更高传输速率、更高通信质量以及更好服务体验的不断追求,不断涌现的新型数据业务推动了第五代移动通信系统的发展。超密集网络(UDN)作为5G的一项关键技术成为了研究的热点,低功率接入点的密集部署提高了频谱资源的利用率,成为5G提升系统容量的主要手段。超密集网络中,低功率接入点密集部署,拉近了基站与用户间的距离,但网络结构变得越来越复杂,基站的部署更加随机化,对干
由于雷达高分辨距离像(HRRP)数据具有易获取、易处理的优良特性,成为了雷达目标识别领域常用的数据形式。近年来,由于深度学习的崛起,基于深度网络模型的雷达目标识别方法层出不穷,然而最新的研究表明深度网络容易受到对抗样本的攻击,只需要在原始样本上添加极其微小的噪声就可以使得深度网络发生错误分类。安全性对于雷达目标识别的重要性不言而喻,因此本文的研究重点是雷达高分辨距离像识别中的深度网络攻击问题。论文
目的:探讨血清性激素水平与前列腺癌进展及预后的相关关系。方法:回顾性分析穿刺Gleason评分≤6,临床分期≤T2c且PSA
目的:探讨3D-CTA对自发性蛛网膜下腔出血责任动脉瘤的诊断以及Fishier分级对蛛网膜下腔出血患者预后评估的价值。方法:回顾性分析2016年3月至2019年3月期间在内蒙古自治区人民医院经CT扫描诊断为自发性蛛网膜下腔出血,行3D-CTA和DSA检查出的动脉瘤患者76例,并以手术病理作为金标准来验证这两种检查的检出率。(1)对比CTA和对比DSA两种检查方法对颅内动脉瘤的检出率;(2)评价Fi
近年来,随着智慧城市建设的逐渐深入,管廊作为一个城市的“毛细血管”,成为智慧城市建设的重要组成部分。智慧管廊是在综合管廊管理领域中充分运用互联网技术,开展综合管廊的统一管理维护平台。由于综合管廊接入设施的拓展引起的业务增加,管理维护引起的模块增加。已有的智慧管廊平台不能满足不断增加的业务需求,如何快速迭代已有的智慧管廊平台成为系统进一步发展的关键。本文从提高开发效率和系统可扩展性角度,根据已有的智
研究背景和研究目的长期以来,急性胰腺炎的早期治疗策略一直以对症支持治疗为主,缺乏特异性的治疗手段。据文献报道,急性胰腺炎的总体死亡率约为2%,其中重症急性胰腺炎(Severe Acute Pancreatitis,SAP)的死亡率高达30%。胰腺炎相关腹水(pancreatitis associated ascitic fluids,PAAF)是胰腺炎患者常见的伴随症状。研究证实,PAAF中的促炎
多功能代步机器人是为老年人和下肢残疾人提供的一种代步工具,是一种以电动轮椅为基础的机器人。本文涉及的内容是为多功能代步机器人的轮式运动提供一种可视化控制仿真平台,可为多功能代步机器人的研发提供一种有用的工具。本文的主要工作如下:(1)分析了国内外多功能代步机器人的可视化仿真平台的研究现状;介绍了本文的研究内容和组织结构。(2)分别介绍了V-REP和MATLAB,选择它们作为构建多功能代步机器人可视
随着计算机科学技术与产业的飞速发展,人机交互方式取得了长足的发展。由于响应速度块、操作方便的特点,视线跟踪技术在人机交互领域得到了大量应用。基于瞳孔角膜反射的视线跟踪方法是目前最为普遍的视线跟踪方法之一,本文在国内外研究基础上,针对头部运动过程中注视点估计精度较低的问题,提出一种头部运动结合视线跟踪的视线方向校准技术,可以有效提高在头部自由运动时注视点估计精度。本文主要完成以下工作:(1)面部检测
约翰·斯图亚特·密尔又译约翰·斯图亚特·穆勒(John Stuart Mill,1806—1873)是19世纪英国著名的思想家。论文对密尔的个体性(individuality)观念展开研究,在思考个体性观
软件定义网络通过将网络设备的控制层面和转发层面进行分离来实现网络编程,并且为部署应用感知网络带来方便。在目前的SDN实现中,控制器能够通过服务抽象提供丰富的API接口,应用可以通过这些API接口在多域的网络中建立连接。本文通过对目前SDN实现中资源管理模块的调研,指出在目前SDN的实现中,资源管理模块的设计仍然是依据传统网络管理的思路,控制器不能够掌握应用是如何使用网络资源的。另一方面,SDN对网