基于词向量的PDF表格抽取研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:netxyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]解决PDF表格抽取中复杂表头的表格需要依靠大量人工标注的问题.[方法]利用框线信息进行表格检测与结构构建识别文档中表格结构信息后,使用词向量表示其中的内容文本,并计算表格行间内容余弦相似度,最后利用该值判断表格中表头与内容分界行.[结果]在自建PDF表格数据集上进行信息抽取实验,表格信息抽取结果F1值为98.07%,表格内容划分结果F1值超过99%,效果接近需要大量标注语料的深度学习文本分类模型.[局限]所提方法只能抽取关系型表格,且不适用于扫描型PDF文档.[结论]所提方法能够在一定程度上解决PDF文件复杂表头表格的自动抽取问题.
其他文献
2021年4月,教育部印发了中学教育、小学教育、学前教育、中等职业教育、特殊教育专业师范生教师职业能力标准(以下简称《职业能力标准》).值得注意的是,五个能力标准中无一例外地提出了有关融合教育、随班就读方面的要求.这不仅对师范生培养和师范专业认证工作具有现实指导作用,而且是一项从源头上提升融合教育质量的重要举措,对深入推进我国融合教育将产生深远的影响.
期刊
美国将绝大多数特殊学生纳入普通教育范畴,并为重度障碍学生制订了以融合教育为导向的连接型课程标准.分析美国路易斯安那州重度障碍学生连接型数学课程标准,发现其目标清晰具体,内容全面连贯,实施操作性强,评估系统完善,从而得出以下启示:我国应增加以融合教育为导向的课程标准,强化课程目标、课程内容的连贯性与规律性,提高课程标准实施的可操作性,给予融合教育学生高期望和构建全面完善的评估系统.
为探究汉语发展性阅读障碍儿童的语音意识、正字法加工技能和阅读流畅性缺陷及其与识字量的关系,对31名发展性阅读障碍儿童和33名对照组儿童进行识字量、阅读流畅性、语音意识和正字法加工的测验.结果发现,发展性阅读障碍儿童的各项测验成绩均低于对照组;各项成绩两两之间均具有显著相关;识字量分别在语音意识和正字法加工技能影响阅读流畅性之间起到中介作用.研究结果表明,发展性阅读障碍儿童同时具有语音意识、正字法加工技能和阅读流畅性缺陷,且前两者分别通过识字量影响阅读流畅性.
高质量的教育必须要有高质量的教师.为贯彻落实党的十九届五中全会精神和《中共中央国务院关于全面深化新时代教师队伍建设改革的意见》,推进师范生免试认定中小学教师资格改革,建立师范生教育教学能力考核制度,2021年4月教育部印发《特殊教育专业师范生教师职业能力标准(试行)》(下简称《职业能力标准》),这是贯彻落实党的十九大“办好特殊教育”要求又一重大举措.笔者着重从实践培养角度,解读特殊教育专业师范生教育职业能力结构及关系.
期刊
在全球化日益加速和深化的时代背景下,国际组织尤其是政府间组织在全球教育治理领域的影响力与日俱增.作为当今世界最重要的国际教育组织,UNESCO将成人学习和教育治理作为教育治理领域的重要内容,通过多种形式参与,在很大程度上推动并引领着世界范围内成人学习和教育的发展.GRALE是UNESCO有效推进全球成人学习和教育发展的柔性治理的关键手段,产生了积极的促进作用.通过对2009年以来UNESCO先后发布的四份GRALE分析发现,它参与全球成人学习和教育治理的作用机制包括目标导向机制、协同运行机制、监测评估机制
把握数字公民教育的本土逻辑,可以更好地服务国家发展.我国数字公民教育源于对数字时代的感触与应对,具有“在变革中强民强国”的本土诉求与建设网络空间命运共同体的国际担当;在学校信息技术教育的基础上,着重突出全民科学素质与网络空间道德;形成了多主体统筹、多元素融合的中国特色行动模式.数字公民教育本土逻辑立足于“人”,起点是人的数字化生存与发展,终点是数字时代人类命运共同体,逻辑中介是立足社会主义核心价值观的开放创新.当下应持续开放创新,解决托底数字化生存、主动数字化发展等难点问题,坚持本土导向与问题导向相统一.
国内青少年人工智能教育的实践和研究尚处于起步和摸索阶段.研究表明,单元设计以学科大概念为核心有利于促进学科核心素养的落实,基于此,本研究尝试开展大概念视角下的“初中人工智能基础”单元设计及应用策略探索.首先,剖析了当前国内青少年人工智能教育实践的现状及存在的问题;其次,介绍了大概念和单元设计的概念及内涵,以2020年浙教版初中信息技术教材中“人工智能基础”单元为例,开展了大概念视角下的单元设计;最后,研究提出了初中“人工智能基础”单元设计在教学实施中的应用策略.
通过对残疾人社区服务在突发性公共卫生危机中遇到的问题进行分析,发现残疾人社区服务存在以传统的“照顾服务”为主、服务水平不高、机构内专业人才不足等问题,在突发性公共卫生危机发生时,还面临着应急能力不足、志愿者大幅减少等挑战.建议采用提供在线服务、做好上门照顾服务、及时传递信息、采用资源协同等方式,在突发性公共卫生危机背景下,积极开展残疾人社区服务.
[目的]解决军事文本中实体关系重叠引起的关系抽取困难问题,改善军事文本关系抽取效果.[方法]使用BERT模型作为输入文本的编码器,采用分层强化学习方法分别进行关系与其对应实体的解码,并在实体解码过程中融合关系位置特征,构建军事领域关系抽取模型.[结果]在军事武器装备数据集上F值达到82.2%,相较其他方法提升约8个百分点.在公开的NYT10、NYT10-sub数据集上F1值分别达到71.8%和69.0%,相较其他方法提升约7个百分点与9个百分点.[局限]在人工标注数据集上抽取效果较好,在存在噪声的远程监督
针对存在“孤独症”和“自闭症”两种译名的现实,本文立足“Autism”内涵的流变,从译名历史、医学概念和文化诠释三个维度,重新审视了“孤独症”作为术语译名的合理性.从术语译名的历史看,“孤独症”是“Autism”的本土规范译名,具有自创性、权威性和官方性的特征;从医学概念上看,“Autism”已被认定为一种生物性的神经发育障碍,而不具有主动自我封闭的含义;从文化诠释上看,神经多样性的视角要求以更加积极的态度看待“Autism”,将之视为一种文化差异.因此,基于求真、求善和保持文化主体性的原则,有必要重申“