【摘 要】
:
2010年,阿拉伯国家掀起了一波反政府抗议浪潮,称为“阿拉伯之春”,这引发了也门和叙利亚的内战以及世界上最严重的人道主义危机。自2016年以来,也门80%的人口死于饥饿,3886人死于霍乱。而自2011年以来,65%的叙利亚人口成为难民。在这些危机期间,两国人民都转向社交媒体平台来传达他们与危机相关的信息。因此,来自埃及和叙利亚的推特用户数量呈爆炸性增长。推特为他们提供了以推文形式交流、互动和发布
论文部分内容阅读
2010年,阿拉伯国家掀起了一波反政府抗议浪潮,称为“阿拉伯之春”,这引发了也门和叙利亚的内战以及世界上最严重的人道主义危机。自2016年以来,也门80%的人口死于饥饿,3886人死于霍乱。而自2011年以来,65%的叙利亚人口成为难民。在这些危机期间,两国人民都转向社交媒体平台来传达他们与危机相关的信息。因此,来自埃及和叙利亚的推特用户数量呈爆炸性增长。推特为他们提供了以推文形式交流、互动和发布危机紧急消息的能力,帮助他们描述了各种与危机相关的数据,如危机当前状态的最新情况、建议、警告、求助、捐款,并且可以传播情绪获取支持。推文的内容已使人道主义组织意识到收集和分析它们的有效性。此内容提供与危机有关的信息,并有助于增强危机救援计划。但是,他们在收集、注释、预处理、提取特征以及对推文危机内容进行分类方面面临许多困难。由于没有阿拉伯语料库,词典或阿拉伯语资源来应对阿拉伯国家的人道主义危机,造成了这些困难。他们还发现很难用阿拉伯语定义正确的方法来收集和注释与危机相关的推文。检测和预处理这些指示不同危机主题的常见阿拉伯危机术语是另一个挑战。此外,现有的为阿拉伯语的危机推文确定正确的功能和分类技术也是值得怀疑的。因此,人道主义组织在应对饥荒、霍乱和难民危机时延误了时间,造成了生命和财产的损失。因此,我们的研究旨在提出用阿拉伯语对危机相关信息进行分类、建模。为此,我们首先研究阿拉伯国家的危机平台和用阿拉伯语传达危机相关信息的分类方法。接下来,我们定义一种机制来收集阿拉伯危机推文并进行分类。然后,我们根据使用最多的阿拉伯语危机术语来确定对推文进行分类的注释标准。在此之后,我们预处理阿拉伯语推文以产生用于危机分类的阿拉伯语语料库。之后,我们结合主题、句子和词的特征来提高分类器的性能。最后,我们将我们的方法和模型与不同的分类模型进行了比较,以评估它们的有效性。我们提出一个包含六个阶段的框架。第一阶段是使用推特API收集危机推文以及建立LDA模型,其中我们生成与危机关键字相关联的主题列表,然后让它们再次使用推特API进行查询。此收集机制可以检索更多与危机相关的推文,并扩展推文数据集。在第二阶段,我们创建了一个具有相似性的前10个危机术语的列表,然后对该列表进行筛选、排序和组合,以用于注释过程指导,此注释标准可提高质量,减少偏差,并提供根据推文中使用的主要危机术语分配危机标签的指南。在第三阶段,我们排除了一组阿拉伯危机推文实体名称,并应用归一化来生成通用的危机语料库,避免了书面错误。之后,我们结合两个词干分析器的特性,将它们引导到使用最多的危机推文状态,减少词缀问题。在第四阶段,我们通过TF-IDF加权平均词向量形成句子特征,然后将其与主题和词特征合并进行分类。最后,我们使用支持向量机、朴素贝叶斯和随机森林进行分类,然后用准确度、敏感度和特异度对每个分类器进行评估。为了测试提出的框架,我们设计了六个实验。在第一个实验中,我们建立了一个LDA模型,然后用一致性和困惑性度量对其进行评估。该模型对危机分类的预测能力差、质量低。实验二使用的是TF-IDF模型,但模型赋值能力不准确,正负类比例较低。在第三、四、五个实验中,我们建立了 CBOW、Skip-gram和Arav EC单词嵌入模型。Skip-gram模型得分略高于CBOW和Arav EC,但分类不准确,特异性的比例明显高于正类比例。在最后的实验中,我们实现了提出的危机分类框架。结果表明,所有分类器的敏感度和特异度的准确性和一致性都有所提高。这反映了我们阿拉伯语危机分类方法和模式的有效性。这项研究为人道主义组织提供了首个推特阿拉伯语语料库、方法和模型,有助于改进阿拉伯国家的危机预案,加快应急响应时间。此外,我们还考虑将它作为社交媒体中阿拉伯危机信息分类的基准,为这一领域的未来研究开辟前景。然而,我们正计划将此语料库扩展到更多的危机和国家,以便能够将深度学习技术应用于危机分类。除了考虑口语化和实时性处理等问题外,还需要进一步研究。
其他文献
移动互联网的迅猛发展使得人们生活中的图像数量激增,如何更好的管理和利用这些图像成为一个重要问题。由于图像特征提取作为图像处理任务中的一个关键步骤能够从冗余的图像信息中提取作为判别与分析标准的主要特性,因此从图像中提取特征以挖掘并利用图像数据蕴含的重要信息是解决这个问题的有效方法。此外,为了解决其存储和计算负担,人们更愿意将大量图像存储到远程云服务器。然而,在享受便利的同时,将包含大量敏感信息的图像
图像作为一种包含大量信息的多媒体数据,在人们生活和工作中扮演着越来越重要的角色。图像分割是图像识别和计算机视觉至关重要的预处理步骤,也是实现图像理解的一种有效途径,作为图像处理的重要环节受到了越来越多的关注。图像分割在计算机视觉、人脸识别、产品检测、工业自动化、智能交通、文字识别、外星探测、航空与航天技术、遥感卫星图像处理、生物与医学工程、体育和农业等领域得到了广泛的应用。在很多工程应用中,由于实
随着互联网技术的普及和定位技术的不断发展,越来越多的轨迹数据在连续不断地产生。这些轨迹数据蕴含着丰富的信息,能够用于许多城市应用,例如:违章停车检测、车流分析预测、空气质量分析以及可达区域分析等。为充分利用这些轨迹数据,我们首先需要对这些轨迹数据进行有效的管理。然而,由于轨迹数据量通常非常大、更新频率很高、内在结构复杂、查询模式独特,要高效管理轨迹数据非常困难。传统的关系型数据库,例如My SQL
图像分割是连接低、高层次计算机视觉的图像处理的重要任务。图像分割是将图像分割成若干独特的子区域,使之成为图像处理应用程序的预处理步骤。由于图像的特征伪影(例如低对比度、噪声和强度变化或不均匀性),图像分割仍然是最需要解决的问题。主动轮廓模型(Active Contour Model,ACM)是图像分割中用于目标检测的一种基于能量的方法。本论文中,我们设计了四个主动轮廓模型来分割不同类型的图像,这些
装配是生产制造业中的主要活动,耗费了大量的人力与物力。产品装配性能对产品质量、产品的生产效率和成本均具有重要影响。利用虚拟装配技术可以在计算机中建立起逼真的装配环境,对实际装配活动进行仿真,并在此基础上对产品的可装配性、装配工艺的合理性、装配操作的舒适性进行分析验证,从而在产品研发的早期阶段及时发现产品设计和工艺规划中的问题与缺陷,减少设计变更,缩短产品研发周期,提高产品装配效率与质量。目前虚拟装
近年来,在互联网、商业服务、工程应用、科学研究等领域产生了大量的数据,这些数据正以指数级速度增长。矩阵是数据表示的经典形式,大数据就产生了大型矩阵,大型矩阵的存储和计算都是非常具有挑战性的工作。但幸运的是,在实际应用中许多高维数据通常位于低维流形中,所以我们可以用低秩的矩阵近似大规模矩阵。低秩矩阵逼近在计算数学,统计学,基因组学,文本处理,社交网络,机器学习等领域应用广泛。低秩矩阵求解模型一般是一
恶性肿瘤疾病如今已在全球范围内,成为对人类健康最严重的威胁之一。统计数据显示,中国每日确诊的癌症患者超过一万人。实现对肿瘤的精确检测与治疗,对于人类共同对抗肿瘤疾病而言有着重要的意义和积极的作用。但是因为肿瘤疾病在发生发展过程中的复杂性极高,肿瘤诊疗精度的提升面临着严峻的挑战。近年来广受关注的契伦科夫光学分子成像(Cherenkov luminescence imaging,CLI)为肿瘤精准诊疗
随着大数据时代的来临,以及人们对图像、视频等多媒体数据质量的要求越来越高,数据的产生也与日俱增。这使得数据的存储和传输变得日益艰难。压缩感知技术是解决该问题的一种方法。它以其独特的混叠采样方式直接存储压缩后的混叠信号,将混叠信号直接传送到接收端,并通过设计的重构算法精确还原场景信号。这种方式有效地缓解了存储和传输的压力。得益于压缩感知技术的有效性,它已经被广泛用于医学成像、高速摄影、遥感探测等多个
云计算服务是虚拟化、集群计算和远程计算等多种技术相互融合发展的新型服务。该技术通过虚拟化技术,允许个人或者组织的数据和程序上传到公有平台进行存储与执行。然而这种模式同时产生一系列安全问题:存储并运行在不可信公有云端的数据及程序面临着不同攻击者窥探、窃取以及篡改的威胁。在这种不可信云环境中,程序计算的完整性得不到充分的保障,同样用户数据及程序的机密性面临着巨大的威胁。另一方面,在实际工业化应用中,敏
压电式微滴喷射具有微米级的材料沉积精度且适用材料范围广,因而在单材质三维打印领域得到了广泛应用,但随着异质异构功能件一体化喷射成形需求的日益迫切,多材质三维打印成为亟待突破的关键技术。然而,由于喷头结构、喷射材料、驱动控制和喷射微滴特性之间存在复杂的耦合关系,其相互作用机理不明,材料喷射过程的精确调控机制尚未建立,难以快速实现不同物理特性材料的高速度、高精度喷射沉积,针对这一问题,本文系统地研究了