探索自然语言编程框架在审计中的构建

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:nicolas6520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代下“审计全覆盖”概念的提出,导致审计工作中需要处理的数据量越来越大,数据种类也随之增多。使得审计人员必须使用多种的技术手段来采集、分析不同类型的数据,而编程语言是其中最难掌握的一种。自然语言编程是自然语言处理的一个研究方向,主要通过自然语言处理的相关技术,提取自然语言序列中(可能出现)的编程思想来降低编程难度,其最终目标是生成计算机能够直接编译或解释的完整计算机程序。将自然语言编程融入到审计工作中,有利于降低审计人员的编程难度,提高工作效率。通过对自然语言编程相关文献的梳理未发现将自然语言序列转化为python程序框架的论文。因此,本文研究如何将审计人员输入的中文自然语言序列转换为python程序框架,并通过一个“审计方案”来展示转换的过程。具体的转换过程为:首先,通过句子切分、分词、词性标注以及依存句法分析得到自然语言序列中词组与词组之间的依赖关系。利用依赖关系筛选出具有宾语的动词,将具有宾语的动词作为程序步骤的判定条件,并利用动词与动词宾语的组合来表示程序步骤。然后,利用词组与词组之间的依赖关系将自然语言序列转化为树型结构,再对此树型结构剪枝操作形成只包含动词的树。通过“动词树”体现的动词与动词之间的关系,确定程序最终的执行步骤以及程序步骤的执行顺序。最后,将程序步骤转换为python程序框架,将“动词树”中的叶子结点转化为程序注释,将非叶子结点转换为函数(方法)。自然语言编程实现是依赖于自然语言序列中的编程思想,若将无编程思想的自然语言序列转化为程序框架,会导致生成错误的程序框架。判断自然语言序列中是否含有编程思想是一个分类问题。通过对相关资源的梳理未发现有关数据集,为了完善自然语言编程的实现,本文以“审计数据分析方案”为蓝本构建了数据集,并手工将数据集分为有无编程思想两类。动词词组与名词词组是自然语言序列的核心,且自然语言编程实现依赖于名词与动词,因此本文利用数据集中的名词与动词生成向量。搭建基于反向传播算法的全连接深度神经网络进行分类尝试,实验结果显示利用relu与sigmoid作为激活函数时分类准确率为63%,使用tanh作为激活函数时分类准确率可以达到65%。为提高分类的准确率,本文利用自编码器对神经网络进行预训练,使模型的分类准确率达到了79%,提高了模型性能。
其他文献
计算机分层成像技术(Computed Laminography,CL)是一种有效检测物体内部信息的无损检测技术,与计算机层析成像技术(Computed Tomography,CT)相比,它解决了板状构件成像时所存在的射线穿不透、成像空间受限等问题,CL技术适用于印刷电路板、集成芯片、航空材料等板状构件的无损检测。由于CL扫描结构的限制,导致投影数据不完备,重建图像中存在有限角伪影和混叠伪影,不能满
物联网技术的创新发展,正不断改变着社会生活方式和传统产业形态,萌发了大量新模式、新服务,掀起了社会、产业迅猛发展的新浪潮。与此同时,海量资源有限、防护手段缺失的设备接入物联网,使得针对数据安全、用户隐私的安全攻击不断增多,导致网络安全问题已成为阻碍物联网广泛部署的主要因素之一。密码是实现物联网数据安全与隐私保护的重要技术,可有效保障实际应用中数据传输安全与避免用户隐私泄露。因此,研究面向物联网安全
随着环保、能源等问题的日益突出,人们对建筑材料有了更高的要求。泡沫混凝土作为一种轻质保温防火的建筑材料,推进其绿色化、节能化显得尤为必要。碱矿渣泡沫混凝土便是应运而生的新型建筑材料。泡沫混凝土根据浆体内部气泡的产生来源不同,主要分为两大类:物理发泡法和化学发泡法。目前碱矿渣泡沫混凝土基本采用物理发泡法进行发泡,但物理发泡剂产品质量良莠不齐,经济性不佳,在制备低密度泡沫混凝土时也显得力不从心。所以本
随着工业建筑、智慧城市、数字中国的发展进程逐渐加快,BIM作为基础支撑技术,正处在体系化以带动建筑业发展的关键时刻。2020年4月20日,国家发改委对“新基建”做了权威解读,新基建的特征是“数字基建”。BIM是CIM的重要组成部分,不断积累更新,保证CIM的动态更新,CIM是智慧园区的关键技术,支撑城市规划建设管智能化。智慧城市建设是数字中国、智慧社会的建设基础。2020年7月,“智能建造与建筑工
城市的不断扩张和城市人口的日益增长,对地上交通是一个严峻的挑战。地下轨道交通的大力建设与发展缓解了地上交通的压力,国内外许多城市都进行了地铁的建设。本文以重庆市轨道交通十号线二期工程兰花路站~南湖站区间隧道和出入段线隧道为背景,针对深回填土区暗挖隧道群帷幕注浆效果评价与施工力学效应进行研究。首先对依托工程回填土的特征进行分析,通过室内试验得到回填土区土石混合体注浆前后的物理力学参数;其次采用探测、
流化床反应器传热传质效率高、反应性能好,在非高炉炼铁中具有良好的应用潜力。然而,流态化过程中非均匀结构的产生容易导致诸多问题,使得流化床难以发挥出相应优势,如气泡尺寸过大、气泡上升速度过快造成的气体沟流短路问题,导致还原气利用率较低,不合适的颗粒粒径分布和表观气速造成的颗粒偏析和分层问题,导致床内传热和反应不均,降低铁矿粉还原效果,亟需通过一定的调控方法改善床内非均匀结构情况。因此,研究流态化过程
随着社会的发展,受工作压力、饮食、作息、辐射等方面的因素影响,甲状腺疾病越来越常见,发病率较高,所以在甲状腺超声图像中圈出病灶区域并给出良恶性结果具有很大的意义。本文将深度学习方法及传统图像处理方法用于甲状腺超声图像上,并且针对医学图像数据量少的情况提出了半监督学习分割算法,缓解了算法对于大数据量的依赖性。以下是本文工作的详细介绍:1.甲状腺结节的分割:首先利用深度神经网络分割甲状腺结节,主要通过
随着永磁材料的持续发展和控制技术的进步,永磁同步电机已经被广泛应用于各行各业,内嵌式永磁同步电机具有功率密度高、弱磁性能好等优点,被越来越多的应用在高性能伺服驱动领域。目前,传统的永磁同步电机矢量控制策略中,采用霍尔、旋变等位置传感器获取角度信息,不仅使得物料及生产制造的成本增加,而且在可靠性方面也存在连接不良、电磁干扰等因素的影响,位置传感器已经成为控制系统中的主要故障源之一。当电机转速较高时,
基于生物特征的身份鉴别技术已在支付、取证、存取控制等领域得到广泛的应用。例如,近年热门的人脸识别技术已成功应用于支付、检票、逃犯追踪等场景。对比人脸、指纹等生物特征,虹膜具有更好的唯一性、稳定性和防伪性,因此虹膜识别被广泛认为是21世纪最具有发展前途的生物认证技术。然而目前,虹膜识别技术仅应用于手机解锁、楼宇门禁、办公考勤等场景。现有的虹膜识别系统往往以APP的形式、独立运行于嵌入式设备,难以应用
微波加热得益于其独特的加热机制拥有诸多传统加热无法比拟的优势,在工业应用方面表现出极大的应用价值。由于工业级微波加热系统结构复杂、加热腔体内多物理场相互耦合、媒质介电常数和物理特性随温度变化、加热过程中能够获取的参数有限,这些因素极大地增加了微波加热实际应用的难度。论文针对隧道式多微波源加热系统的媒质加热干燥过程,基于多物理场仿真软件对微波加热过程中各因素对媒质受热的影响和加热模式进行分析,并根据