基于RGB输入的移动端实时3D人体骨骼动画驱动系统

来源 :浙江大学 | 被引量 : 0次 | 上传用户：wsw361

【摘要】

：

【作者】

：

杨凯航

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2020年期

【关键词】

：

RGB 输入移动端实时运行人体骨骼骨骼动画关键点检测动画驱动网络融合检测网络检测算法泛化能力

【基金项目】

：

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

3D人体骨骼动画驱动技术是动画电影、游戏等产业依赖的重要技术，具有很高的市场价值。其中，人体动作数据的采集是3D人体骨骼动画驱动的基础，传统的方法主要依靠动作捕捉来进行采集，场地和设备架设复杂，成本很高。随着近年来学术界在3D人体关键点检测领域不断取得的进展，低成本的人体动作数据采集逐渐成为了可能。然而，目前已有的检测算法的计算复杂度过高，难以在移动端实时运行，而且利用检测算法采集到的人体运动数据，由于固有的局限性，缺失骨骼自旋自由度等信息，无法直接用于骨骼动画驱动。
　　针对当前的问题，本文从泛化能力和轻量化角度入手，构建了包含检测和驱动在内的完善的3D人体骨骼动画驱动系统，且该系统能够在移动端实时运行。检测方面，为了提高3D人体关键点检测模块的推断速度，本文提出了一种网络融合的方法，将2D关键点检测网络和骨骼朝向检测网络融合，一方面，提高了骨骼朝向检测网络的泛化能力，另一方面，使得人体追踪、2D关键点检测和骨骼朝向检测只需一次模型推断即可完成，3D关键点归回网络则结合了时序输入，从网络层面缓解了结果的抖动性。驱动方面，为了解决因检测算法的固有缺陷而导致的错误，本文基于前人工作[7]，将驱动问题构建为非线性优化问题，并且提出了基于2D置信度的动态能量权重策略，解决了因误检导致的错误，同时结合角度软约束和角度正则，解决了骨骼自旋自由度的缺失问题。整个系统在中高端手机上能够以25fps以上的速度实时运行，并且基于本文提出的网络融合的方法，系统的泛化能力很强，能够适应众多使用场景。

其他文献

基于特征差异化学习的多模态内容点击率预估方法

近些年来，互联网应用的内容传播与表现形式越来越多样化，面对多模态信息融合载体的推荐需求，需要机器学习模型从多种维度、综合利用多种技术对多模态内容进行足够细致的分析理解。特征组合是点击率预估任务中的重要问题，基于深度神经网络的点击率预估模型利用显式的特征组合结构，同时捕捉高阶和低阶的特征组合，从而取得了优异的效果。但是这些模型只关注于对原始类别特征进行组合，没有同时考虑组合特征表达的完整性以及组合特征的重要度。认为在多模态特征的推荐场景下，完整的特征表达和有效的特征利用对模型的影响更加明显。
　　首先

学位

基于特征差异化机器学习模型多模态内容表征点击率预估模型特征组合重要度组合特征神经网络特征抽取方法

自适应3D多物体追踪

3D多物体追踪是计算机视觉中重要的问题，并且在许多重要场景比如无人驾驶、机器人等中得到了广泛的应用，因此其受到了极大的关注。然而目前大部分的工作通过提出越来越复杂的神经网络不断提高追踪的精度，但却忽略了系统的计算复杂度使得这些算法很难在实时性的系统比如自动驾驶上运用。因此，本文基于点云的数据特征提出一个简单且有效的实时追踪算法，能够基于点云的检测特点自适应调整，根据物体的类型自适应调整模型参数，最大程度上减少检测的噪声。本文采用的为基于点云的物体检测的追踪框架，使用一个现成的3D物体检测算法生成物体检测框

学位

自适应调整物体追踪追踪算法检测自适应卡尔曼滤波无人驾驶数据关联模型点云相似度计算计算机视觉计算复杂度

聚焦任务的服务机器人知识共享云平台关键技术研究

随着人工智能及信息技术的高速发展，服务机器人的智能化水平飞速提高，应用场景更加丰富，已经普遍进入并开始改变我们的生活。人们期望其可以成为能够快速准确理解用户请求、不断增长和扩展技能、能够应付复杂环境和复杂任务的智能助理。当前对于提高服务机器人的智能化水平，主要有两方面实践，一种是提高单个机器人的技术水平，常见于单一功能和应用场景的机器人中，如教学机器人、扫地机器人等，这种方式的问题是由于知识闭塞而带来的重复学习;另一种是通过统一终端来控制其他设备，例如智能家居中的智能音箱，这种方式可以通过人机交互实现多个

学位

聚焦服务机器人知识共享平台任务知识任务请求知识数据库智能化自然语言重复学习终端语言体系用户请求

基于深度学习的地震事件到时识别与震级快速估算研究

近年来，随着中国对地震预警工作的投入不断增加，地震监测网络不断完善，地震监测台站所记录的数据爆炸式增长。地震数据的飞速增加导致人工处理与分析工作越来越困难。因此，对自动化处理分析方法的需求越来越迫切。随着深度学习方法的快速发展，在地震相关研究中应用深度学习逐渐成为一种发展趋势。地震事件检测、震相到时拾取（这里将二者统称为地震事件到时识别）与震级的快速估算是在地震研究中非常重要和典型的三个任务。利用深度学习方法去解决这三个问题，会提高对地震数据处理与分析的效率，从而能大幅度节省人力成本和时间成本。
　

学位

深度学习地震事件识别震级平均绝对误差事件检测快速估算传统特征地震波形数据模型应用震相拾取学习方法

面向离散制造业的APS排程算法优化及实现

中国制造业近年来蓬勃发展，其中离散制造型企业的数量也在快速增加。离散制造因其高度复杂的加工过程给生产管理带来了许多问题，例如生产周期难确定、物料需求多变等。这些问题需要用合理有效的生产计划来解决。但目前企业计划排程的实施效果并不理想:企业资源计划管理ERP(Enterprise ResourcePlanning)中基于无限产能的计划排程模型，与实际生产情况差距大，计划执行困难;而考虑更为全面、基于多条件约束的高级计划排程APS(Advanced Planning and Scheduling)也存在着工艺

学位

离散制造业APS工艺参数优化生产计划生产数据工艺路线物料问题算法请求响应企业资源计划管理计划调整

低资源条件下的多语言实体链接技术研究

众所周知，在很多自然语言处理的任务中，知识库所起到的作用是不可或缺的，比如问答系统，自然语言推理等等。而实体链接，也就是在知识库中找到一段文本所包含的实体，很多时候是作为这些自然语言处理任务的上游基础任务存在的，因此实体链接可以说是一项非常重要的工作。
　　自实体链接任务发展以来，标准实体链接任务的链接目标都是类似Wikipedia这样的大型百科知识库，这类实体链接方法的准确率已经达到了很高的水平。但是这在很大程度上依赖于这类知识库中已被挖掘的大量标注信息和统计数据。而这样的信息在各类领域知识库中很

学位

资源条件语言实体链接目标领域知识库自然语言处理多语言样本问题标注信息文本接方法问答系统统计数据

基于Spark的实时舆论场数据的质量监控原型系统的设计与实现

近些年来，随着互联网技术的快速发展和移动终端用户数的飞速增长，网络媒体和社交平台等舆论场成为网络舆情的展示平台。对媒体和社交平台的数据进行挖掘对企业和机构有着重要的战略意义。然而，如今互联网上的数据有着体量大、种类多、产生速度快的特点，这些特点使得舆论场数据所包含的信息密度下降。低信息密度的数据会导致决策的正确性大幅度降，所以对舆论场数据的信息密度，也就是本文提到的舆论场数据质量，进行核查、度量、预警等监控操作是数据战略中必不可少的一部分。
　　本文的目标是设计支持实时预警的可信度高的舆论场数据质量

学位

Spark实时流舆论场数据质量质量监控系统原型系统质量核查信息密度设计实现质量度量预警数据管理系统

基于高级语义信息挖掘的跨模态应用研究

随着数字、网络、视觉传播技术的发展，多媒体数据也呈现日益增长的趋势。这些丰富的数据资源为跨模态数据的信息挖掘、理解和分析和等相关研究带来了许多新的挑战。比如，信息检索从过去的单媒体迈向了跨媒体的新时代。此外，多样化的数据和用户多元的需求也催生了很多新兴的跨模态任务，比如视觉问答，模型需要根据一张图像和一个问题，预测出相应的答案;再比如文本到图像生成，模型需要根据一段文本描述来生成高质量的图像。不论是传统的跨模态检索任务，还是新兴的跨模态信息交互和生成任务，从本质上来看，都是不同模态信息的映射与转化。而对不

学位

高级语义信息挖掘模态信息文本特征向量图像生成语义信息数据集生成模型实验结果视觉信息语义特征语义一致性

基于大规模隐式反馈数据的推荐方法研究

随着信息技术的发展，大数据为生活带来便利的同时也造成“信息过载”问题。推荐系统可从用户的历史行为数据中挖掘用户的潜在喜好并推荐令其满意的物品，从而有效解决“信息过载”问题。早期的推荐方法研究主要利用显式反馈数据。然而，这类数据往往需要用户显式地给物品打分，数据成本高、数据量小，影响这类推荐方法在推荐系统中的发挥。因此，近年来关于推荐方法的研究热点逐渐从显式反馈数据转移到大规模的隐式反馈数据中。隐式反馈数据可以直接来源于用户的各种行为，具有成本低、应用广、规模大等优点。
　　为大规模隐式反馈数据设计一

学位

基于GPU的大规模体数据可视化系统

随着获取高分辨率数据技术的进步，获取到的数据量随之增大。I/O速度的提高远落后于计算能力的增强，因此给后续的数据可视化任务带来了极大的挑战。
　　本文围绕用有限硬件资源平台上快速高效的绘制TB级体数据这一任务，利用现代图形硬件和API，结合其并行和多线程能力，设计并实现了大规模体数据可视化系统。本文使用基于虚拟内存方式的工作集管理的大规模体数据绘制方法，为了在保证绘制质量的前提下减小I/O，加入了基于GPU视频编码解码以及混合分辨率技术。同时，本文利用现代图形API的多线程友好的特性，以多线程的方式

学位

GPU模体体数据可视化交互绘制多线程数据交互数据可视化系统高分辨率资源平台图形硬件虚拟内存数据规模

基于RGB输入的移动端实时3D人体骨骼动画驱动系统

与本文相关的学术论文