首页 > 操作系统 >

图像识别论文《人工智能半月刊》第四十六期（2018.2.15）(3)

电脑杂谈　发布时间：2018-02-16 01:59:58　来源：网络整理

近日，IBM Watson 研究中心联合多家研究机构提出了人机推理网络 HuMaINs 架构。人机推理网络（HuMaINs）的新兴范式以一种智能的方式整合了人类与机器的现代认知优势，从而解决不同的推理任务，表现要优于人类或机器单独执行的效果。尽管只针对于人类或传感器网络的推理性能优化技术已经相当成熟，HuMaINs 依然需要全新的信号处理和机器学习方案。作者概述了聚焦于三个主要问题，即架构设计、包含安全性/隐私挑战的推理算法，以及应用领域/用例。图像识别论文

CMU提出新型智能体定位方法：主动神经定位器

ICLR 2018论文中CMU 教授 Ruslan Salakhutdinov 等人的论文《Active Neural Localization》提出了一种新型智能体定位方法：主动神经定位器。该模型包含了传统的基于过滤的定位方法思想，同时将其与策略模型相结合，以准确定位并最小化定位所需的步骤数量。主动神经定位器通过端到端的强化学习进行训练。作者使用了多种仿真环境来测试该模型，包括二维迷宫、Doom 游戏引擎中的随机迷宫和虚幻游戏引擎中的拟真环境。在二维环境中的测试结果表明在理想设置下习得策略的有效性，而在三维环境中的测试结果表明，模型具备从基于 RGB 的原始像素观测中同时学习策略模型和感知模型的能力。

商汤联合提出基于FPGA的快速Winograd算法：实现FPGA之上最优的CNN表现与能耗

此前，商汤科技联合北京大学等提出一种基于 FPGA 的快速 Winograd 算法，可以大幅降低算法复杂度，改善 FPGA 上的 CNN 性能。论文中设计利用行缓冲结构（line buffer structure）来高效重用不同 tile 的特征图数据，还高效架构 Winograd PE 引擎，通过并行化启动多个 PE。作者提出一种分析模型，用于预测资源使用情况、推断性能，并使用该模型指导快速的设计空间探索。实验使用了当前最优的 CNN，结果表明其实现了在 FPGA 上的最优性能和能耗。

Petuum提出对偶运动生成对抗网络：可合成逼真的视频未来帧和流

对于自动驾驶系统而言，准确预测驾驶场景的未来情况对于驾驶安全而言至关重要。卡内基梅隆大学和 Petuum 的一项研究试图通过对偶对抗学习机制来解决这一问题。他们提出了一种对偶运动生成对抗网络架构，可通过一种对偶学习机制来学习明确地强制未来帧预测与视频中像素层面的流一致。其原始的未来帧预测和对偶的未来流预测可以形成一个闭环，从而能为彼此生成信息丰富的反馈信号实现更好的视频预测，并提出了一种对偶训练方法以确保未来流预测能够帮助推理逼真的未来帧，而未来帧预测又反过来能帮助得到逼真的光流。实验结果表明对偶运动 GAN 在合成新视频帧和预测未来流上表现优于之前最佳的方法，并且表现出了在无监督视频表征学习方面的优越性。

中科大提出新型连续手语识别框架LS-HAN，帮助“听”懂听障人士

目前，手语识别（SLR）存在两个子问题：逐词识别的孤立手语识别，翻译整个句子的连续手语识别。中科大提出了一种新型连续手语识别框架，带有潜在空间的分层注意力网络，无需对时间分割进行预处理。LS-HAN 由三部分构成：用于视频特征表示生成的双流卷积神经网络、用于缩小语义差距的潜在空间和基于识别的潜在空间分层注意力网络。他们在两个大型数据集上进行了实验，实验结果表明提出的框架是有效的。

DeepMind提出新型架构IMPALA：帮助实现单智能体的多任务强化学习

DeepMind 最近提出的 IMPALA 开始尝试利用单智能体同时处理多个任务。他们开发了一种新的分布式智能体 IMPALA，它可以扩展到数千台机器上，每秒吞吐量高达 25 万帧。通过结合决策和学习分离与新型离策略修正方法 V-trace，达到了很高的吞吐量，实现了稳定学习，这对于学习的稳定性至关重要。与新架构同时提出的还有任务集合 DMLab-30，研究展示了 IMPALA 在 DMLab-30和 Atari-57中进行多任务强化学习的有效性，性能优于之前的智能体，使用的数据更少，更重要的是新方法可以在多任务中展现出积极的迁移性质。

本文来自电脑杂谈，转载请注明本文网址：
http://www.pc-fly.com/a/jisuanjixue/article-79753-3.html