卡内基.梅隆大学的教授Alex Hauptmann专门从事这种计算机分析,他表示,尽管人工智能近年来已经在这一领域取得了巨大的进步,但是在让计算机理解视频方面仍然存在着非常根本性的问题。其中最大的一个就是的问题,这个问题我们已经不再会经常想到了:分辨率。
最大的障碍非常常见:低分辨率的视频
举个例子来说,一个神经网络经过训练,可以分析视频中的人类行为。这些工作是通过将人体细分为多个部分--手臂、腿、肩膀、头部等--然后观察这些小的部分在视频中从一帧到另一帧的变化来进行的。这样,人工智能可以告诉你是否有人在跑步,或者是在梳头发。Hauptmann对《The Verge》表示:"但是这取决于你所拥有的视频的分辨率。" Hauptmann表示:"如果我用一个对准停车场的尽头,如果我能分辨出是否有人打开了车门,就算是非常幸运的了。如果你就站在()前面弹吉他,它就可以跟踪你每一根手指的动作。"
对于闭路电视监控系统来说,这是一个大问题,往往会有颗粒感,而角度也常常很怪异。Hauptmann举了一个便利店的例子,的目的是监控收银机,但是它也监视着面向街道的窗子。如果外面发生了抢劫,的镜头有一部分被挡住了,那么人工智能可能就会卡住。他表示:"但是我们作为人类,可以想象正在发生的事情,并且把它们拼凑在一起。可是电脑就做不到这一点。"
同样,虽然人工智能很好地识别视频中的相关事件(例如,某人正在刷牙、看手机或者踢足球),但仍不能提取重要的因果关系。以分析人类行为的神经网络为例。它可能会看到镜头并说"这个人正在跑步",但它不能告诉你他们之所以在跑步,是因为他们快要赶不上公共汽车了,还是因为他们偷了某人的手机。
这些关于准确度的问题应该让我们认真思考一些人工智能创业企业的宣言。我们现在还远未接近这样一个点:电脑通过观看视频能够获得和人类一样的见解。(研究人员可能会告诉你,要做到这一点可是太困难了,因为它基本上是"解决"智力问题的同义词。)但是事情的发展速度非常快。
Hauptmann表示使用车牌跟踪功能跟踪车辆是"一个已经得到解决的实际问题",在受控设置中的面部识别也是一样的。(使用低质量的闭路电视监控视频进行面部识别就完全是另一回事了。)对汽车和衣物等物品的识别也非常可靠,在多台摄像机之间自动跟踪一个人也是可以实现,但前提是条件是正确的。Hauptmann表示:"在一个非拥挤的场景中跟踪一个人的效果可能非常好,但是在拥挤的场景中,还是算了吧。"他表示,如果这个人穿着的是不起眼的服装,要做到这一点就特别难。
![]()
一些人工智能监控任务已经解决了;另外一些还需要继续努力
但是,即使是这些非常基本的工具也可以产生非常强大的效果。比如在莫斯科,一个类似的基础设施正在组装,将面部识别软件插入到一个集中式系统中,该系统拥有超过10万台高分辨率,覆盖了这个城市90%以上的公寓入口。
在这种情况下,可能会有一个良性循环,随着软件越来越好,系统会收集更多的数据,从而帮助软件变得更好。Hauptmann表示:"我认为这一切都会有所改善。"他表示:"这种情况正在出现。"
如果这些系统已经在工作了,那么我们就已经有了像算法偏差这样的问题。这可不是一个假设的挑战。研究表明,机器学习系统吸收了为它们编写程序的社会的种族歧视和性别歧视--从总是会将女性放置在厨房的图像识别软件到总是说黑人更容易再次的刑事司法系统,比比皆是。如果我们使用旧的视频剪辑来训练人工智能监控系统,例如采集自闭路电视视频监控或者警察佩戴的的视频,那么存在于社会中的偏见就很可能会延续下去。
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/jisuanjixue/article-70151-3.html
也是划时代的进步了