计算机视觉建模依赖于使用分解成各种形状和颜色的图像。但是,在模型的变化中,这无法正确识别熟悉的对象。说一只curl缩的猫或戴着圣诞老人帽子的狗。
在她的2015 TED谈话,计算机科学家Fei-Fei Li强调了人工智能的局限性。动物视觉处理需要数百万年的时间才能命名对象,推断空间关系并检测情绪。孩子们通过积聚图像学会看到每200毫秒的图片,从而通过强化的生活训练来建立曲目。
她与她在斯坦福大学实验室的团队一起,使用类似于孩子每天看到的培训数据转移了焦点。为此,她利用了在线人群采购平台的力量,以从近50000个用户那里获得帮助,以对十亿图像进行分类。这导致了22000个类别中的1500万图像的数据库,并在图像处理应用程序中使用IT免费为研究人员和顾问提供了数据库。
依靠神经等层次结构节点的现有卷积神经网络算法被喂养到收集的数据,从而在处理繁忙的图像方面有了重大改进。接下来,他们着重于教授计算机来描述他们所看到的东西,并产生了能够在描述它看到的图像时使用人类句子的最早模型之一。
这项正在进行的研究的含义不仅限于消费电子应用程序,而且无疑会改善机器人技术,视觉辅助软件,手术光学仪器和太空探索。







