[ 新 · 观察]摆脱“脸盲症”,腾讯联手新加坡发力视觉搜索ROSELab

visual search

江苏卫视推出的最强大脑中有一位香港的“千面师奶”李玉娟给笔者留下了很深刻的印象。节目组挑选出全球各地50人的照片,其中有各个年龄、肤色及不同性别的混合。挑战过程中,嘉宾会任意挑选两张照片合成出一张新面孔,而李玉娟成功的通过新面孔找出用来合成的两张照片。在挑战赛阶段,顺利PK李玉娟的杨冠新更是让人瞠目结舌。来自广东的“超人老师”杨冠新识别出了用1700张韩国美女相片任意结合的脸蛋。

这些“超能力”对于普通人来讲也许是求而不得的神技,如果在读本文的各位也拥有如此能力,试想生活会有什么不同。视觉搜索的研究者们正在努力的使这个梦想变成现实。

一、什么是视觉搜索

简单来说,视觉搜索就是以图片来搜索需要的信息。

图像识别技术的发展已经有近30年的历史了。从最初的指纹识别,到现在随处可见的人脸识别,它们都是将指纹图谱或者人脸图片的特征提取出来,并与设备中存储的已有特征照片进行对比。如果相似度达到某个阈值,则匹配成功。这一技术已经广泛的应用在安保、日常考勤、电脑解锁等领域。但如此一对一的匹配技术距离可搜索的阶段还有很远的距离。

第二代的视觉搜索是基于算法和数据的。首先需要一个大数据库用来提取特征值并聚类建立索引。在用户搜索的时候,将图片进行解析,检索并根据相关性排序,返回结果。结果可以是图片,也可以是相关的信息。

二、搜索方式的升级

与传统的文字搜索不同,伴随着各类移动设备的发展,输入方式已经被扩展到文字、图像、声音、体感、位置等综合性输入。从输出结果的智能化与互动性也更强。具相关科学统计显示,人类有近80%的信息获取来自于眼睛。目前语音识别与搜索、定位搜索等领域已经趋于成熟。摄像头与移动设备的结合更加多元化。从手机、Google Glass到延伸视觉的无人机飞行器,视觉搜索已经极具想象空间。

视觉搜索可以看作是升级版的条形码与二维码。条形码或二维码对特定物品进行唯一标识,但是只有机器才能读懂。视觉搜索是要实现人眼所见即所得。

三、视觉搜索面临的困难

当前视频搜索依然有许多待解决的技术难题。业界包括谷歌和百度在对平面或刚体(书籍、CD、建筑物、油画、明星照片等)搜索的召回率已经超过90%。但对“非刚体” 图像的识别对机器算法有更高的要求(比如动物)。

大家知道图片存储信息量与大小都是文字的数量级倍。在精度要求外,视觉搜索还要求高带宽来缩小搜索时长来优化搜索体验。李彦宏在KDD大会上提到当2.9秒的搜索时长变为0.1秒后,视觉搜索就将迎来大规模应用。

科技的发展总是与人类对隐私的诉求相爱相杀。与无人机飞行器类似,在没有政府出台与时具进的法律法规前,视觉搜索也许无法以人类想象中的便捷方式爆发。摄像头是移动互联网时代的入口,就像PC时代的搜索框一样,这是Google与百度等搜索巨头都对视觉搜索投入大量资源的原因:流量入口是搜索引擎的生命之源。但是摄像头是很敏感的设备。如果监管不到位,其会是对人类隐私极大的侵犯。

当然”人类会不会被智能机器奴役“也是一个永恒的争论。当摄像头进化为人类不可缺少的“天眼”,就是人类开始被机器奴役的开端。

四、视觉搜索在新加坡:腾讯ROSELab

自2011年起,腾讯高校关系团队协同公司的研发团队就已经与新加坡、北美等国际范围内的大学建立联系。2013底,新加坡南洋理工大学-北京大学-腾讯联合实验室(博云搜索实验室、ROSELab)合作签字仪式正式在新加坡南洋理工大学举行。三方签署了五年战略协议,致力于将科学研究与产业需求紧密结合,联手构建亚洲最大的结构化图像数据库,在移动视觉搜索、多媒体云平台等方向做出国际领先的研究与应用。

2014年9月18日,首届“WeMage”移动视觉搜索挑战赛在新加坡开战。该挑战赛由ROSELab主办,同时获得新加坡自然科学基金、新加坡南洋理工大学创业孵化器NTU Venture、新加坡通讯供应商StarHub的支持。其以微信智能开放平台为开发基础,面向全新加坡高校在校生开放。参赛团队可将创意与用户需求相结合,通过图像识别、语音识别等智能技术来开发有趣又有用的移动应用。

与现有软件相比,ROSELab的研究成果可更快速的解析资料,可以帮助开发者利用新技术的图像搜索功能设计基于微信平台的应用。此举也可看出腾讯欲在下一代搜索与云平台技术与搜索巨头Google、百度一较高下的野心。对于普通民众来说,当然也希望能尽早使用到实用的新科技使生活更便捷。

(文:宫亮亮)