浅谈 Yahoo/Google 的图像搜索技术

October 19th, 2009 | Tags:

今天听了某个讲座,讲座人和题目都不介绍了,容易泄漏我个人信息。

讲座内容的 Abstract 如下:

The wealth of data available on the Internet changes the way we think about multimedia. Never before has there been so much data available for training models and answering questions. But these new riches bring with it a change in the problems we must think about. The data is noisy and largely unlabeled — we must make sense of it, often returning an answer in hundreds of milliseconds. How do we take into account context and do it at the scale of the Internet? In this talk I’d like to share with you Yahoo’s experiences in this brave new world of multimedia everywhere, describe promising new technologies, and discuss open research directions. I will describe the need for better models, the kinds of algorithms needed for today’s large databases, and how the Internet is changing multimedia retrieval.

Internet正以其前所未有的方式向我们提供着丰富的数据资源,这些可用数据的出现改变着我们对多媒体信息的思考方式。一方面,这些数据为我们提供了新的机遇,我们可以利用它们来训练模型、发现其中蕴含的知识等。而另一方面,海量数据的涌现也让我们必须面对由噪声数据的影响、标注信息的缺乏所带来问题,并需要在很短的时间内理解其含义。由此,一个值得我们思考的问题是:如何将上下文的情境信息与互联网上的信息结合?在这个报告中,我将与各位分享雅虎(Yahoo!)在这方面的研究经验,讨论如何面对当今随处可见的多媒体数据、有关技术前景和将来可能的研究方向等。同时,我也会分析市场对于新模型的需求,处理大规模数据库所需的各种算法,以及Internet为多媒体信息搜索所带来的影响等。

本来这个讲座被安排到了小教室,因为这边做图像方面的人不多,而且考虑到下午还有课。结果去听的人的确不是很多,但一个小教室断然是不够用的,后来换到了大教室。

演讲者为美国人,讲的纯英文,而且语速很快。这个时候,外语水平的优劣就显现出来了,我英语水平较差,只听懂了大概 30%~40% 的样子,不过也小有收获,至少通过这次讲座,我弄明白了一个我一直弄不明白的问题– Google 的图像搜索是如何实现的。简单说来,分三步。

一,根据图片相似度选取图片,并分组。把内容相似的图片分到一个组中去,便于进一步整理。

二,对于一组图片,根据各个图片的 Tags 识别图片内容。这里面有个问题,相近的图片,它们的 Tags 并不一样。这个时候,就需要进行筛选,其目的是选取最接近图片内容的 Tags 。怎么选取呢?就是把这些 Tags 分别整理出来,并统计,出现频率最高的 Tags 即被视为最接近图片内容;那么,这一组图片的 Tags 就确定了。如果某次的搜索请求的关键词中含有某个 Tag ,只需要把对应的图片返回即可。

三,具体到搜索结果的时候,以 Google 为例,还会牵涉到 PageRank 技术–Google 会优先显示那些出现在高 PageRank 页面的图片。

演讲者还提到了 Flickr — Yahoo! 旗下的图片分享网站,其中有一句话我记忆比较深刻,大致的意思是说,Flickr 需要的 “NOT better search BUT connections(among pictures)” 。也就是说,相对于专业的搜索引擎(比如 Google/Yahoo! Image Search)而言,Flickr 需要的不是更精准的搜索结果,而是为图片建立相互的关联性。说实话,这大大超出了我的概念,因为我一直以为,在进行信息检索的时候,结果的精准和全面是绝对第一位的;现在才知道,技术的发展和研究方向被实际需求所决定。

Update: 追加一点,相对于文本搜索,用户对于图像搜索结果的行为显得更为盲目。比如,某个人只是想搜一下麦当娜,凑巧,返回结果里返回了 Britney Spears ,大家知道,布兰妮对大部分人的吸引力还是要比麦当娜大一些的,这样就有可能出现很多人去点击查看布兰妮图片的现象。这个时候,如果按照文本搜索的思想,点击量高的链接所占权重大,这个错误的图片就有可能被“顶”上首页,这是我们所不希望的。所以,在图像搜索领域,或者说多媒体搜索领域,必须降低用户行为对搜索结果的影响这一权重。

No comments yet.