Google 的机器学习技术可以辨识影片中的物体了

在图像识别的基础上更进一步。

Sanji Feng
Sanji Feng
2017年03月9日, 下午 05:59
得益于图片辨识技术的发展,人们早就可以在网络上实现以图搜图的效果。但问题是,那只限于静止的图像,画面一动起来,事情就变得没那么简单了。不过现在,Google 终于在视频识别的领域中找到了突破口,他们日前在 Google Cloud Next '17 的大会上,公布了一个全新的 API。而它的功能就是通过机器学习技术,在视频里对以名词和动词为关键词的影像进行搜索和辨认。

这个被命名为 Cloud Video Intelligence 的 API,现在仍处于 beta 测试的阶段。Google 目前是将其作为一套商用深度学习解决方案,提供给企业整合入 TensorFlow 之类的框架,用来分析存储的视频和提取 metadata。举例来说,当你在媒体内容中搜索「老虎」的时候,就会出现下图中这样的结果。

值得一提的是,除了能找出「实体」出现的时间外,CVI 还能侦测到各帧间情景的变换。不过使用这个 API 的前提是,你必须将内容存放到 Google Cloud Storage 中,但这应该不算是很大的问题,毕竟像 Apple、Evernote、Spotify 这样的大公司今年都已经开始使用 Google 的 Cloud 平台了。当然,想在 YouTube 之类的大众化服务中看到这样的功能,现在来说估计还为时尚早,但愿 Google 不要让我们等太久吧。
标签: api, gear, google, internet, metadata, search