Google已将更多有关机器学习和计算机视觉的广泛研究提供给开源社区。该公司本周公开发布了一个API,开发人员和研究人员可以使用该API探索Google计算机视觉系统,以自动检测并正确识别单个图像中的多个对象。
Google一直在内部开发对象检测系统,并且已经创建了越来越复杂的机器学习模型来检测图像中的对象。
该公司目前在其Nest Cam等产品中使用该系统,以在街景视图中智能检测街道编号和名称,并在Google Image Search中用于“类似商品和样式提示”功能。
Google希望通过TensorFlow对象检测API将系统提供给更广泛的研究社区,Google希望刺激计算机视觉技术的研究和探索,Google研究科学家Jonathan Huang和该公司的软件工程师Vivek Rathod在博客中表示。
两位研究人员写道:“创建能够在单个图像中定位和识别多个对象的准确的[机器学习]模型仍然是该领域的一项核心挑战。” “我们在这些系统上投入了大量的时间培训和实验。”
这项工作已大大改善了系统的异物检测功能,其他人现在可以通过API进行访问。两位研究人员说:“我们当然已经发现此代码可满足我们的计算机视觉需求,我们希望您也能这样做。”
TensorFlow异物检测API是Google本周在开源社区中发布的两种与计算机视觉相关的技术之一。另一个是MobileNets,它是TensorFlow面向移动的计算机视觉模型的集合。
TensorFlow是一种Google 于2015年开源的机器学习技术,旨在刺激围绕深度学习和机器学习应用程序的开发活动。
谷歌软件工程师安德鲁·霍华德(Andrew Howard)和软件工程师朱梦龙(Menglong Zhu)在另一份公告中表示,MobileNets模型旨在在移动设备上提供增强的视觉识别功能。
目前,一种称为Google Cloud Vision API的技术为开发人员提供了一种将强大的图像分析功能集成到其应用程序中的方法,以用于检测照片中的各个面孔,按类别对图像进行分类以及读取图像中的印刷文字。
MobileNets通过相对有限的功能和计算能力来优化此类功能在移动设备上的交付。两位Google工程师说,MobileNets旨在解决移动设备上的资源限制,同时还改善了移动设备上的计算机视觉功能。
霍华德和朱说:“ MobileNets是小型的,低延迟,低功耗的模型,其参数化可以满足各种用例的资源限制。” 研究人员和开发人员可以使用该技术为移动环境构建复杂的图像分类,检测和分割功能。
该技术的一些示例用例包括图像中的对象检测,界标识别,按类别对图像进行分类和面部属性识别。