(上图为智能视频图像分析创业公司Viscovery CEO黄俊杰)
在线视频正在迅速成长为一个巨大的市场。根据今年6月发布的思科Visual Networking Index(VNI)报告显示,到2020年视频将占消费互联网流量的82%,2015 年到 2020 年互联网视频监控流量将增长十倍、全球虚拟现实流量将增长61倍。在中国市场,根据市场调查公司艾瑞的预测,在线视频市场将在2018年达近千亿人民币规模。
面对这样一个视频大市场,如何进行视频的商业化转化,是所有运营商和互联网公司关注的焦点。在过去,视频点播、贴片广告和直播等是视频商业化的主要形式。在人工智能时代,通过机器学习来实时捕捉和识别视频中的图形,从而更精准的匹配广告和电商购物等新商业模式,成为视频商业化的下一个大趋势,而这有赖于机器学习算法软件和底层硬件的进步。
谷歌现任CEO Sundar Pichai曾说,机器学习是一条核心的转型之路,我们将据此来重新思考一切。有一家叫作Viscovery的创业公司被谷歌评为“成功和创新的企业”,从2011年开始就采用英特尔技术开发智能视频探索平台VDS,已经能够实时捕捉和识别视频中的图像。
基于机器学习的智能视频识别探索
Viscovery是一家集合美、中、台高端人才的创业公司,自2011年以来就致力于研究图像识别技术。Viscovery CEO黄俊杰表示,Viscovery的目标是通过大数据挖掘,自动解析视频画面内容,实现广告精准匹配、视频购物与社交、黄暴信息监测等多种应用。
Viscovery经过多年图像识别技术研发以及大量客户实践,开发出的智能视频探索平台VDS,以独有全方位视频内容识别引擎Fitamos,可实现包括人脸(face)、图片/商标(image)、文字(text)、声音/对话/音乐(audio)、动作(motion)、物件(object)、场景(scene)等在内的多模态识别。
通过在视频中识别上述七大广告标的对象,VDS可自动化产生信息、标签、商品等大量内容,克服了人工对视频画面与音频打标签的难题,打通识别对象分类与对象信息匹配的渠道,完成精准的广告、电商、社交等匹配,从而提升广告投放或电商交易收入,把视频流量转换成切实的营收。
简单的说,VDS可同步分析一个1小时影片,自动分析出来影片里的耳环、项链、笔记本、智能手机等物品,以及它们几分几秒出现在什么样的场合,这非常有助于广告主或者视频网站更精准找到更好的广告投放机会点。“过去通过人工可能处理100部、1000部影片,采用们这个系统一下子就可以处理100万部、1000万部的视频量,及时找出广告投放点,实现更好的投放。” Viscovery公司CEO黄俊杰说。
VDS目前有三种方式:一种是以轻量级SaaS的方式提供给用户,用户上传视频后返回分析结果;一种是对有上百万支视频的互联网大型公司,可直接把VDS系统部署到用户自己的数据中心集群里;还有一种是如果需要利用Viscovery自建基于英特尔高性能计算集群的机房,可以把视频传给Viscovery处理。
高性能计算提升机器学习
“我们碰到的挑战比别人更多,原因在于我们要处理上亿的图像。2012、2013年之后,越来越多的人开始采用神经网络来处理图像,不管是Google LeNET、VGG等还是Caffe、Torch,需要在这么多种架构下做深度学习实验,动辄要一周、一个月的时间才知道实验结果。”
黄俊杰介绍说,尤其是2015年的ImageNet比赛中,微软最新的“深层残差网络”可以把图像识别系统错误率降低到3.57%左右,低于人眼的5.1%错误率,这是重大突破。其中一个关键,就是多达152层的深度神经元网络。一般来说,现在市面上常见的GPU,1U的机器上一个GPU卡大约能训练出15层到20层左右的神经元网络,因此难达到100层或200层的深度。
2016年6月,在ISC国际超级计算机大会上,英特尔推出了代号为Knights Landing(KNL)的第二代至强融核处理器Xeon Phi,这系列最高达72核的x86 CPU也是首款可作为独立处理器的Xeon Phi CPU,这意味着可摆脱GPU而组成CPU-Only的高可扩展机器学习机群。KNL还配备了16GB MCDRAM高带宽内存可实现490GB/s的内存带宽,以及6条DDR4内存插槽最高支持384GB内存。KNL处理器还是第一个支持新AVX512指令集的处理器,对于深度学习有极大的加速效果。
尽管也可以用GPU搭成集群网络,但每台GPU服务器之间都要通过以太网或Infiniband技术连接,而英特尔研发的应用于高性能计算的Omni-Path高速互联网络带宽高达100G,不论在运算量或是传输速度上都远超之前的技术。Viscovery首席科学家陈彦呈博士强调,购买100台GPU机器用于深度学习算法训练可能只能快30倍,但是基于KNL的机器通过Omni-Path架构能实现线性增长,100台可以快80、90倍以上。
黄俊杰表示:“如果只是做简单小规模20层以内的神经元网络学习,用GPU就可以了。当今天要挑战上亿的图像资料,分辨上万种物体,需要更快速训练完之后为企业提供服务的话,就需要选择更为完整的架构,包括计算、存储、网络传输三位一体,才可以做更深度的机器学习。”陈彦呈更进一步介绍Viscovery还在研究千层神经元网络,简单理解就是把十个百层神经元网络并行连接起来,同时识别一个视频图像的十个物体。
Viscovery首次尝试构建CPU-Only的全新架构视频深度学习平台,在视频流识别的能效上甚至比传统方案提升高达3至6倍。黄俊杰表示,借助软硬件的协同整合,Viscovery能更全面、高效的服务视频与直播平台需求,将深度学习广泛应用在商业环境之中。
在2016 Computex上,英特尔、广达(Quanta)、Viscovery一起提供了一套完整的视频分析解决方案,把英特尔至强E5和Phi处理器、广达的系统设计以及Viscovery的软件集成到一起,实现了包括服务器、算法库和开源软件等在内的可大规模部署的解决方案。
英特尔的机器学习“野心”
2016年4月18日英特尔机器学习战略及业务拓展总监Joe Spisak的一篇博客中,引用了Sundar Pichai那句著名的论断。当以谷歌为代表的互联网巨头们都在用机器学习重新思考未来时,英特尔对于机器学习的策略也不是简单一两条芯片产品线的投入,而是有一个完整的战略。
Joe Spisak表示,英特尔机器学习战略包括底层的Intel至强E5和至强融核Phi系列、SSD固态硬盘、新一代内存技术、Omni-Path架构等以组成机器学习单节点或集群。实际上Intel至强E5处理器、一代至强融核协处理器、二代至强融核处理器家族系列为构建机器学习集群提供了一个高性价比的混合X86服务器解决方案。
加上基于Lustre软件的并行文件系统、MCDRAM高速集成内存、HPC Orchestrator安装软件等,Intel可扩展系统框架(SSF)把这些底层的计算、存储和网络硬件技术均衡的组织起来,可以适应从小集群到超大TOP 500的超级计算机,以及各种计算密集型和数据密集型场景。
再往上是英特尔提供的一套高度优化的软件和工具库,能够最大化的从底层硬件中获得高性能。Intel Math Kernel Library数学内核库是一套调优过的基础数学算法库,Intel Data Analytics Acceleration Library数据分析加速库则提供了一套优化过的机器学习算法。这些库都对硬件和ISA指令集架构进行了抽象,屏蔽了底层硬件的复杂性,简化了编程和代码。
英特尔还积极与机器学习相关的开源项目集成,并把代码贡献给开源社区。这包括来自UC-Berkeley的Caffe、Montreal大学的Theano、Facebook和Twitter用的Torch7、微软的CNTK以及谷歌的Tensor Flow等。在更高的层面,英特尔还通过开源的Trusted Analytics Platform(TAP)可信计算平台,帮助企业和开发者加速采用机器学习。TAP提供了从大数据基础设施和集群管理工具,到模型开发和训练以及应用开发及部署等各类资源。
在开发工具方面,Intel Parallel Studio XE工具套件简化了代码的设计、开发、调试和优化,利用并行处理来提高应用程序的性能。利用兼容的Intel处理器和协处理器,可以更高效地提高C++和Fortran应用程序性能。
实际上对于开发者来说,英特尔统一架构的最大好处是单一的编程模型和编程语言,陈彦呈表示针对GPU加速代码无法在CPU上执行,所以传统的深度学习解决方案常常是GPU满载但是CPU闲置的状态。英特尔KNL可以作为协处理器的形式,在一个主CPU旁边插多个KNL,那么同一代码不需要重新编译就可以直接分散在不同的运算节点上运算。相比之下,其实GPU的单价也不低,还需要特殊的程序语言(CUDA)做处理。
最近,Viscovery与江苏卫视和傲播合作了“我们战斗吧”,为观看这部秀提供了一个APP。用该APP观看的时候,在任何一个时间点想要知道王凯、萧敬腾、井柏然等身上穿的衣服、头上戴的帽子或脚上穿的鞋,只要一点马上就可以知道在哪里买,把视频变成了互动的情景。“这是在过去没有办法大规模实现的场景”,黄俊杰说。
在未来IoT的世界里,智能视频分析还将大有可为。随着机器学习算法、软件和硬件的进步,机器学习无疑将成为千亿视频市场最佳的商业化策略。(文/宁川,《云科技时代》微信号:CloudTechTime)
本文出自 “云科技时代” 博客,请务必保留此出处http://cloudtechtime.blog.51cto.com/10784015/1836188
原文地址:http://cloudtechtime.blog.51cto.com/10784015/1836188