迎接来到J9集团
联系J9集团: 010-82378600, 13911129392
迎接来到J9集团
联系J9集团: 010-82378600, 13911129392
视频提要又称视频浓缩,是对视频内容的一个单一概括,以自动或半自动的方式,先通度日动指标分析,提取活动指标,而后对各个指标的活动轨迹进行分析,将分歧的指标拼接到一个共同的布景场景中,并将它们以某种方式进行组合。视频提要在视频分析和基于内容的视频检索中表演着沉要角色。
视频录像存在存储数据量大,存储功夫长等特点,通过录像寻找线索,获取证据传统的做法是要耗费大量人力、物力以及功夫,效能极其低下,以至于错过最佳破案机遇。因而在视频监控系统中,对原始视频进行浓缩,能够急剧浏览,锁定检索对象,对于公安加快破案快率,提宏伟案、要案的破案效能拥有沉要领导意思。
对于企业利用来说,视频提要与压缩技术能够使企业治理人员在短功夫内浏览完视频。在智能手机大行其路的今天,使用视频提要技术对监控视频进行处置,供手机浏览,既能够节约治理者的功夫,又能够节约大量的流量。
视频提要技术的钻研最早始于1994年CMU大学的Informedia工程,随后德国曼海姆大学、FXPaloAlto尝试室、Minnesota大学、MITRE公司、哥伦比亚大学与微软钻研院等都在这方面进行了较为深刻的钻研,别离提出了各自的视频提要战术,视频提要的阐发大局也由最初的静态提要转变为此刻的动态缩略视频。
总的来说视频提要是对一长段视频内容的简短总结,即视频提要就是一连串静止或活动的图像,别离称为静态视频提要和动态视频提要,它们用精简的方式代表了原视频的内容,同时保留了原内容的重点。静态视频提要是从原始视频中剪取而天生的一系列静止图像的集中,这些代表了原始视频的图像成为关键帧;动态视频提要是由一些图像序列以及对应的音频组成,它自身是一个视频片段。两者区别是静态视频提要只思考其关键帧,忽略了音频信息,但天生提要的快率比动态视频提要快;动态视频提要阐发的内容比静态视频提要丰硕,通常以镜头的方式暗示,融合了图像、声音和文字等信息。
视频提要的作用重要是便于存储和视频的浏览或查找,相对于原始的视频资料,视频提要的长度要短好多,节俭了存储功夫和空间。视频提要保留了原内容的重点,所以对于用户来说,浏览或查找视频提要比浏览原始视频要节俭功夫。
视频提要的天生步骤大体能够分为4类:
基于功夫点对视频进行采样,即每距离肯定的功夫抽取一个代表帧或者一个片段,这种天生步骤很容易实现,但齐全没有基于视频的内容。
凭据视坡凤出现的色彩、纹理、状态、活动方向和强度等视觉信息,基于模式识此外思想,利用各类视频和图像处置技术,进行镜头探测、关键帧提取、场景聚类、活动特点提取等一系列操作,最平天生拥有代表性的关键帧序列或缩略视频。这种算法齐全基于视觉特点,忽略了音频、字幕等信息对视频的作用。
在基于视觉步骤的基础上融入其他媒体提供的信息,正确的判断视频片段的沉要水平,这种算法是目前大无数视频提要技术选取的步骤。
从视频的句法结构分析动手,探寻镜头与镜头之间、场景与场景之间的结构规定,将视频的句法语义尽可能齐全的保留在提要中。
视频提要天生过程能够综合为3个过程:
任何视频提要算法都遵循“先分后合”的准则,要进行视频内容理解和分析必须首先将视频切分成合理的根基单元,这些根基单元蕴含场景、镜头、帧等。
选取模式鉴别或者视频结构探测的步骤来获取可能被推算机或者人感触的信息。
把判定为沉要的视频片段组合在一路形成某种大局的提要。
若是将上述3个过程细化,由原始视频天生视频提要首先要对非结构化的图像流进行处置,使之成为结构化的数据,这个过程被称为视频结构化,又叫视频分析。帧是视频数据的最幼单元,是一幅静止的画面,镜头是由帧组成的视频数据的根基单元,是摄像头的一次陆续的作为,只能拍摄相邻地址陆续产生的事件,场景由内容相近的镜头组成,从分歧的角度描述统一个事务,视频是由很多场景组成,叙述一件实现的事件。针对视频内容的结构化提取是通过自底向上的步骤从每一帧中分析出结构化信息。
视频结构化重要步骤有镜头宰割、关键帧提取、场景沉构。
镜头宰割:镜头是视频检索的根基单元,大部门视频是由一个个镜头衔接而成的。在编纂时,可能选取分歧的步骤将前后两个镜头结合在一路。两个镜头的结合步骤可能是突变,即一个镜头直接加在上一个镜头最后一个画面之后;也可能是渐变,如淡入淡出、慢转换等。镜头宰割过程的重要工作是镜头天堑的检测。常用的镜头天堑检测的算法有突变检测算法和渐变检测算法。
关键帧提取:在进行镜头宰割后,视频被分化为一个个陆续的镜头。在统一镜头中,t时刻的图像帧和t+1时刻的图像帧往往在视觉特点和内容上差距不大,所以在一个镜头中对分析过程而言存在太多的冗余的图像帧,因而就必要从成千上万的图像帧中提取关键帧。所谓关键帧是用于描述一个镜头内容的关键图像,它是从原始的视频文件中抽取的一些静态图像。静态视频提要就是由这些关键帧组成的。用它们来暗示视频,越发简洁,也解除了在视频分析时的巨大冗余。关键帧提取重要是利用图论、曲线割裂、聚类和奇怪值分化的步骤。这些步骤的根基思想是把一帧当作是多维特点空间中的一点,选择的关键帧是点的子集,这些点集可能覆盖特点距离内的其它点,或者可能批注场景内容的变动。关键帧提取算法重要有:基于镜头天堑法、基于色彩特点法、基于活动分析法、基于内容的自适应提取步骤、基于聚类的关键帧提取步骤等。
场景沉构:场景是由语义上有关和功夫上相邻的若干组镜头组成的。场景是视频所蕴涵的高层抽像概想和语义的表白。在视频宰割中,首先将视频切分为一个个的镜头,然而内容上某一些陆续的镜头在情节上是有关的,这组镜头拥有一样的语义,表白同样的主题,将这些镜头沉组成场景也是视频结构化的沉要部门。沉构的场景是观多思想中形成的主观概想,因而,场景沉构的天堑检测也就比镜头天堑检测要难题得多,更拥有挑战性。齐全自动场景变换检测系统很难实现,好多文件提出了场景变动检测的算法。这些算法可分为两类:功夫约束聚类算法和声音、视觉个性检测算法。前者是把视觉类似和功夫靠近的镜头组织成一个场景,指标在于用一种紧凑且有语义寓意的步骤暗示视频;后者则强调仿照人的观察力检测场景变动。
随着视频、音频内容分析技术、天然说话理解以及人为交互技术的不休发展与美满,将来的视频提要技术将出现以下发展趋向:
1)多模态的视频提要,即融合图像、视频、音频以及文本等多种媒体内容的视频提要。大量的尝试证明,将各类媒体的特点有机地结合在一路,能力最大限度地让用户在短功夫内迅快理解并获取视频的内容,如标题与故事板相结合的提要大局注定会比单一的标题或故事板的提要大局更容易让人理解。
2)交互式的视频提要。此刻的视频提要多半是主观的、依照天生者意图定造的提要,力求让用户理解或浏览视频内容。但将来的视频提要将是交互式的,允许用户指定提要的大局,提要哪方面的内容,便于用户自己设计个性化的提要。将来的视频提要技术指标是天生自适应的、可视化的视频提要,即凭据用户需要对内容进行自适应的阐发。具体体此刻允许用户对视频片段进行标注,允许用户调整缩略的压缩比,如对感兴致的内容设置较幼的压缩率。另表,它能够通过对用户交互纪录的分析获取用户的爱好,依照用户爱好自适应地天生缩略。目前,已经可能实现通过交互式的地图以及功夫线的步骤对新闻视频按地域和功夫进行急剧信息的获取。
总而言之,视频提要技术在向多模态、个性化以及融合的方向发展,拥有很好的钻研价值以及辽阔的利用远景。
