基于HTML语义的多媒体资源数据采集研究

2016-02-17 10:38涂婧璐海南政法职业学院海南海口571100
中国现代教育装备 2016年7期
关键词:数据采集多媒体

郭 毅 涂婧璐海南政法职业学院 海南海口 571100



基于HTML语义的多媒体资源数据采集研究

郭 毅 涂婧璐
海南政法职业学院 海南海口 571100

摘 要:在互联网多媒体资源日益丰富的当代,想收集相关的多媒体资源并使用是一件费时费力的工作。为了能更好地收集使用网络上的多媒体资源,我们考虑在分析多媒体资源的特点的基础上,结合Web网页中与多媒体资源相关的上下文环境及HTML标签的语义来实现能够自动采集多媒体资源的应用。

关键词:多媒体;HTML语义;数据采集

随着计算机技术、通信技术和互联网技术的迅速发展,网络已成为当今人们获取信息的重要途径,各种网络资源应用对人们的学习和生活的影响也日渐深刻和广泛。多媒体资源作为网络资源的重要组成部分,具有形象、生动、直观、信息量大的优点,不受时间和空间的限制,能够情景再现,动静结合,将抽象的内容具体化、复杂的问题直观化,刺激学习者的感观和想象能力,激发学习兴趣,使学习者在短时间内获取尽可能多的信息。但是面对浩瀚的网络世界里的多媒体资源爆炸式增长,学习者想要快速、准确地找到所需要的内容往往是件不太容易的事情。教师们备课时需要在网络上不断寻找资源并整理加工,在重复的劳动中消耗时间和精力,能够高效地将所需资源整合起来为工作和学习所用较困难。

在互联网世界中绝大多数的多媒体资源载体是基于Web网页形式存在的。因此,如果实现一种自动采集Web网页上的多媒体资源数据功能的应用,将能大大提高学习者效率,减轻学习者因资源收集所带来的压力,转而将时间和精力集中到学习本身上,将起到事半功倍的效果。

目前,多媒体采集方法主要有基于内容和基于文本的多媒体信息提取,其中前者很大程度上依赖于对采集条件的精确描述程度,另外对于多媒体信息的深层语义分析还很困难,相对来说基于内容的多媒体采集技术还不是很成熟。

在Web网页中的多媒体资源总是处于一定的上下文环境中,它们的语义与上下文环境有着密切的关系。从多媒体资源所在网页的标题、文件名、周围文本等相关信息中可以提取出反映多媒体资源的主题、主体等关键信息,对多媒体资源采集具有重要意义,因此,基于文本的采集方法更成熟,采集命中率更高。

1 多媒体资源的特点

目前所说的多媒体资源主要包括文本资源、图片资源、音频资源、视频资源、动画资源等几类。

文本资源:是指计算机中的文字内容,是最有效、快速传播知识信息的媒体元素。Web中的文本资源主要是以HTML中的文本标记来标记文字或以附件文件的形式下载,主要有TXT,DOC,WPS等格式。

图片资源:生动直观,很容易被认知和接收,是多媒体资源库中最重要的资源之一,也是决定多媒体应用视觉效果好坏的关键因素。Web网页中常见的图像格式有JPEG,GIF,PNG等。其中,JPEG格式图片占用空间小,是web网页中最常见的图像格式;GIF支持简单动画及透明效果;PNG结合前两者优点,不失真,文件小,能显示透明图像。

音频资源:音频资源媒体一般以分为音乐、语音和效果音。Web 中常见的音频格式有WAV,MP3,WMA,MIDI等格式。其中,WAV格式示压缩,用于声效和背景音乐;MP3格式压缩率高,文件小,音质好,支持流媒体在线播放,适用于网络传输;WMA格式是带版权保护技术,压缩率更高,音质强于MP3;MIDI格式是一组声音信息指令,占用空间小。

视频资源:视频资源包括生活录像、影视剪辑、新闻报道等视频影像资料都可以作为多媒体教学的视频资源。Web中常见的视频格式有FLV,MPEG,AVI等。其中,FLV格式文件极小、加载速度极快,支持流媒体,是目前主流的Web网页视频格式。MPEG格式是运动图像压缩算法的国际标准,在视频中应用广泛。AVI格式没有压缩,图像质量好,但是文件大。

动画资源:它可以将抽象的内容清晰地展现出来,将复杂的流程动态地演示出来,使学习内容变得既直观又简单。网页中的动画最常见的格式是SWF格式,由于SWF格式文件占用空间很小,采用了流媒体技术,因此被广泛应用于Web网页中,普及率很高。

2 基于Web网页的多媒体资源分析

Web中的多媒体资源作为网页的组成部分与文本混合嵌入在Web 网页中,同时又以独立的文件形式保存在Web 服务器中。因此,Web网页中的多媒体包含两方面的属性:文件属性和内容属性。多媒体的文件属性指文件名、文件类型、文件大小等信息。内容属性是对多媒体数据所包含信息的描述。不同类型的多媒体文件具有不同的内容属性,如图像的主色调、视频的关键帧等。

图像的文件属性有图像文件名、类型、大小、URL等相关数据;图像的语义属性包括图像所表现的主题、事件、场景以及图像中物体的名称、姿态、空间关系等语义信息。

视频是一系列片断的表达,每个片断可分为若干个场景,进一步分为多个镜头。包含文件、语义属性。其中语义属性包含视频标题、类型和内容描述,可以从网页的上下文关联环境中提取得到。其中类型又有电影、科技、教育等。

动画在Web网页上使用最多的为Flash动画和GIF动画。其中语义属性包含动画标题、类型、描述,可以从网页相关上下文中提取得到。其中类型有教学型、娱乐型、交互型等。

音频包括语音、音乐和其他的波形声音。音频标题、类型、描述,可以从网页上下文中提取得到。其中类型可分为语音、音效、歌曲、音乐等。

3 多媒体资源的采集

Web网页中是采用HTML语言来描述的。HTML即超文本标记语言,是一种简单、通用的文本标记语言,可以制作包含文本、图像、声音、视频、动画等内容的网页,并可以提供各网页之间的链接。Web 中的各种多媒体资源通过 HTML 语言嵌入到网页中,Web浏览器下载用HTML 标记过的文件,并对文件中的标记进行解释,使用户在屏幕上看到结构化的包含文字、图像或其他各种多媒体资源的网页页面。

HTML标记语言通过标签来描述各种资源,且每个标签都有它各自的含义。如文字用标签标记的表示是标题,

标签标记的内容为一段落内容。项目列表标签如