B 站学习类视频的收藏数及其影响因素分析

2024-01-17 13:43丛钰汶
科技创新与应用 2024年2期
关键词:学科分类弹幕标签

丛钰汶

(成都信息工程大学,成都 610000)

B 站原名哔哩哔哩,早期是一个ACG(动画、漫画、游戏)内容创作与分享的视频网站。经过十年多的发展,围绕用户、创作者和内容,构建了一个不断产生优质内容的生态系统,近年来在B 站平台上有大量的教育学习内容涌入。据B 站统计,2018 年教育直播内容时长达到惊人的146 万h,仅2019 年就有1 827 万用户前往B 站进行学习,2021 年B 站知识类创作者数量激涨,涵盖众多专业领域,多所高校与专业学院入驻B站并进行创作分享,与此同时B 站学习人数激增,突破了1.83 亿。

学习类视频作为在线学习的重要资源,对于知识传播和教育发展具有重要意义[1],优秀的学习类视频对平台和用户的价值更大,视频创作者更加期望深入地理解视频制作,创作出更多更受欢迎的视频。近年来,许多的学者开始关注视频的特征和用户行为,研究视频本身的特征对用户的影响和意义。汤志鹏[2]利用循环神经网络(RNN)对用户的长期兴趣进行建模,在其研究中发现,视频的特征对用户行为有着较为明显的影响;另外,刘磊等[3]从视频的受众、内容、营销等角度切入分析,研究高认知度短视频的特征;徐鹏宇等[4]则通过数据挖掘等分析方法,研究视频中的标签等因素对于用户评价和收藏的影响;杨阳等[5]基于弹幕的用户画像描述了用户的行为模式,有助于弹幕视频平台理解用户的需求与偏好,针对性地改善平台的内容与服务,以增强用户参与度和忠诚度。在视频特征的研究方面,姜玲[6]研究图书馆短视频特征,用内容分析法对短视频特征作总结;高馨[7]调查研究图书馆抖音号,分析了高传播视频的特点。他们的研究对推动视频制作更加符合用户行为习惯起到了很好的作用,这些研究问世以来,帮助了视频的推广和质量的提高,本文在这些研究的基础上进行进一步细化,在细化视频类别中进行研究。

本文主要研究学习类视频的收藏数,分析学习类视频本身的特征对其收藏数的影响,研究方法是采集学习类视频的数据,对这些视频数据进行学科分类,提取视频的标题信息,通过逻辑回归模型,定性分析学习类视频的收藏数、影响因素,以及收藏数和影响因素之间的关系。

1 学习类视频特征分析

1.1 数据来源

本文数据来源于B 站学习类视频的弹幕网[8-9],通过爬虫软件爬取视频信息,抓取时选取前1~50 页的所有视频共计2 945 条。对收集到的视频信息进行存储整理,提取相关信息并分类,把这些视频信息分为3 类,第一类是视频和观众互动程度的指标:播放量、弹幕总数、点赞数、分享数;第二类是视频自身的特性指标:视频时长、标签数量、视频标题;第三类是作者特性指标:发布者作品数量。其中:视频中的硬币数归类为点赞数,平台为用户设置了如果对视频满意可以投币和点赞,标签数量包括发布者添加的描述性关键词的数量,这些标签一般用于帮助用户快速查找,也用于平台自动推荐和匹配用户。对这些视频的特征信息通过相关性建立数据关系,以视频的收藏数作为因变量,以视频的其他各种信息特性指标作为自变量,形成视频信息研究的变量表见表1。

表1 视频的特性指标变量表

在进行相关性分析前先对爬取的视频数据进行预处理,数据预处理包括删除异常值和删除缺失值。

1.2 特征分析

在异常值处理和缺失值处理之后,首先对学习类视频信息中的弹幕总数、投币数、收藏数、点赞数和分享数进行描述性统计分析[10-11],绘制收藏数和视频数量的关系条形图如图1 所示。

图1 收藏数条形图

通过分析收藏数和视频数量关系的条形图能直观发现,收藏数较高的视频数量很少,只占整个数据集的小部分,大量的视频的收藏数很小,分析影响收藏数的因素有很大的实用意义。因此,再来重点分析这些收藏数很高的视频有哪些特征,对这小部分获得高收藏的视频进行分析,能了解学习类用户的兴趣特点,能提出明确的对视频制作的建议,而且这些建议能有效提高视频被采用的效率。根据采集到的视频数据计算,本文定义高收藏学习类视频是指收藏数高于平均水平(11 327.38)的学习视频。

对高收藏学习类视频的收藏数按发布时间分别绘制箱线图,如图2 所示。其中发布时间按季度划分,作为箱线图的横坐标,收藏数为纵坐标。

图2 收藏数和发布时间箱线图

箱线图显示在7—9 月和10—12 月这2 个时间段内,视频的收藏量普遍较高。分析这段时间里发布者和用户的情况,发现这段时间是学校暑假和节假日,视频创作者有更多的时间制作视频,而且夏季和年末是学生放假和休假的时间,有更多的空闲时间来浏览和收藏视频内容,相比其他时间两者的配合度会更高。

对视频收藏数和标签数的关系绘制散点图,如图3 所示。从图3 中可以看出,收藏率高的视频标签数量也维持在较高的范围,说明视频的标签越多,就越容易被搜索到也就会有更高的收藏数,但是同样发现有很多低收藏视频具有较多的标签数量,只有高质量的符合用户需求的学习类视频获得了收藏。

图3 不同标签数的收藏数散点图

2 视频学科分类和标题分析

在分析学习类视频的关键特征时,注意到学习类视频的视频学科分类很多[12],不同的视频学科分类会吸引不同的受众,因此需要分析不同视频学科分类的视频在收藏数上的差异,在学科分类分析中,提取视频信息采用TF-IDF 量化标题传达的信息量,得到每个视频标题信息得分。

2.1 视频标题分析

首先,对视频标题进行分词和词频统计,随后,采用TF-IDF 技术[13]来量化分析视频标题的信息量。TF-IDF是一种文本处理技术,用于计算一个词在文本中的重要性程度。TF-IDF 的定义是:TF-IDF=TF×IDF。其中TF 是词频,表示某一词汇在文档中出现的频率,IDF 是文本频率,表示一个词语重要性的度量。对每个标题所含词语的TF-IDF 值求和作为整个标题的信息得分,分别选取信息分数最高的6 个视频标题和最低的6 个视频标题进行对比,见表2,可以明显看出他们传递的信息差异。

表2 视频标题信息对比表

信息分数高的视频标题能突出视频的特点和优势,比如提供学习和解决问题的方案和方法,并使用了高频词汇和关键词,能够吸引观众的兴趣和好奇心,从而提高视频的收藏量。信息分数最低的视频标题则因为没有明确的特征,内容相对较为简单,不能传达明确的视频主题和内容,难以吸引观众的兴趣和注意力。

2.2 视频学科分类

根据LDA 主题模型[14]对视频标题进行学科分类,在分类中如果分类主题数设置为5 时,各个类别区分度较高。因此采用5 个分类类别,分类如图4 所示,根据每个类别的高频词情况,将各个类别分别命名为“考研课程”“零基础入门自学教程”“计算机相关教程”“艺体相关教程”“高中课程”。

图4 词云图

3 收藏数及其影响因素分析

逻辑回归[15-16]是一种广泛应用于分类问题的统计学习方法。二项逻辑回归模型是如下的条件概率分布,式中:x 是输入,也就是播放量、弹幕总数和点赞数等变量,Y 是输出。

为了深入研究高收藏学习类视频的特征,将所有视频按照收藏数是否超过11 327 次分成了低收藏和高收藏2 类,并将标签数、视频数、发布时间以及视频时长、视频学科分类和标题信息得分作为自变量建立逻辑回归模型,视频学科分类变量使用LDA 主题模型分类结果,标题信息得分使用TF-IDF 技术对标题信息量进行衡量。变量说明见表3。

在视频学科分类中以零基础入门教程为基准组,在发布时间分类中以发布时间1—3 月作为基准组,在时间长度上以时长0.5 h 内的视频作为基准组,构建逻辑回归模型。回归结果见表4。

表4 回归分析表

4 结论

通过分析研究影响视频收藏数的因素,对影响变量建立逻辑回归模型,进行统计分析,得到视频学科分类、视频时长、视频发布时间、标题信息得分和视频标签数量这5 个变量对收藏量影响显著。得出如下结论:

1)不同学科视频的收藏数差异很大,计算机和艺体相关视频收藏数远远高于其他类别视频。

2)在相同学科分类的视频中,视频时长大于1 h后收藏数就大大增加。

3)视频发布时间对收藏数有显著影响。在7—9 月和10—12 月这2 个时间段发布的视频获得更多收藏。

4)视频标签数量对收藏数有显著影响。

5)标题信息得分对收藏数有显著影响。

根据以上结论发现:计算机和艺体领域具有普遍的需求性,一些技术要点需要用户反复观看和模仿,因此这类视频得到广泛的收藏;长时长的视频能够提供更全面、详细的内容,满足观众对深入学习和全面了解的需求,从而增加视频的收藏和分享;7—9 和10—12 月,这些时间段刚好是学校假期和节日大假时间,有很多人在这段时间寻找相关学习内容;在上传视频时添加大量标签,就容易被用户查询到,也能得到平台的有效匹配,从而能获得大量用户的观看和收藏;通过采用有吸引力、描述准确的标题,可以增加视频的曝光度和吸引力,进而增加视频的收藏数量。

猜你喜欢
学科分类弹幕标签
弹幕
HOLLOW COMFORT
“弹幕”防御大师
一大拨弹幕正在向你袭来……
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
高校二级学院科研管理模式研究
审计学成为一级学科可行性研究
中医药信息学教育发展历程回顾与学科发展现状分析
标签化伤害了谁