基于图文混排的传统服饰图像以文标图算法

2021-07-12 01:16赵海英高子惠侯小刚

图学学报 2021年3期

赵海英，高子惠，邓恋，侯小刚，李宁

基于图文混排的传统服饰图像以文标图算法

赵海英1，高子惠2，邓恋2，侯小刚1，李宁1

(1. 北京邮电大学人工智能学院，北京 100876；2. 北京邮电大学数字媒体与设计艺术学院，北京 100876)

针对高效解读和智能处理海量图文资料是一项极具挑战并具有实用价值工作，而自动标注精度又面临依赖训练样本的难题，提出了一种基于数字图文混排书籍以文标图方法，由混排版式识别预处理、领域图像语义标签构建和大标签空间以文标图算法3部分组成。首先，通过提出的混排版式识别离算法，提取数字图文混排版式中图像、标题及描述文本等内容。然后，基于数字服饰图像语义标签，建立传统文化领域词库(PatternNet)，最后针对领域词库标签空间特点，提出一种改进大标签空间的以文标图算法，并在服饰类图文混排书籍上进行仿真实验，通过对比其他数据集，验证了该算法的实效性。

以文标图；图像标注；图文混排处理；领域关键词提取

面向传统文化数据的挖掘和分析研究中，急需对海量数字图文资料进行解读与标注，提升对优秀传统文化的传承和创新应用能力，大量对文化资源进行合理组织与管理的方法被提出[1-3]。但相比自然场景中的花、草、树、鸟、云、山、海等解读对象而言，传统文化数据中的研究对象除视觉特征和实体名称外，更具有丰富的文化内涵作为其高层语义。如何构建一套规模较大且标注较为专业的文化资源标注词库成为急需解决的关键问题。

图1是截取明代服饰中的一部分传统纹样图，又名鸾凤图，其是一类代表吉祥、富贵寓意的服饰纹样。大众在解读或标注这张图时，多打上“鸟”、“凤凰”等视觉表象、甚至错误标签，更无法完成深层文化寓意的标注，而通过领域专家为这些具有文化寓意的海量图像进行手工标注不具可操作性。因此，从大量权威专家撰写的文献、书籍入手，选择与实验室合作多年的领域专家编著出版的图文书籍，利用图文处理和文化计算[1]等方法对数字文化资源进行梳理、提炼和挖掘，构建具有领域知识标注的传统文化图案语义标签库(PatternNet)，不仅为大规模文化数据的分析、关联模式发现提供基础数据，而且以不可替代的方式，让人类感受到传统文化的厚重。

1 国内外研究现状

文化资源数据是人类认识世界和人类本身的重要源泉，具有极高审美和传承价值。但由于标注、解读需要较高的专业门槛，目前在规范元数据基础上，主要依赖人工标注。但在一些非传统文化领域的自然场景中，国内外学者已经在结合图文混排信息的图像标注方法上做了大量的探索和研究工作[4]，实验室团队也做了大量前期尝试[5]，其核心是如何融合图像及其关联文本等多模态信息。目前，图文混排信息图像标注方法可以分为基于主题模型、矩阵模型、文本挖掘、深度学习等方法。其中基于主题模型方法是融合图像和文本特征的常用方法，该方法将带标注的图像视为特定主题组合的样本，其中每个主题都是图像特征和标注词的概率分布，典型算法包括LSA[6]、pLSA[7]、LDA[8]等。基于矩阵模型的方法，主要包括HOTELLING[9]提出的CCA模型，ANDREW等[10]提出的DCCA模型等，核心是构建图像语义特征与文本特征的融合一致空间。而基于文本挖掘的方法，具有代表性的是WANG等[11]提出依赖图像不同权重的关联文本进行单词提取的方法。表1是非文化资源标注数据集。

图1 凤鸾纹样图(左鸾右凤)

表1 不同数据集对比

为了有效地检索、挖掘和利用国家文化大数据资源，本文提出一套基于领域专家编著出版的图文混排数据进行图像自动标注，不仅弥补了数字文化图像元数据标注存在的不足，而且提高了专业标注数据监督标注精度，最重要的是构建了一套面向文化资源的语义标注体系和传统文化图案语义标签库PatternNet，为领域知识自动标注提供了基础数据基础。

2 基于图文混排数据的以文标图算法

图文混排领域书籍图像标注方法主要由图文混排版式识别、领域图像语义量化标签构建和以文标图算法组成，结构如图2所示。图文混排版式识别模块负责对图文混排数据中图像、文字及其关联文本进行自动检测与提取，为以文标图算法提供基础数据；传统文化图案语义标签库(PatternNet)模块为文化领域图像学习标注提供语义元数据以及领域词库，为多模态以文标图算法汇聚并提供领域专家知识。多模态以文标图算法模块充分利用图多模态关联信息、语义标签体系和领域知识完成图像语义抽取与标注。

图2 图文混排领域书籍以文标图算法结构示意图

2.1 一种书籍版式识别算法

本文将研究目标聚焦于服饰、服装以及服饰纹样等类别的专业领域书籍。为方便对版面图像进行多模态以文标图，首先需要较为精准地识别页面中的图像及其关联文本等信息。在版式识别中解决图文原真提取、标题正文区分定位以及混合版式识别需要多次重定位版式等问题。本文分析对比了之前的工作[5]，提出了一种根据位置权重的图文混排版式识别算法，该算法细化位置和图像尺度等级，利用空间关系自动识别领域书籍中图像、位置标题和正文描述等数据体。如图3所示，红色框代表图像区域，绿色框代表描述文本区域，青色框代表标题区域，其中图像区域可通过直接裁剪后得到分离子图；而标题和描述文本区域的识别与提取，是通过引用SynthText[8]算法生成的含有中英文自然场景的数据集训练CRNN模型[12]实现。

图3 图像文本区域检测效果图

2.2 传统文化图案语义标签库构建

本文聚焦于传统服饰文化图文数据，其是传统文化图案最具代表性，也具有普适的研究对象。

2.2.1 传统服饰语义标签体系构建(costume culture semantic element，CCSE)

传统服饰图像历史悠久，纹样形态，寓意丰富，如何构建一个科学、规范、符合文化特点的标签体系是一个科学问题。本文采用多层级深度挖掘服饰图像本质属性，并通过调研博物馆馆藏信息指标体系规范、DC元数据、COCO元数据等国内外元数据指标。构建一套传统服饰图像语义标签体系，从视觉层、本体层和语义层，全面阐释传统服饰图像内涵。

TF-IDF：从相关文物保护、民俗文化传承网站等基础词频，挖掘传统服饰相关属性。

博物馆馆藏信息指标体系规范：根据服饰文化特有属性抽取共同的，必不可少的类目作为传统服饰图像元数据属性，用于增强普适性。

DC元数据：将DC元数据放入体系中，最大限度提高标准普适性。

传统服饰图像之间存储潜在关系：龙袍上有龙，而龙的周围有较大概率存在祥云。基于领域专家知识，广泛地发掘这种关联联系，使标签体系能够充分体现服饰文化价值，传统服饰图像语义标签体系字段见表2。

表2 传统服饰图像标签体系字段

2.2.2 传统服饰文化图案语义标签库(PatternNet)构建

PatternNet首先是一个传统文化语义标签，其次是在未来将成为文化语义层面围绕概念、基因、知识等文化要素，建立其关联关系的文化知识图谱。PatternNet目的在于将众多具有传统文化传承意义的文化资源链接起来，并分析其关联性。故在大众看来，PatternNet作为一个传统文化图案语义标签库，未来不仅在同类文化资源数据量上占有优势，而且不可忽视其数据背后的技术体系和复杂语义网络。实事上，PatternNet不单纯是一个机械性累积文化数据资源的机器，也不是一个将原生资源直接呈现的容器，而是通过挖掘数字资源关联性，使文化数据可以转化为文化知识，从而生成文化知识图谱，其数据模型如图4所示。

图4 服饰文化数据模型示意图

如何提取领域词汇是PatternNet构建的关键。在图文书籍中包含大量具有特殊文化含义的专业术语和词汇，比如“龟兹服饰”、“卷草纹”、“莨苕图案”、“涡卷纹”等，借助目前经典分词工具难以切分并提取较为准确的文化领域专业术语。因此，本文以领域专家标注、历史文献、专业书籍等资料为数据源，数字化采集后，通过清洗、整理等操作后，得到图文4 000余张。然后以传统服饰图像标签体系为指导，分别对名称、寓意、构型、民族、年代、地域、色彩、工艺美术、其他字段进行领域术语描述，构建PatternNet。为了丰富领域词汇表，首先扩大人工收集整理书籍数量，同时引入Word2vec实现对初始领域词汇表近义词的扩展，最后迭代优化，构建面向领域专业的语义标签库。PatternNet在构建中，无需预先对信息进行聚合重用，而是采用动态更新模式，以适应更多的使用情景。在一定程度上解决了自动标注需要大量图文标注样本，同时为领域专业语料库构建提供了基础数据和技术路径。随着数据集的迭代优化一个具有资源关联、语义联配的文化图像语义标签库可以实现。本文围绕服饰、纹样类型的图文混排书籍展开论述，各类别部分关键词见表3。

表3 领域词库部分关键词

本文团队收藏了大量人文艺术书籍，尤其服饰纹样书籍数量庞大，虽然历经7年多数字化整理(由于专业性不够)，最重要的是由于领域要求高，提取的词汇难以全面覆盖。因此本文提出一种改进目标策略的领域新词发现算法，从数字人文艺术书籍的短文本中自动发现领域新词，并通过动态更新扩展领域词库，具体如下：

输入：图文混排书籍。书籍按文档而标识；

输出：书籍文档的新词。

1. 初始化图文混排数据集。

2. 循环：

(1)选择第篇文档；

(2)分词：利用jieba分词工具对OCR识别出的文本内容进行中文文本分词，去除常见的停止词(如“的”、“是”、“因为”、“所以”等)；

(3)统计候选词组：统计多元词组出现在句中频度，并引入n-gram模型，构建行元词组去除重复且低频词组；

(4)综合优化：由于去除部分停止词，致使组合在一起的元词组不一定保留原位置中，故降低新词发现算法效率和新词识别率，优化过滤不存在文本段落词组；

(6)如果完成所有文档，则停止循环进入下一步。

3. 更新书籍文档，返回第2步。

由于人文艺术书籍范围广、领域词汇专业强、领域词汇覆盖面宽，造成新词发现的质量不高，甚至一些错误或垃圾词组都被抽取，故本文提出一套经领域专家审核流程，经审核后才能添加到领域词库中，其优化流程如图5所示。

图5 基于新词发现的优化流程示意图

2.3 基于PatternNet的以文标图算法

基于图文书籍的新词发现算法，构建的PatternNet是一个标签丰富的大标签空间。为此，本文以大标签嵌入为核心，结合深度学习，提出一种改进大标签嵌入空间的传统服饰图像以文标图算法。算法模型包括标签网络构建、标签嵌入空间映射、样本特征回归以及解码学习器的构建，最终完成模型训练以及对未见样本示例预测。

本文训练阶段算法描述为：

输出：模型参数。

测试阶段算法描述为：

输入：未见示例x。

本文算法考虑了PatternNet数据样本正向样本不平衡的问题，故在构建标签网络结构考虑标签相关性，并对标签网络权重进行了修正。

3 实验结果与分析

3.1 数据集

本文实验所用的数据集为传统文化图案标签库PatternNet(表4)，其从数据源上保证了图文资料的专业性与可靠性。本文通过“图+数字”在全文搜索匹配，把匹配到的区域进行检测分离出3类信息(信息簇)，分别是标题、标题对应的图片、图片对应的正文描述，最终获得近4 000余张图文信息簇，本文在领域专家的指导下对这些图文信息簇的图像进行人工标注作为ground truth，以计算本文算法的性能指标。

表4 PatternNet数据集

3.2 评价指标

本文在不同数据集上利用经典算法以及标签嵌入的相关算法与本文算法进行比较实验，参与实验的经典算法[13]有ML-KNN，RAKEL和Rank-SVM。标签嵌入相关算法有LNEMLC，CLEMS。实验采用随机取样的交叉验证方法进行评价指标统计。One-error，Coverage，Ranking-loss以及Hamming-Los指标值越小表明算法在其上的表现越好，Average-precision则是值越高表明算法在其上的表现越好越好。

3.3 实验结果

在不同数据集上对比已有算法和本文所提算法，并采用随机取样的交叉验证方法进行评价指标统计。表5是本文算法在各数据集上的实验结果，从中可以看出本文算法在Ranking-Los上仅次于Rank-SVM，在Coverage，Average Pre及Hamming-Los指标上优于其他算法。

其次，为了证实本文所提出关键词算法，在考虑了信息簇的位置和语义情形下，更具优势。本文选择沿用TF-IDF[14]和TextRank[15]算法作为算法对比，仿真结果见表6。

表5 本文算法在不同数据集上的对比

表6 图像文本关键词提取实验对比结果

对比文献[5]可以看出，本文提出的基于语义和位置的关键词提取具有较大的性能提升，分析其原因是PatternNet领域词库和新词发现算法的优化，使得更多领域词汇被识别、提取出来。同样可以看到增加关键词抽取数量仍然能够有效提升算法的召回率，但也会随着数量的增加而引入“噪声”词语。

本文在所提算法的基础上，搭建了人文艺术书籍标注系统，实现了对传统文化研究应用中图文资料版式识别和图像的标注任务。图6给出了本文图文混排领域书籍以文标图算法结构示意图，图7给出了人文艺术书籍以文标图系统工作界面，该系统的主要功能有混排版式识别、领域词库构建和大标签空间图像标注。用户通过上传要待处理资料(图7左)，点击“版式识别”按钮即可对该页面进行图文识别(图7中)，点击“以文标图”按钮可对当前图像利用本文提出的基于领域词库以文标图算法得到该图像标签字段(图7右)。

图6 图文混排领域书籍以文标图算法结构示意图

图7 图像文本区域检测效果图

4 结束语

现有图文对自动标注算法，主要应用于普通web网页以及社交媒体网站上的图文混排数据，缺少能够应用于专业领域图文混排书籍的以文标图算法。本文将研究内容聚焦于文化领域的图文混排书籍标注。随着数字化进程加速，各类图文书籍的数字化数量剧增，但人工标注或处理难度也在增加，如何提高数字图文数据智能处理，尤其自动标注图文内容是极具挑战的难题。本文提出一种书籍图文混排版式识别算法，并通过构建服饰语义标签体系，通过专业领域的新词发现算法，对多模态数据实现以文标图，为数字图文数据智能处理和标注理解提供了算法支撑。但目前本文提出的面向图文混排数据的以文标图算法还存在一些问题。首先，由于关联文本中通常存在着大量图文无关的冗余信息，难以准确确定标题、图片以及正文描述的位置和权重，领域书籍宽泛，导致以文标图算法提取领域词汇极为丰富，常见大标签空间算法难以有效解决图像标注问题。未来实验室的研究仍然围绕自动标注和以文标图2个方向，但以文标注主要聚焦领域词汇的专业性和结构化处理，而自动标注是围绕PatternNet作为训练样本的数据驱动模型优化等展开研究。

[1] 赵海英, 陈洪, 贾耕云,等. 基于字典学习的民族文化图案语义标注[J]. 中国科学: 信息科学, 2019, 49(2): 172-187.

ZHAO HY, CHEN H, JIA GY, et al. Semantic annotation of national cultural patterns based on dictionary learning[J]. Scientia Sinica: Informationis, 2019, 49(2): 172-187 (in Chinese).

[2] 银宇堃, 赵海英. 民族服饰图案语义标签体系构建研究[J]. 图学学报, 2018, 39(5): 926-932.

YIN YK, ZHAO HY. Study on semantic-tag system constructing based on national costume pattern[J]. Journal of Graphics, 2018, 39(5): 926-932 (in Chinese).

[3] 赵海英, 郑桥. 基于字典学习的传统民族服饰多标签标注算法[J]. 华中科技大学学报: 自然科学版, 2021, 49(3): 18-23.

ZHAO HY, ZHENG Q. Multi-label annotation of traditional ethnic costume based on dictionary learning[J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2021, 49(3): 18-23 (in Chinese).

[4] 刘伟权, 王明会, 钟义信. 应用两种神经网络模型自动标注汉语词类[J]. 北京邮电大学学报, 1997, 20(2): 42-48.

LIU WQ, WANG MH, ZHONG YX. Automatic grammatical category disambiguation using two kinds of neural network models[J]. Journal of Beijing University of Posts and Telecommunications, 1997, 20(2): 42-48(in Chinese).

[5] 李宁. 面向图文混排数据的多模态信息融合标注系统研究与实现[D].北京: 北京邮电大学,2020.

LI N. Research and implementation of multimodal information fusion annotation system for image-text mixed data[D]. Beijing: Beijing University of Posts and Telecommunications, 2020 (in Chinese).

[6] DUMAIS S T. LSA and information retrieval: getting back to basicsl[M]//Handbook of Latent Semantic Analysis. New York: Psychology Press, 2007: 293: 322.

[7] MONAY F, GATICA-PEREZ D. PLSA-based image auto-annotation: constraining the latent space[C]//The 12th Annual ACM International Conference on Multimedia - MULTIMEDIA '04. New York: ACM Press, 2004: 348–351.

[8] BLEI D M, JORDAN M I. Modeling annotated data[C]// The 26th Annual International ACM SIGIR Conference on Research and Development in Informaion Retrieval. New York: IEEE Press, 2003: 127-134.

[9] HOTELLING H. Relations between two sets of variates[J]. Biometrika, 1936, 28(3/4): 321-377.

[10] ANDREW G, ARORA R, BILMES J, et al. Deep canonical correlation analysis[EB/OL]. [2021-01-05]. https://www.researchgate.net/publication/255482849_Deep_Canonical_Correlation_Analysis.

[11] WANG X J, ZHANG L, LI X R, et al. Annotating images by mining image search results[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(11): 1919-1932.

[12] SHI B, BAI X, YAO C. An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

[13] SALTON G, BUCKLEY C. Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management, 1988, 24(5): 513-523.

[14] ZHANG M L, ZHOU Z H. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern Recognition, 2007, 40(7): 2038-2048.

[15] MIHALCEA R, TARAU P. Textrank: bringing order into text[C]//2004 Conference on Empirical Methods in Natural Language. Stroudsburg: Association for Computational Linguistics, 2004: 404-411.

A method of automatic image annotation for image-text mixed domain books

ZHAO Hai-ying1, GAO Zi-hui2, DENG Lian2, HOU Xiao-gang1, LI Ning1

(1. School of Artificial Intelligence, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2. School of Digital Media and Design Arts, Beijing University of Posts and Telecommunications, Beijing 100876, China)

Efficient interpretation and intelligent processing of massive text and text data is a very challenging and practical work, but the accuracy of automatic labeling is highly dependent on the quality and quantity of training samples. In this paper, an image annotation method of images and text data mixed information is proposed. The method consists of three parts: adaptive image and text separation preprocessing, domain image semantic label construction and text-based image annotation algorithm. Firstly, the proposed hybrid layout recognition algorithm is used to extract the image, title and description text in the hybrid layout of images and text data. Then, the Traditional Cultural Domain Lexicon (PatternNet) is established based on semantic tags of digital clothing image. Finally, according to the characteristics of domain lexicon's tag space, a text-based image annotation algorithm is proposed to improve the large tag space. The simulation experiment is carried out on the ethnic costumes books that images and text data hybrid layout, also compared with other data sets. The experimental results verify the effectiveness of the algorithm proposed in this paper.

annotation image with text; PatternNet; digital image-text processing; domain keyword extraction

TP 391

10.11996/JG.j.2095-302X.2021030398

2095-302X(2021)03-0398-08

2021-04-22；

2021-05-19

22 April，2021；

19 May，2021

北京邮电大学基本科研业务费科研项目(2020RC26)

Basic Scientific Research Funds of Beijing University of Posts and Telecommunications (2020RC26)

赵海英(1972-)，女，山东烟台人，副教授，博士。主要研究方向为文化计算与媒体数据挖掘。E-mail：zhaohaiying@bupt.edu.cn

ZHAO Hai-ying (1972-), female, associate professor, Ph.D. Her main research interests cover cultural computing and media data mining. E-mail: zhaohaiying@bupt.edu.cn

侯小刚(1984-)，男，甘肃天水人，工程师，博士。主要研究方向为图像处理。E-mail：houxiaogang05@bupt.edu.cn

Hou Xiao-gang (1984-), male, researcher, Ph.D. His main research interest covers image processing. E-mail: houxiaogang05@bupt.edu.cn