面向包装印刷行业的产品设计主题词提取算法

2015-03-02 12:09胡威
软件导刊 2015年1期
关键词:产品设计

胡威

摘要:包装印刷行业的产品设计与众多设计要素相关。传统的产品设计依赖于设计者的主观判断,设计效率较低。可以通过对网络数据的分析提供相应的支持。需在进行文本分析时,现有主题词提取算法中,特征项的选择往往只与文本本身的特点有关,而与包装印刷行业的产品设计要素无关,导致主题词提取效率较低。通过增加设计要素权重因子,构建CF-TF-IDF权重函数,可提高特征项选择效率,并降低提取时文本的特征项维度。实验表明,基于CF-TF-IDF的设计要素主题词提取算法具有更高的准确率和处理效率。

关键词:包装印刷;产品设计;特征项;主题词提取

DOIDOI:10.11907/rjdk.143959

中图分类号:TP312

文献标识码:A 文章编号文章编号:16727800(2015)001005403

0 引言

产品设计是包装印刷行业的核心工作之一,其与众多的设计要素具有密切的关系。传统包装印刷行业的产品设计依赖于设计者的主观判断,使得产品设计往往与实际设计需求脱节,缺少足够的设计参考。通过对网络数据进行分析,可以及时准确获取与产品设计相关的设计要素的发展趋势,从而为设计提供支持。为获取有效数据资源,首先要对网络数据的主题词进行抽取[1,2]。但由于包装印刷行业的产品设计具有其行业特点,现有主题词抽取方法往往较关注主题词本身的抽取,难以满足产品设计要求。

本文分析包装印刷行业设计要求,提取产品设计的关键要素。在此基础上,对网络数据进行分析,提取与关键要素相关的主题词,再以此为基础来进行数据分析。以包装印刷行业的产品设计要求来进行数据抽取,为实际产品设计提供高效的数据支持。

1 主题词提取研究现状

大量网络数据以文本的形式存在。要获取有效的数据资源,就需要对文本进行分析,获取文本的主题词,即主题词提取。所提取的主题词在对文本进行分析时,被用作文本主题的描述词[3]。主题词是面向信息索引和检索的标准化语言,是信息检索的基础。国内外对主题词提取已开展深入探索和研究。

对于小规模文本,通过提出相关的文本内容能够提供主题词提取线索,从而达到从给定文本中提取主题词的目标[4]。在此方法中,由于充分利用了相关文本所提供的线索,从而能同时处理文本摘要:和主题词提取。对于英文主题词提取而言,由于英文语言本身的特点,关注点主要是进行词干加工。因此,可以构建出对英文文本的主题词自动提取系统[5],由于不需要进行分词处理,因此系统效率较高。中文文本的主题词提取,可以从语义的角度进行分析,构建出语义网络,使用概念之间的匹配来进行处理[6]。通过这种方法能够解决传统方法以关键词:进行主题词提取的缺陷。通过对词频率进行分析,同样可以进行主题词提取。通过增加文本预处理环节,能够进行合成词的识别,进而提高主题词提取的满意度[7]。

通过主题词提取,能够获取文本内容的基本描述。现有的主题词提取方法主要关注于一般文本内容,缺少对行业应用领域的背景分析。通过对包装印刷行业产品设计要素进行分析,将产品设计要素与主题词的提取进行关联,从而提高数据资源获取效率,为包装印刷行业产品设计提供参考。

2 基于产品设计要素的主题词提取算法

2.1 包装印刷行业的产品设计要素分析

包装印刷行业中的产品设计,不仅是对产品本身特点的关注,与应用场景密切相关,还需要与众多的外在设计要素进行关联。而应用场景往往随着时间而发生变化,这就要求产品设计能适应应用场景的变化,满足新的设计要求。应用场景的变化与热点事件、用户群体特性、时节、地域等多种外在因素相关。这些外在因素往往能在互联网上以文本形式出现,并及时更新。因此,通过分析互联网上的文本,能够及时、有效地了解潜在的设计要求与设计趋势,从而为产品设计提供支持。

定义包装印刷行业的产品设计要素合S。S中包含所有的设计要素,共n个,记为E1, E2, E3, … En。每个设计要素Ei具有属性A (Ei)和相关系数C(Ei)。其中,属性A(Ei)表示设计要素所具有的设计属性,是对设计要素Ei的基本描述;相关系数表示设计要素Ei与产品设计之间的关联程度。相关系数C(Ei)实际上表达了设计要素Ei在整个产品设计中的重要程度,是一个权重系数。

2.2 文本向量空间模型

文本经过预处理后,可以得到分离出来的词。这些词是从文本当中抽取出来的关键词:,用来表示文本的特征项,代表文本的性质和特点。基于产品设计要素的主题词提取算法采用向量空间模型的方法来表示文本。从文本集合向向量空间模型进行映射时,整个文本集合映射为向量空间;文本映射为向量空间中的向量,文本的特征项映射为向量的维度,从而构成完整的文本集合的向量表示形式。

向量空间中包含m个文本的文本集合S表示为:

S=(D1,D2,...,Dm)(1)

所包含的文本Di,可以使用其特征项表示为:

Di={t1,t2,...,tr}(2)

其中,tj表示文本Di的第j个特征项,r是文本Di的特征项个数,也是向量空间中向量的维度。为体现不同的特征项对文本的重要程度,可以给特征项增加权重。基本的权重函数采用TF-IDF权重函数[8]。在TF-IDF权重函数中,TF(Term Frequency)是指特征项的词频,反映了文本中该特征项的出现频率;IDF(Inverse Document Frequency)是指反比文本频率,反映了特征项在多个文本中同时出现的频率。TF-IDF的计算方法如下所示:

Wij=TF-IDF(tj)=TF(tj)×IDF(tj)=Frij×logmMj+α(3)

其中,对于特征项tj,TF-IDF(tj)表示其TF-IDF权重;Frij表示其在文本Di中出现的频率,是其TF权重;Mj表示出现特征项tj的文本数量。计算特征项tj的IDF权重。通过归一化来减少文本长度所带来的影响,增加分母作为归一化因子,通过计算TF-IDF的几何平均值来降低文本长度所带来的影响[9],为:

Wij=TF-IDF(tj)=Frij×logmMj+α∑mi=1Frij×logmMj+α2(4)

2.3 基于产品设计要素的主题词提取算法主题词提取是文本分析的基础工作。从式(4)可以发现,传统的主题词提取方法往往关注文本本身主题词提取,而包装印刷行业的产品设计,需要关注与行业相关的文本分析。采用传统方法,会得到大量无关的主题词,并获得大量无关的文本,增加文本分析的难度和工作量。因此对式(4)权重计算方法进行优化和改进,基于产品设计要素进行主题词提取算法设计。根据对设计要素的定义,每个设计要素Ep,都有一个C(Ep),表示Ep对于设计的重要程度。为了反映设计要素在文本中的出现频率、重要程度,将C(Ep)作为特征项的一个重要权重系数。结合TF-IDF权重函数,则基于产品设计要素的主题词提取算法中的权重计算公式为:

Wij=CF(tj)×(TF-IDF(tj))(5)

其中,权重Wij由两个部分构成,分别是CF(tj)和TF-IDF权重;新加入的CF(tj)称为设计要素权重因子。新的权重计算方法称为CF-TF-IDF权重函数。则根据式(4),权重Wij的计算可表达为:

Wij=CF(tj)×(TF-IDF(tj))=CF(tj)×Frij×logmMj+α∑mi=1Frij×logmMj+α2(6)

其中,设计要素权重因子包括两个部分,除了C(Ep)外,还包括特征项相似度系数Sim(Ep),即特征项与设计要素之间的相似程度。如果相似则Sim(Ep)为1,否则为0。从而,式(6)可进一步表达为:

Wij=CF(tj)×(TF-IDF(tj))=((C(Ep)×Sim(Ep))×Frij×logmMj+α∑mi=1Frij×logmMj+α2(7)

根据式(7),文本Di的特征项按照权重能够形成一个有序的序列。在此序列中,无关特征项已被筛选出,极大地降低了向量空间的维度。根据式(7),主题词提取算法步骤如图1所示。其中,通过文本预处理来获取分离后的词;然后分别计算TF-IDF和CF,进而计算出Wij;再根据权重值进行特征项的排序和提取;最后根据向量空间中的特征项来进行主题词提取与输出,为文本聚类分析作好准备。

图1 算法步骤

3 实验结果与分析

比较CF-TF-IDF与传统的TF-IDF之间在特征项提取上的有效性和效率。实验数据集为从互联网上抽取的5 000篇文本数据集合。实验步骤:首先对数据集合进行预处理,形成基本的特征项集合;然后按照算法步骤进行特征项提取。

在预期特征项中,选择与包装印刷设计要素相关的词作为特征项;然后分别由CF-TF-IDF和TF-IDF的特征项提取结果进行对比。具体实验结果如图2所示。显然,DF-TF-IDF在特征项选择上具有比TF-IDF更高的准确率。TF-IDF只根据文本本身的特点进行特征项提取;因此,尽管TF-IDF能够抓住文本的特点,并提取特征项,但由于未考虑包装印刷行业产品设计的特点,所提取的特征项可能无法体现其与设计要素之间的关系。而CF-TF-IDF方法则通过设计要素权重因子,在选择特征项时,直接通过权重来进行筛选,从而使得特征项选择更符合行业应用设计要求。

图2 CF-TF-IDF与TF-IDF的特征项选择准确率比较

4 结语

以包装印刷行业的产品设计为中心,抽取出设计要素,形成设计要素权重因子,进而构建出CF-TF-IDF权重函数。通过该权重函数,将包装印刷行业产品设计的

行业特点纳入到主题词提取过程当中,为面向产品设计的数据分析提供支持,提高设计效率。

猜你喜欢
产品设计
智能产品设计
汽车外饰产品设计
“彭大将军”文化创意产品设计
《冷·暖》
《蝶缚/饥饿关系》
《教堂之夜》
基于EN12966标准的VMS产品设计浅谈
单片机控制产品设计中的几个特殊问题
杜凤霞产品设计作品
比吃药更贴心那些关注老年人的创意产品设计