多模态融合的互联网设备单位归属识别方法*

2022-01-15 06:23李亚超郁凯旋渠慎明任一墨张东生
计算机与数字工程 2021年12期
关键词:单位名称域名文字

李亚超 郁凯旋 渠慎明 李 红 任一墨 张东生

(1.河南大学 开封 475000)(2.中国科学院大学 北京 100049)

1 引言

随着互联网技术的迅速发展,互联网设备在网络空间中占据了越来越重要的地位,并且已经融入到人们的生活当中,例如网络摄像头、网络打印机、路由器等。为了管理和适应公共网络设备数量的快速增长,获取网络设备的特性也显得非常必要。就很多公共网络设备而言,人们并不知道它们的详细信息,例如谁才是这些设备真正的拥有者。

设备的单位归属信息在网络中具有广泛且重要的应用。可以在同一用户的不同设备间建立所有权对象关系[1]。对于特定用户使用的特定物联网设备进行分类[2]。

域名系统(Domain Name System,DNS)作为互联网的一种公共资源,提供域名和IP地址之间的相互转换的服务,域名对网络安全的重要性是毋庸置疑的。根据国家互联网应急中心(National Internet Emergency Center,CNCERT)2021年第17期《网络安全信息与动态周报》显示[3],在该周内,我国境内感染计算机恶意程序的主机数量约为96.2万个,发现境内被篡改网站数量1003个;被植入后门的网站数量为1185个;针对境内网站的仿冒页面数量为824个。Yu B等[4]指出,黑客通过域名产生算法(Domain Generation Algorithm,DGA)产生DGA恶意域名,窃取用户主机上的信息和机密,导致用户的个人隐私泄露、财产遭受损失。例如,从爱企查和企查查网站中查询到的信息:(连云港赣榆和安湖国际大酒店有限公司,www.heanhu-hotel.com),通过手工验证,www.heanhu-hotel.com是一个充值游戏网站,这很有可能会造成用户隐私泄露,威胁用户财产安全。由此可以看出,对域名的单位归属问题需要引起人们更多的关注。

一种传统且直接的方法是查询现有的数据库来确定域名的所属单位,例如DNS和WHOIS,用这种方式获取到的信息包含有域名的诸多属性,其中包括组织、注册者、电子邮件和修改日期等。许多研究[5~7]通过查询WHOIS来获取设备的注册信息,为其研究提供数据。但是通过这种方式获得的域名所属单位只是域名注册时注册者提供的单位信息,并不一定是域名真正的使用单位[8]。

目前针对域名的单位归属问题,仍缺乏准确、全面的解决方法。众所周知,网站链接通常主要由HTTP协议名、网站域名和网页所在位置三部分组成[9]。本文根据域名与网站对应关系,基于多模态融合,设计了一个确定域名单位归属的方法。与传统的方法相比,它提高了准确性和实时性。本文的主要贡献有:

1)设计并实现了一个完整的识别域名单位归属的框架。

2)使用多模态融合的方法,引入了文本信息和图像信息,对信息进行交叉,提高对域名单位归属识别的准确性。

3)在构建的真实的域名数据集上,本文提出的方法能够实现识别域名单位归属,准确率为84%。

2 方法

本文从域名对应的网站中获取网站首页的文字信息和图像,再对收集到的图像和文本信息进行识别、处理、分析,从而得到域名所属的单位。文中介绍的方法主要包括四个步骤:数据收集;对图像做OCR(Optical Character Recognition,OCR)识别;对文本信息做NER(Named Entity Recognition)识别;对多源数据融合,进而得到单位。具体方法流程见图1。

图1 设备单位归属的识别框架

1)数据收集:第一步:人工收集少量单位名称,以这些单位名称为基础,采用树形结构在企业查询网站中爬取需要的信息;第二步:在各单位网站中爬取图像和文字信息。

2)图像处理:将从各网站中抓取的可能含有单位名称等信息的图像进行OCR识别,提取文字信息。

3)文本信息处理:对从单位网站中抓取的文字信息,通过使用NER技术,提取出其中包含的单位名称。

4)多源数据融合:对获取到的多源信息,做文本相似度匹配,从而确定域名所属单位。

3 数据收集

数据收集分为两个部分:第一部分:在免费在线查询网站中抓取单位和单位对应的网站,获取域名;第二部分:根据网站链接抓取网站中首页的文字和图像。

3.1 获取域名

由于在企业查询网站中搜索不到政府机构的网站信息,我们采用人工的方式在搜索引擎中收集政府机构和事业单位的名称和对应网站,并以此作为第一层级爬取列表。

我们采用树形结构,以第一层级单位为基础,以网络爬虫的方式在企业查询网站中搜索第一层级单位。默认搜索结果中的第一个就是该单位或相关度最高的单位,抓取该单位名称和对应的网站,同时抓取该单位对应的对外投资企业和控股企业,作为第二层级单位目录,以此类推,共获取有网站的单位1.8万个。数据的结构类型为(单位,URL),例如:(鲁医控股有限公司,http://www.sfluyi.com/)。当然,抓取的网站链接也有错误的情况,例如:(国家海洋局极地考察办公室,www.chinare.gov.cn/caa/),其真实的链接应该是:(国家海洋局极地考察办公室,http://chinare.mnr.gov.cn/),这是因为企业查询网站在采集数据时出现错误。对于抓取到的网站链接的有效性,我们会在爬取网站信息时做了进一步验证。随后,我们根据单位的网站提取出对应域名,例如:(鲁医控股有限公司,sfluyi.com)。

3.2 信息爬取

网站通常以文字和图像相结合的方式给用户传递信息,所有我们以首页的文字信息和图像作为确定域名单位归属的数据基础。

由于网站服务器中不同的目录路径或端口对应不同的网页,甚至是同一个单位下的不同部门,例如:(机关服务局,http://www.nhc.gov.cn/jgfwzx/new_index.shtml),(宣传司,http://www.nhc.gov.cn/xcs/new_index.shtml),这两个部门都属于国家卫生健康委员会,所以如果直接使用企业查询网站中查询到的网站链接,很可能无法确定域名的单位归属。在这里,我们对获取的原链接的目录路径进行处理,只保留其根目录。

我们使用网络爬虫抓取网站中的文字和图像。为了获取信息更加全面,在抓取网站首页信息的同时,对网页头部自动截图并保存,截图的尺寸大小为1024*256像素。

4 数据处理

4.1 文字识别

网站中的部分图像包含文字信息,这些文字信息中可能包含了单位理念、宣传信息、单位名称等信息。我们使用开源工具,从抓取到的图像中识别出文字信息。

OCR技术流程大致包含三个阶段,图像预处理、文字检测和文字识别。其中,文字检测和文字识别是OCR识别中最重要的部分。本文使用基于ICDAR2015数据集训练的开源模型对抓取到的图像进行文字识别,该模型使用DB(Differentiable Binarization)+CRNN(Convolutional Recurrent Neural Network)的网络结构。

与传统文本检测方法相比,基于分割的文本检测算法可以更准确地检测出形状不规则的文字。常规的二值化操作通过设定固定的阈值,难以适应复杂多变的文本检测场景[10]。DB算法最核心的一点是使用了可微的二值化后处理操作,将二值化操作融合于分割网络中,更准确地定位文字的边界框。如式(1)表示出了概率图P和阈值图T与二值化图之间的关系,这使得二值化可微,其中k表示放大因子。

CRNN,即卷积递归神经网络,是一种基于CNN、CTC、BiLSTM方法组合在一起的文字识别算法[11],对特定场景图像中的文字有较好的识别效果。图2展示了检测和识别的过程。

图2 OCR的输入、输出过程

4.2 单位名称提取

网站首页的文字中可能包含有公司名称、产品介绍、位置等信息,因此,我们构造了一个提取工具,用于从网站首页的文字中提取出单位名称。

命名体识别(NER)一般用于从自然语言中提取关键信息,例如人物、位置、组织、日期等。目前,NER技术已经得到广泛的使用。韩春燕等[12]将NER技术应用于微博,进行信息提取,可以消除微博中语言表达不规范造成的干扰。Y Wu[13]将NER技术应用于临床医学中的电子健康记录,可快速抽取医疗保健信息。

BiLSTM-CRF是一个经典的NER算法,我们通过建立一个BiLSTM-CRF模型来提取网站文本中的单位名称。图3显示了BiLSTM-CRF模型的典型结构。我们基于Wikipedia[14]对BiLSTM-CRF进行了预训练,从网站首页的文本中提取单位名称。如果字符是单位的开始字符,则句子中的首个字将被标记为“B-ORG”,单位名称非首字标记为“I-ORG”,如果字符不是单位名称中的字符,则将其标记为“O”。例如,“中科院作出回应”将被标记为“B-ORG I-ORG I-ORG O O O O”,这意味着“中科院”是单位名称,其中B-ORG表示该字符是单位名称的开始字符,I-ORG表示该字符在单位名称中,O表示字符不是单位名称的一部分。

图3 BiLSTM-CRF的典型结构

5 数据融合

在这里,我们将从图像中提取的文字信息称为图像文字信息,将从文本中提取到的单位称为文本单位信息。从图像和文本中获取到的信息可能包含有域名所属的单位名称,也可能是与之无关的单位名称和大量的冗余信息。

使用单一数据源确定域名的归属单位。我们通过统计频率的方式,分别从图像文字信息和文本单位信息中筛选出最高频次的字符串,将该字符串视为域名的归属单位。我们随机测试了4000个域名,通过单一数据源的方式确定其单位。但是由于单一数据源很有可能缺失部分单位归属信息,由此可见,统计频次的方法不能满足实际需要。

余弦相似度[15],是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,余弦值越接近1,两个向量也就越相似。式(2)是计算两个向量相似度的公式,其中a和b均为n维向量,xi和yi表示两个向量各自维度对上的取值。在计算两个字符串相识度时,每一个字符被赋予一个维度,维度上的取值为该字符在字符串中出现的频次。例如,A:“中国科学院”,B:“中国科学院大学”,A字符串的向量表示为(1,1,1,1,1,0,0),B字符串的向量表示为(1,1,1,1,1,1,1)。通过式(2)可计算出二者的相识度约为0.85。

我们采用余弦相似度对图像文字信息和文本单位信息进行两两语义交叉匹配,即用各个图像文字信息对文本单位信息进行逐一匹配。我们取出相似度最高的一对文本作为域名归属候选单位,这一对文本中包含两个单位名称,一个取自图像文本信息,另一个取自文本单位信息,如:联泓新科,联泓新材料科技股份有限公司。

6 实验

本文使用网络爬虫从公开企业查询网站中收集单位的网站链接,经过域名提取、网站信息采集,数据处理与融合,实现域名归属单位的自动查找。

6.1 数据集

根据3.1所述方法,共采集单位数约1.8万个,由于采集单位数量较多,为减少工作量,我们根据收集数据时获取到的单位的性质标签将单位简单分为三类,并在各类别单位中随机抽取部分单位作为实验数据。图4为实验中用到的各类别单位的数量。

图4 各类别单位的数量

6.2 模型评估

本文设计的框架中,识别域名单位归属的准确率主要受以下因素影响:图像中文字的识别,文字中单位名称的提取。我们使用准确率和查全率[16]来评估每一步的性能,定义如式(3)和(4)。其中TP表示真正例,FP表示假正例,FN表示假反例。在我们收集的数据集中对模型进行评估,DB+CRNN模型的准确率为86%,查全率为79%,BiLSTM-CRF模型的准确度为88%,查全率为81%。

6.3 实验结果

在本文中,我们对不同类别单位的4000个域名进行实验,经过与原单位标签对比和人工验证,在图5我们给出了测试时所用域名对应的单位类别的数量和识别成功的数量。实验结果表明:我们设计的框架其准确率约为84%。图6给出了本框架与单一数据源在识别域名单位归属结果上的对比。

图5 查询数和识别成功数

图6 单一数据源与本方法比较

7 结语

随着互联网的发展,域名的单位归属识别,监管域名信息,了解域名用途,保证域名的使用安全等各个方面,对互联网的安全与管理有着非常重要的作用。本文提出融合多模态信息的方法,在构建的真实数据集上,对域名的单位归属识别准确率达到了84%,验证了本文提出的方法具有一定的可行性。

目前,本文所提出的方法还存在一定的可拓展性,例如:可以根据图像大小,筛选出包含目标单位名称的图像,减少冗余的单位信息。下一步,我们将继续完善此方法,并将其扩展到其它网络设备的归属方面。

猜你喜欢
单位名称域名文字
文字的前世今生
热爱与坚持
当我在文字中投宿
《江苏教育研究》官方网站域名变更公告
《江苏教育研究》官方网站域名变更公告
火箭自己建
《中国篆刻·书画教育》杂志2016年协作单位名录
你听说过“苹梨果”吗?
一年级元角分的认识单元自测题
种出来的“逍遥居”