数据分布

面向异构场景的智能运维联邦学习算法
同训练节点的数据分布往往是异构的,训练速度也不同,甚至不同任务的训练目标也有区别.面对上述情况,基本的模型聚合算法无法保障联邦学习的训练速度和模型性能.为了解决这些问题,现有研究工作已经开始尝试各种联邦学习的改进方法.例如,文献[13]基于受限的局部更新进行研究,通过将全局模型拆分为多个仅更新自己部分的参数的局部模型以实现降低通信和计算成本的目标.文献[14]基于设备分组的方式将参与联邦学习的设备划分为不同的组进行本地模型训练和参数交换以降低通信需求.同时

空间控制技术与应用 2023年4期2023-08-31
箱线图的识与思:何其形?何由来?何以识?何所教?*
线图作为呈现数据分布特征的可视化技术,为初中生开展数据分析活动提供了一种简单而直观的工具．由于箱线图是《标准2022》中新增的内容,所以绝大多数一线教师对其并不熟悉．为此,本文将依循箱线图有何形式、从何而来、如何认识、如何教学的逻辑线索展开分析:首先介绍箱线图的呈现形式;再对箱线图的起源与发展进行说明;然后从“数”“形”两个角度讨论箱线图,加深认识;最后提出关于箱线图的教学思考．1 何其形:箱线图的呈现形式《标准2022》中出现的箱线图,也可称为盒须图,缘

中学数学月刊 2023年8期2023-08-15
制动时方向盘抖动问题的研究
动盘端面跳动数据分布直方图如图1所示。依据动盘SRO数据及拟合参数，可以判定制动盘端面跳动满足设计要求，不是影响抖动的根本原因。表1 制动盘上下制动面SRO测量结果单位:μm图1 制动盘端面跳动数据分布直方图3.4 制动盘厚度差分析DTV设计目标：周向厚度差不超过0.007 mm，径向厚度差不超过0.05 mm。利用千分表测量制动盘厚度差，结果见表2，制动盘厚度差数据分布直方图如图2所示。结果显示，数据分布为偏向型，DTV均值为0.091 mm，大于目标

汽车零部件 2023年1期2023-02-14
基于多通道一维卷积神经网络的刀具磨损动态预测模型
，采集的信号数据分布存在差异[12]。因此用历史数据训练的预测模型在识别另一把刀具的磨损数据时会引起历史模型失效、泛化性差等问题。针对不同刀具磨损数据分布不一致造成的历史模型失效问题，本文利用一维卷积神经网络可自适应提取特征的特点，提出了一种基于多通道一维卷积神经网络(1D-convolutional neural networks, 1D-CNN)的刀具磨损动态预测模型。首先，通过历史刀具磨损数据建立初始的一维卷积神经网络刀具磨损预测历史模型。在此基础上

振动与冲击 2023年2期2023-01-31
关注数据分布，把握统计量本质
力。一、通过数据分布获得中位数与众数例1某校根据九年级学生期末考试成绩在年级中的位次，从高到低把学生成绩评定为5个等第：A+、A、B、C、D，各等第人数分布的扇形统计图如下。某校九年级期末考试各等第人数分布扇形统计图（1）由图可知，这次考试成绩的中位数应被评定为______等第；（2）这次考试成绩的众数一定被评定为B或C等第吗？说明理由。【分析】本题结合扇形统计图考查中位数和众数的概念。从本题的扇形统计图中，我们不能获取每个学生的等第这个精确数据，只能获取

初中生世界 2022年43期2022-11-29
高能医用直线加速器的感生放射性辐射场特点及其防护措施探讨
生放射场强度数据分布，按照0.5 min、1 min、2 min，直至10 min，统计200 MU/min、400 MU/min、600 MU/min 的感生放射场强度数据。②不同照射时长条件下不同照射面积的感生放射场强度数据分布，不同照射时长条件下不同照射面积（10 cm×10 cm、20 cm×20 cm、30 cm×30 cm、40 cm×40 cm）的感生放射场强度数据分布。③不同照射时长条件下不同部位的感生放射场强度数据分布，设照射中心为地点A

中国医学工程 2022年9期2022-10-11
基于域适应神经网络与联合分布自适应的无监督故障诊断方法
练数据与测试数据分布相同的假设上。然而，当训练数据与测试数据的数据分布不同时，传统机器学习方法往往表现不佳[13]。实际生产过程中，机械设备的工作状态与条件往往是动态变化的，设备所产生的故障诊断数据分布也会随之改变。另外，在故障诊断中，高质量的带标签的数据通常较少，这给故障诊断带来了较大的挑战。为了解决故障诊断数据不足的问题，无监督的故障诊断方法受到了广泛关注，LIU等[14]提出一种分类对抗自编码器(Categorical Adversarial Aut

计算机集成制造系统 2022年8期2022-09-05
一种结构化道路环境的障碍物检测方法*
出了一种基于数据分布密度的加权RANSAC（Random Sample Consensus）直线检测算法以及一种基于动态阈值的DBSCAN（Dynamic Threshold Density-Based Spatial Clustering of Applications with Noise，DT-DBSCAN）聚类算法。实验表明，本文方法可以满足无人驾驶系统实时性的要求，经过改进后提高了检测的鲁棒性和准确率。2 感兴趣区域提取在结构化道路场景中，无人驾

计算机与数字工程 2022年7期2022-08-26
概念漂移检测算法综述
移描述了流式数据分布随统计时间而发生不可预见的变化.研究概念漂移检测，有助于提高实际生活中决策和管理模型的预知性，预测和预警模型的准确度.在移动互联网时代，大量的流式数据涌入人们的生活，不同于传统的静态数据，流式数据具有数据量大，实时可变性强的特点.流式数据分为稳定的数据流和动态的数据流，稳定的数据流独立同分布，而动态数据流不独立同分布，容易出现概念漂移.因此迫切需要高效的数据分析和机器学习技术支持我们作出预测和决策.随着产品的更新发展，市场的激烈竞争，顾

伊犁师范大学学报(自然科学版) 2022年1期2022-07-06
基于数据分布一致性的处理器硬件性能计数器复用估计方法
提出一种基于数据分布一致性的估计算法：轮廓线估计法(outline estimation, OLE).具体地，本文贡献有3个方面：1) 通过柯尔莫戈洛夫-斯米诺夫正态性检验(Kolmogorov-Smirnov, KS)[15]，我们发现针对同一硬件事件，同一代码在单计数器记录单事件(one counter one event, OCOE)模式与MPX模式下，存在数据分布一致性规律；2) 基于此规律，我们提出轮廓线估计法OLE，通过逆向累积分布实现估计插值

计算机研究与发展 2022年6期2022-06-09
关注数据分布，把握统计量本质
力。一、通过数据分布获得中位数与众数例1 某校根据九年级学生期末考试成绩在年级中的位次，从高到低把学生成绩评定为5个等第：A+、A、B、C、D，各等第人数分布的扇形统计图如下。某校九年级期末考试各等第人数分布（1）由图可知，这次考试成绩的中位数应被评定为______等第；（2）这次考试成绩的众数一定被评定为B或C等第吗？说明理由。【分析】本题结合扇形统计图考查中位数和众数的概念。从本题的扇形统计图中，我们不能获取每个学生的等第这个精确数据，只能获取不同等第

初中生世界·九年级 2022年11期2022-05-30
基于分段边缘拟合的测风多普勒差分干涉仪成像热漂移监测方法*
拟合所用各项数据分布特征参数误差对边缘检测的影响,结果表明,边缘检测精度主要受数据信噪比和条纹频率参数准确性的制约,当拟合用条纹频率参数误差小于0.5%而其他数据分布特征参数误差在1%以内,数据信噪比在约35 倍以上时,本文算法可以实现高于0.05 像元的检测精度.1 引言中高层大气风场信息可以为建立中间层、低热层和电离层之间的动量和能量的耦合提供参考,为中长期的天气预报提供数据支持,为军事和航天活动的顺利开展提供可靠保障[1−7].多普勒差分干涉仪是近年

物理学报 2022年8期2022-04-27
高职学生心理测评一级心理问题数据探析
，多项指标值数据分布的峰度偏离较大。以一级心理问题测评数据为总体。以民族为分组变量，共计6个指标值数据分布相较正态分布平缓，11个指标值数据分布相较正态分布陡峭；以生源地为分组变量，共计16个指标值数据分布相较正态分布平缓，13个指标值数据分布相较正态分布陡峭；以是否独生为分组变量，共计3个指标值数据分布相较正态分布平缓，4个指标值数据分布相较正态分布陡峭；以性别为分组变量，共计3个指标值数据分布相较正态分布平缓，4个指标值数据分布相较正态分布陡峭；以院系

华东纸业 2022年12期2022-03-12
基于度量学习的无监督域适应方法及其在死亡风险预测上的应用
的困难：整体数据分布偏移、类别之间的数据分布偏移以及时序数据的多样性和复杂性.其中整体数据分布偏移与类别之间的数据分布偏移如图1所示：Fig. 1 Data distribution shift图1 数据分布偏移整体数据分布偏移指的是源域和目的域整体的数据分布往往不相同.例如，在重症监护室内收集到的数据中可能老年人占据大多数.图1中老年患者A与青年患者B的生命体征不相类似，表示以老年患者为主体的源域和以青年患者为主体的目的域的数据分布是有差异的.以医疗领域

计算机研究与发展 2022年3期2022-03-09
动车组受电弓可靠性数据分析
可靠性、故障数据分布函数、失效率、可靠度等可靠性指标都通过可靠性数据分析获得。可靠性数据分析的流程如图1所示。图1 可靠性数据分析的流程2.2 数据分布类型对产品进行可靠性数据分析，需要了解失效数据的分布类型，根据分布类型得到可靠性指标。常见的数据分布有正态分布、指数分布、威布尔分布等[9]，其中，威布尔分布对各种失效数据的处理能力很强，可以描述早期失效、偶然失效和耗损失效这3种类型[1]。威布尔分布函数如式（1）所示。其中，t为故障时间；m为形状参数；η

铁路计算机应用 2021年12期2022-01-04
分布式数据库系统的数据分布策略分析
数据库系统的数据分布策略，研究中选择以分布式数据库系统架构为切入点，给出数据分布的具体策略，最后结合实际情况给出分布式数据库系统的安全管理措施。关键词：分布式数据库;数据分布;安全控制中图分类号：TP311 文献标识码：A文章编号：1009-3044（2021）20-0036-02云计算网络是互联网信息技术发展的重要产物，主要是利用现代计算机系统，以互联网为媒介对数据进行收集、整合和分析，为用户提供更具针对性的服务。由于网络媒介的存在，人们获

电脑知识与技术 2021年20期2021-09-26
基于熵的过采样框架
用于重新平衡数据分布，使标准算法以用户的目标为中心[8]。特别地，数据级方法可以分为欠采样多数类实例[9]和过采样少数类实例[10]两种方案。欠采样方法通过减少多数类实例的数量来创建原始不平衡数据集的平衡子集。过采样方法通过增加少数类数据实例的个数来平衡数据集。Chawla 等人[11]提出一种基于线性插值的过采样算法SMOTE。SMOTE 算法的主要思想是随机选取一些少数类实例作为种子，并选取种子的k个最近邻中的一个或多个少数类实例，与其结合为邻居对适应

计算机工程与应用 2021年13期2021-07-14
基于生成对抗网络的空中目标图像生成算法研究
距离衡量真实数据分布和生成数据分布的距离，能够在任何情况下为生成器提供梯度信息以更新参数。目前，生成对抗网络在图像生成、图像转换、图像超分辨率等［6］领域取得了巨大的成功。空中目标种类繁多，并且各种机型姿态各异，公开的数据集较少，因此针对空中目标图像生成的难度较大。本文基于DCGAN架构，通过优化判别器损失函数，提高了模型训练稳定性，同时提高了生成图像的质量。1 基于DCGAN模型的图像生成算法DCGAN 首次将GAN 和卷积神经网络结合起来，同时设计了一

空天防御 2021年2期2021-06-24
不同替代计量数据库数据政策与数据数值的比较研究*
数据库倾斜的数据分布则表明，这个数据库总是比其他数据库提供更多或更少的替代计量事件。2 不同替代计量数据库数据政策的对比分析结果NISO从透明性、可重复性和准确性三个方面，提出了替代计量数据质量的建议性规范和标准[3]，替代计量数据库服务商分别应对NISO标准做出了回应和调整，建立了相关数据政策，对数据库的数据处理方式、数据质量的保障方法、数据库信息等进行公示，这为对比不同替代计量数据库数据政策，提供了依据和数据支撑。2.1不同替代计量数据库保障透明性数据

情报杂志 2021年5期2021-05-29
基于RFID的智能化教室座位占空感知系统设计与实现*
到的数据进行数据分布图绘制，数据分布情况如图3所示。从数据分布情况来看，采集到的数据分布比较稳定，且大部分数据处于64～69 dBm之间。图3 无人情况下的RSSI数据分布第二组采集的数据结果如表2所示，采集时读写天线距离应答电子标签4 m，电子标签布置在一个座位的靠背上，并且有一个人端坐在座位上，采集1 000个数据。绘制的数据分布如图4所示，大部分数据处于47～51 dBm之间。表2 有人情况下的RSSI数据统计图4 有人情况下的RSSI数据分布对采集

中国教育技术装备 2021年12期2021-03-24
用于苹果叶病分类的领域自适应方法研究*
像有着不同的数据分布。对某种数据分布的样本识别效果良好的网络模型，用于其他数据分布的数据识别时准确率可能会严重降低。为了解决该问题，领域自适应方法应运而生，该方法是一种迁移学习方法，目的是将在源域上学到的分类识别能力迁移到目标域上。领域自适应方法根据数据分布的不同将训练数据集分为带标签的源域和带少量或不带标签的目标域。领域自适应的思想就是将不同领域数据集映射到同一个特征空间，使其特征分布尽可能相近，从而可以将源域数据集的识别能力迁移到目标域数据集上。基于领

智慧农业导刊 2021年12期2021-03-12
Ceph云存储中基于强化学习的QoS优化
如何将海量的数据分布在不同的存储节点上，且尽可能分布均衡，解决这个问题的关键就是要设计一个好的数据分布策略，其对云存储系统的QoS性能起着至关重要的作用。以一个具体的云存储系统为基础展开研究，Ceph作为最近几年热门研究的云存储系统，不仅具有高扩展性、高性能和高可靠性的特点，而且实现了集群真正意义上的无中心节点。但是，Ceph的数据分布算法CRUSH(controlled replication under scalable hashing)存在数据在设备

计算机工程与设计 2021年2期2021-02-25
轴承尺寸检测数据的异常值检测与数据处理研究*
行实验。检测数据分布与频率分布直方图，如图4所示。图4 检测数据分布与频率分布直方图根据图4，通过计算可得到检测数据的均值μ=150.947 0和标准差σ=0.942 2，则正态分布的概率密度曲线f(x)为：(12)检测数据箱型图和概率密度曲线f(x)如图5所示。图5 检测数据箱型图和概率密度曲线f(x)当传感器检测到卡盘处时，会得到如图4(a)中的上部异常数据。由图5(a)观察可知，箱型图可以检测出这类异常数据以及其他原因所造成的异常值。由图4(b)与图

机电工程 2021年2期2021-02-25
商品条码实验室能力验证统计方法应用分析
目以及不同的数据分布，需要考虑相关的标准和要求，选择合适的能力验证处理方法，否则会造成结果不准确、将“满意”结果误判成“不满意”等问题。能力验证能力评定方法常用的能力验证统计方法为Z比分数法，本文采用此方法对不同数据进行分析，其目的是依据能力评定准则将数据的偏离进行定量分析，且此统计方法不需要做任何处理与变换。Z比分数定量结果计算如下：式中：Z为Z比分数值；x为参加能力验证实验室结果；X为数据指定值；σ为能力评定标准差。使用Z比分数对参加实验室进行能力评定

中国自动识别技术 2021年6期2021-02-14
基于WGAN的不均衡太赫兹光谱识别
数据符合真实数据分布，并且能有效增加数据量。针对目前太赫兹光谱数据库中各物质数据量不均衡问题，本文提出一种基于WGAN的不均衡太赫兹光谱识别方法。首先利用生成对抗网络学习真实太赫兹光谱数据分布，在WGAN达到纳什均衡后用生成数据扩展太赫兹光谱数据集，使之达到类别均衡，最后采用多分类支持向量机对太赫兹光谱数据进行分类识别。1 基于WGAN的太赫兹光谱识别方法1.1 基础理论太赫兹光谱数据为实数值，采用GAN训练数据，模型会出现梯度不稳定和多样性不足等问题[1

光谱学与光谱分析 2021年2期2021-02-03
改进的云存储系统数据分布策略
进袁承储系统数据分布策略。关键词：云存储;数据分布;策略;分析中图分类号：TP333 文献标识码：A 文章编号：1672-9129（2020）16-0048-01随着计算机技术、信息技术等的快速发展，以及人们生活水平的大幅度提升，互联网在我国迅速普及，已经深入千家万户，对人们日常生产生活有着极为深刻的影响，而现代存储技術的快速发展，网络存储系统的进一步优化，有利于网络新型技术的进一步发展。云存储系统主要是以传统的分布式存储技术为前提与基础，再充分利

数码设计 2020年16期2020-12-08
基于暂态零序电流偏度特征的小电流接地系统单相接地故障区段定位
态零序电流的数据分布偏度特征分析暂态零序电流是由线路电容放电引起的.事实上，暂态零序电流放电过程迅速，呈现高频特性.在高频暂态零序电流分析中可以忽略消弧线圈的补偿作用[16-17].故障区段两端的数据分布偏度特征，如图2所示.由图2可知，在故障点上游网络中，故障区段左侧检测点暂态零序电流流向母线，其正常线路的暂态零序电流离开母线.在故障点下游网络中，故障线路的暂态零序电流是离开母线.因此，故障区段两侧检测装置的暂态零序电流具有相反的极性.健全区段两侧检测装

东北电力大学学报 2020年4期2020-10-16
自适应稀疏表示引导的无监督降维
常以保持某种数据分布信息(如几何信息和统计信息等)为准则[8]．然而，在高维场景中，如何有效挖掘数据分布信息是非常困难的．因此，相比其他两种降维方法，无监督降维更具挑战性．根据保持的数据分布信息的不同，无监督降维又可分为保持数据分布的局部信息降维和保持数据分布的全局信息降维两种．经典的保持数据分布局部信息的无监督降维方法有局部线性嵌入(locally linear embedding, LLE)[9]和局部保持投影(locality preserving

深圳大学学报（理工版） 2020年4期2020-07-17
数据分布特性对空调系统能耗预测的影响
相互独立，即数据分布服从正态分布[14]。事实上，由于数据之间本身具有相关性，数据的分布往往并不服从正态分布，如果未对数据进行任何处理，直接作为能耗预测的输入条件，则能耗预测的结果会存在一定的误差。相关方面在当前的研究中鲜有提及。从数据的分布特性出发，对不服从正态分布特性的原始数据进行适当的数据变换处理，作为提升能耗预测效果的重要技术手段。对实际的空调系统能耗进行预测，发现数据的分布特性对能耗预测影响巨大，合适的数据变换能大幅提升机器学习算法能耗预测的效果

科学技术与工程 2020年14期2020-06-23
HDFS数据动态分布设计与实现
对HDFS的数据分布进行优化、提高HDFS的数据存取速度具有重要意义。论文根据数据被读写的频率确定数据应存放的存储介质，解决数据在不同读写性能的存储介质间的分布与其热度无关的问题，期望能为大数据在高效存取与处理、多种数据及多种应用并存且并发服务等方面提供一些解决方案。在对数据分布策略进行优化之前将分析各类数据的时间和空间访问特征，将其与多种特性的存储设备关联，达到将数据存储在最合适的位置的目的，使之能够被快速地获取和存储。基于负载访问的数据管理策略在发挥S

绿色科技 2020年6期2020-06-15
不平衡数据的下采样方法研究∗
其根本问题是数据分布不均衡导致很多传统机器学习的分类算法性能大大减弱。因为大多数分类算法事先假设训练集具有相等的误分类代价或平衡的数据分布［5］，所以这些算法在面对相对复杂的不平衡数据集时便不能有效地反应出数据的分布特征。如此一来，当这些传统分类算法在样本不平衡的数据集上训练时，经常会出现分类面偏倚的现象，使得最终无法获得令人满意的分类效果，甚至会出现模型完全失效的糟糕情况［6～7］。不平衡学习因其重大研究意义而在机器学习和数据挖掘领域备受瞩目，多个业内主

计算机与数字工程 2019年9期2019-10-08
基于Hi-c数据的酵母染色体三维结构重构
色体Hi-c数据分布拟合函数模型首先，需要对根据酵母染色体交互数据建立统计分布模型，为此，分别对酵母16条染色体的Hi-c数据分布情况进行高斯拟合，对每条染色体的数据我们都分别与高斯8个线性组合核函数进行拟合，再最终选取出拟合指标SSE,RMSE,R-square最优的高斯核函数，最终选取核函数的拟合指标结果如表1所示。表1 16条染色体拟合情况表Table 1 Fitting of 16 chromosomes在最终确定了每条染色体拟合出对应的高斯核函数

生物信息学 2019年3期2019-09-04
基于马氏距离的重采样方法在流量识别中的应用❋
现网络流量中数据分布的不均衡问题会严重影响流量识别的准确率。这种不均衡通常会导致机器学习算法偏向于流量数据中多数类的流量样本。例如：文献[3]指出网络流量数据中HTTP流量的数量通常会远远超过P2P和VoIP流量的数量，而机器学习算法通常会将所有流量识别为HTTP流量以实现高准确率。在这种情况下，机器学习算法对于少数类流量的识别准确率非常低。然而，在许多情况下这些少数类流量(例如P2P和VoIP流量)却是人们更加关心的。目前，解决数据分布不均衡问题的方法可

中国海洋大学学报（自然科学版） 2019年8期2019-06-15
数学能力月月赛（12）
0的样本,其数据分布在2,18[ ]内,将样本数据分为四组：2,6[ ),6,10[ ),10,14[ ),14,18[ ],得到频率分布直方图如图1所示,则下列说法不正确的是( )。A.样本数据分布在6,10[ )的频率为0.32B.样本数据分布在10,14[ )的频数为40C.样本数据分布在2,10[ )的频数为40D.估计总体数据大约有10%分布在10,14[ )4.有一个容量为45的样本数据,分组后各组的频数如下：[12.5,15.5],3;(15

中学生数理化·高一版 2019年12期2019-01-11
基于马氏距离的重采样方法在流量识别中的应用❋
现网络流量中数据分布的不均衡问题会严重影响流量识别的准确率。这种不均衡通常会导致机器学习算法偏向于流量数据中多数类的流量样本。例如：文献[3]指出网络流量数据中HTTP流量的数量通常会远远超过P2P和VoIP流量的数量，而机器学习算法通常会将所有流量识别为HTTP流量以实现高准确率。在这种情况下，机器学习算法对于少数类流量的识别准确率非常低。然而，在许多情况下这些少数类流量(例如P2P和VoIP流量)却是人们更加关心的。目前，解决数据分布不均衡问题的方法可

中国海洋大学学报（自然科学版） 2019年8期2019-01-04
基于相位分辨统计技术的局部放电类型分析
判定相位分辨数据分布的不对称程度以及方向，计算方法如下文所示[3][4]。2 相位分辨数据的统计参量的计算方法2.1 （φ-q）相位分辨数据统计参量的计算方法图1 （φ-q）相位分辨数据统计分析示意图局部放电的脉冲周期与电网工频周期对应，每个周期包含0-360度相位角，局放测量仪将0-360度相位角划分成一定数量的相位窗数，并在每个相位窗数上记录当前窗的脉冲幅值，生成（φ-q）相位分辨数据,以相位角φ为横轴，以局放电荷幅值q为纵轴，可以生成（φ-q）二维图

中小企业管理与科技 2018年29期2018-11-06
融合批规范化编解码网络架构的道路分割
习一个变化的数据分布，模型参数选取不稳定、调优难度大的问题，本文选取VGG16网络和FCN32网络模型分别组成道路分割的编解码架构[18]，在每层卷积计算后加入批规范化计算[19]，学习一个比较稳定的参数数据分布。在KITTI数据集上的道路数据集实验，结果表明本文设计的编解码网络架构对无人车驾驶领域的可行驶区域检测、分割有着较高的鲁棒性。1 网络模型的批规范化批规范化和卷积神经网络中的“白化”思想接近，在神经网络的训练过程中，深层神经网络在做非线性变换前的

现代计算机 2018年18期2018-07-18
DoFFT：一种基于分布式数据库的快速傅里叶变换方法
方面，集群中数据分布[7]也可能影响算法性能。Greenplum将数据分布到各个节点中，当在某个节点上执行UDF时，由于节点的负载等不同，会导致不同的性能。为了使UDF算法执行性能达到最优，本文做数据重分布。文献[8]根据网络传播元组数目，重分布节点元组，从而提高表连接性能。本文是根据当前节点的数据分片大小、负载等因素重分布元组数据，能够较大地提高FFT的执行效率。1 预备知识1.1 Greenplum分布式数据库分布式数据库[9-10]是通过网络将物理上

计算机与现代化 2018年6期2018-06-28
应用语言学研究中的图示与稳健统计方法
和最大值提供数据分布尾巴的信息。中位数反映分布的中心。上、下枢距离反映分布的展度(spread)；利用上、下枢构建的上、下围(upper fence，FU；lower fence，FL)用于诊断异常值(outlier)。中位数以及上、下枢的位置反映数据分布的偏度。换言之，五数概括涵盖变量的四个主要特征：中心、展度、非对称性(asymmetry)和异常值(Hintze et al.，1998：181)。箱图的基本构造如图1所示。图1箱图构造图1是水平放置的箱

外国语文 2017年6期2018-01-19
基于数据密度感知的非平衡数据模糊聚类方法
方法.方法将数据分布密度特征嵌入模糊聚类初始化过程中，用于定位初始聚类中心点，避免了少数类中心点位置的消失，在此基础上进一步设计了基于密度的模糊聚类优化更新方法.经数据集分析验证，本研究方法能够有效解决非平衡数据分类中少数类消失问题，并且在聚类算法性能上比传统方法有明显提高.模糊聚类；分布密度；非平衡数据0 引言模糊聚类方法(fuzzy C-means，FCM)，是一种典型的非监督学习方法，其在传统聚类方法的基础上，模糊聚类方法引入隶属度概念，刻画了每个

成都大学学报（自然科学版） 2017年4期2018-01-05
基于局部密度的快速离群点检测算法
OF不能适应数据分布异常情况离群点检测，INFLO算法虽引入反向k近邻点集有效地解决了数据分布异常情况的离群点检测问题，但存在需要对所有数据点不加区分地分析其k近邻和反向k近邻点集导致的效率降低问题。针对该问题，提出局部密度离群点检测算法——LDBO，引入强k近邻点和弱k近邻点概念，通过分析邻近数据点的离群相关性，对数据点区别对待；并提出数据点离群性预判断策略，尽可能避免不必要的反向k近邻分析，有效提高数据分布异常情况离群点检测算法的效率。理论分析和实验结

计算机应用 2017年10期2017-12-14
典型半监督分类算法的研究分析
类算法可通过数据分布假设进行分类。为此，在对比分析采用不同假设的半监督分类典型算法的基础上，以最小二乘方法(Least Squares，LS)为基准，研究比较了基于聚类假设的转导支持向量机(Transductive Support Vector Machine，TSVM)和基于流行假设的正则化最小二乘法(Laplacian Regularized Least Squares Classification，LapRLSC)，并同时利用两种假设的SemiBoo

计算机技术与发展 2017年10期2017-10-23
SQL执行计划与直方图关系研究①
大小、规模、数据分布状况等的一类信息.比如,表的行数、块数、平均每行的大小、索引的leaf blocks、索引字段的行数、不同值的大小等,都属于统计信息.CBO正是根据这些统计信息数据,计算出不同访问路径下,不同join方式下,各种执行计划的成本,最后选择出成本最小的执行计划[4].在oracle中直方图是一种对数据分布质量情况进行描述的工具.它会按照某一列不同值出现数量的多少,以及出现的频率高低来绘制数据的分布情况,以便能够指导优化器根据数据的分布做出正

计算机系统应用 2017年10期2017-10-20
云环境下影响数据分布并行应用执行效率的因素分析
云环境下影响数据分布并行应用执行效率的因素分析马生俊*，陈旺虎，俞茂义，李金溶，郏文博(西北师范大学计算机科学与工程学院，兰州 730070) (*通信作者电子邮箱1780761723@qq.com)云环境下，类似MapReduce的数据分布并行应用被广泛运用。针对此类应用执行效率低、成本高的问题，以Hadoop为例，首先，分析该类应用的执行方式，发现数据量、节点数和任务数是影响其效率的主要因素；其次，探讨以上因素对应用效率的影响；最后，通过实验得出在数

计算机应用 2017年7期2017-09-22
基于约简策略与自适应SVDD的无线传感网络离群检测方法*
然后利用基于数据分布密度准则和数据流时间相关性自适应更新决策模型。针对Intel Berkeley数据集及SensorScope System数据集的仿真实验表明,RASVDD的离群检测正确率TPR(True Positive Rate)平均达98%,误报率FPR(False Positive Rate)平均仅为1%,并且与传统的SVDD算法相比,RASVDD 决策模型训练时间减少了20%以上。无线传感网络;数据约简;SVDD;离群检测;仿真21世纪电子信

传感技术学报 2017年9期2017-09-22
无线电通信仿真的大数据分布管理
通信仿真的大数据分布管理杜乾中国电信股份有限公司乐山分公司，四川乐山 614000随着中国无线电行业的不断高速发展，无线电通信仿真的数据分布管理也在不断提升。高层体系结构俗称HLA，具体在应用过程中可以有效地建立起支持建模与仿真的互操作性与可用性。基于HLA这种新型仿真体系结构，对无线通信仿真的数据分布管理进行了细致的研究，并以此描绘出一种简化式的空中交通控制剧本，将其作为无线电通信仿真，设计出无线电通信的路由空间，并提供属性表及互操作参数表。无线电；

移动信息 2017年3期2017-07-31
基于迭代填充的内存计算框架分区映射算法
扩展区内，在数据分布局部感知后再执行扩展区迭代式的多轮数据分配，根据Reduce端已分配数据量建立适应性的扩展区映射规则，对原生区的数据倾斜进行逐步修正，以此保障数据分配的均衡性。实验结果表明，在不同源数据分布条件下，算法均提高了作业Shuffle过程分区映射合理性，缩减了宽依赖Stage的同步时间，提高了作业执行效率。内存计算；数据均衡；扩展式分区；迭代式映射0 引言近年来，利用内存的低延迟特性改进并行计算框架性能成为新的研究方向。内存计算框架避免了频繁

计算机应用 2017年3期2017-05-24
脑卒中伴房颤的全球发生率
连续性患者。数据分布于19个国家的19个脑卒中中心，急性缺血性脑卒中患者在各自地区被检视。脑卒中伴房颤定义为缺血性脑卒中伴随任何病史的房颤，或者索引脑卒中的评估中发现房颤。在所有2144名具有近期缺血性脑卒中患者中，脑卒中伴房颤的发生率为28%，排名顺序从菲律宾的11%到爱尔兰的45%。脑卒中伴房颤患者平均年龄75岁，对比于非脑卒中伴房颤为64岁(PPerera KS, Vanassche T, Bosch J, et al. Global survey

中国康复 2017年1期2017-01-12
基于相对密度的加权一分类支持向量机
予权值．位于数据分布边缘的样本具有较低的相对密度,而位于数据分布内部的样本具有较高的密度．对于位于数据分布内部的样本赋予较大权值,位于数据分布边缘的样本赋予较小的权值．由于噪声通常位于数据分布外部,因此本文的方法可以赋予噪声较小的权值,从而使算法对于噪声更加鲁棒．人工数据集和UCI标准数据集的实验结果表明,该法优于用libsvm实现的一分类支持向量机方法．加权一分类支持向量机; 相对密度; 一分类0 引言支持向量机由Vladimir Vapnik等于20世

淮阴师范学院学报（自然科学版） 2016年4期2017-01-10
一种基于给定标准对数据进行正态修正的算法
况可能需要对数据分布进行正态化调整。本文研究的内容是在给定平均值和标准差的前提下，将样本数据的分布修正为理想正态曲线的一种方法，此方法可适用于数据信息偏离正态分布的各种情况，比如土壤元素、年降水量等。【关键词】数据分布给定标准正态修正1 引言如果数据的产生过程受到独立随机因素的影响，那么数据的分布规律应当符合正态分布，然而在实际的测量与评价过程中，由于人为因素的影响，最终采集的数据可能偏离了正态分布，这时就需要对数据进行正态修正，以使其恢复本来的样子。

电子技术与软件工程 2016年8期2016-07-10
试论大数据之“大”
率近似正确；数据分布；数据清洗；数据价值；例证法Abstract：Big data provides a brand-new angle and method of perceiving the world. Like mathematics and physics， big data analysis is， in principle， a methodology based on observation and empirical induction，

中兴通讯技术 2016年2期2016-03-24
金融投资问题
比较直观的对数据分布作出判断。模型V对第一问、第二问的数据分布拟合规律做出了理论推导，并为第三问一般形式的问题解决提供了初步方法。4 结论针对问题一，建立了模型I与模型II。模型I的离散型随机变量模型的结果是：在T=1时的离散型随机变量模型解得损失数额超过10万元的可能性为3.1373%，以95%的置信度能保证损失的数额不会超过9万元；若一个周期内的损失超过10万元的可能性不大于5%，初始投资额M的最大值为1111.11万元。模型II的连续型随机变量模型的

科技视界 2015年30期2015-10-22
云环境下基于随机间隔的保序加密算法
针对隐藏原始数据分布的问题,提出一种改进型的基于随机间隔的保序加密算法(OPERI)。算法首先将原始数据域映射至新的数据域中以达到隐藏原始数据分布和改变数据分布概率的目的,其次通过引入随机间隔对数据进行加密,支持对密文数据的关系运算。安全性分析和实验结果表明:OPERI算法在已有安全性基础上能够抵御统计型攻击,并能高效实现密文关系运算。保序加密;隐私保护;云计算;统计型攻击随着云计算的快速发展,人们越来越关注隐私安全问题。目前解决用户隐私安全问题的常用方法

太原理工大学学报 2015年6期2015-06-23
固态硬盘混合存储数据库的数据分布优化算法
向混合存储的数据分布优化策略，最理想的情况就是在运行时能够自适应，根据应用特征自动调节数据分布。本文提出一种面向混合存储的OLTP数据库数据分布自适应优化算法，可自动适应应用的特征，并通过观测判断各个数据元素的性能，从而在SSD和磁盘之间自动形成理想的数据分布。2 相关工作2．1 闪存和固态硬盘随着闪存在容量上的迅速增长和成本的降低，以闪存作为存储介质的新型固态硬盘已经在企业得到实际的应用。SSD最大的优点就是随机读写性能高，较普通磁盘的读写性能要高出1个

计算机工程 2015年4期2015-01-02
面向海量新闻数据的HDFS节能存储策略
致整个集群的数据分布出现不均衡的情况，特别是有新节点加入时，新节点和原有节点上的分布不均，新增节点需要经历较长时间甚至人工操作，才能与现有节点实现数据均衡分布，这样在分配MapReduce任务时，新节点可能分配不到可执行的任务，浪费新增节点的计算和存储能力［9－10］。另一方面，不同文件间的访问规律存在巨大差异，如果使HDFS集群中所有数据节点都处于活跃状态，势必造成能耗的增加，导致大量电能被浪费［11］。在实际应用中，新闻类数据的访问具备一定访问规律，可

计算机工程 2015年12期2015-01-01
Log-transformation and its implications for data analysis
新的不依赖于数据分布的方法：如广义估计方程（GEE）。假设检验，离群值，对数正态分布，正态分布，偏度Summary:The log-transformation is widely used in biomedical and psychosocial research to deal with skewed data. This paper highlights serious problems in this classic approach for

上海精神医学 2014年2期2014-12-09
对数据分布特征测度的分析
示后，我们对数据分布的类型和特点就有了一个大致的了解，但这种了解只是表面上的，还缺少代表性的数量特征值准确地描述出统计数据的分布。对统计数据分布的特征，可以从三个方面进行测度和描述：一是分布的集中趋势；二是分布的离散程度；三是分布的偏态和测度。这三个方面分别反映了数据分布的测度特征。关键词：数据分布；特征测度；分析中图分类号：F270 文献标识码：A文章编号：1005-913X（2014）08-0192-01一、集中趋势的测度（一）分类数据：众数众数主要用

北方经贸 2014年8期2014-09-21
云中面向图像并行计算的数据分布策略
的，不合理的数据分布会影响系统整体的任务响应时间。如何设计计算任务的数据分布算法，以提高数据处理效率，并使云中各节点负载均衡，是一个挑战性的研究课题［2］。随着科学技术的高速发展，许多大规模工程和科学计算问题都对计算速度提出了越来越高的要求。例如图像并行处理［3］。它是一种综合的数字信息处理技术，是大数据量数字图像在计算机计算领域中的一项需长远发展的技术，其主要目的是实现图像处理的实时性和快速性。随着图像分辨率的提高，每一景图像的数据量增加，计算量也相应增

计算机工程与设计 2013年4期2013-09-11

热门标签