浮点

神经网络训练处理器的浮点运算优化架构
训练神经网络时，浮点运算比定点运算具有更高的精度［12］。传统的神经网络电路设计研究集中在利用GPU 或定点计算硬件进行浮点运算。然而，大多数现有的基于浮点的神经网络仅限于推理操作，只有少数包含针对高速服务器而非低功耗移动设备的训练引擎［13］。将训练与高精度目标结合起来需要使用浮点运算符。神经网络中的高精度浮点运算结构往往会大量能耗。因此，需要设计出优化浮点运算的加速器。通过计算近似技术可以有效降低计算复杂性，最大限度地减少浮点算子的显著能耗［14］。虽

计算机测量与控制 2023年6期2023-07-06
基于部分积概率分析的高精度低功耗近似浮点乘法器设计
。相较于定点数，浮点数的动态范围更大，因此被广泛应用于高动态范围(High-Dynamic Range,HDR)图像处理及无线通信等领域。作为一种常用的浮点算术运算单元，浮点乘法器的复杂度高、硬件资源消耗大，在具有容错特性的浮点应用中使用近似浮点乘法器可以有效降低系统功耗。目前对近似浮点乘法器的研究工作主要是针对尾数乘法的近似设计。尾数乘法与定点乘法相似，可根据定点乘法器的近似思路对其进行设计。定点乘法器作为最基本的算术运算单元之一，相比于加法器等单元有着

电子与信息学报 2023年1期2023-02-18
基于Gold-Schmidt算法的高精度低延迟浮点平方根运算单元的VLSI实现
准中的128 位浮点标准数据格式，模块化地实现了浮点平方根运算单元的VLSI 电路设计。随后，笔者对实现的128 位浮点平方根运算单元进行了仿真测试，结果表明，本文设计的硬件运算单元满足全浮点域的精度要求。接着，笔者使用TSMC 65nm 标准工艺库对该硬件运算单元做了逻辑综合，结果表明，本文设计的硬件运算单元工作频率可达800MHz，完成一次完整的128 位浮点计算需要4 个时钟周期，最大计算误差小于1 比特位，硬件电路面积为0.8216mm2，硬件功耗

华东科技 2023年1期2023-02-14
GNSS载波相位整数等变估计及其PPP性能提升算法
道、钟差等，导致浮点模糊度解精度相对较低，PPP模糊度固定解存在可靠性风险[13]。卫星轨道、钟差产品及误差模型改正精度对模糊度浮点解偏差影响较大，进一步增大了模糊度固定可靠性提升的难度[14]。当前PPP模糊度固定的常见做法是，在获取浮点模糊度之后，进一步将其分解为宽巷和窄巷模糊度，分别引入宽巷与窄巷小数偏差改正后，对宽巷模糊度进行取整固定，对窄巷模糊度用LAMBDA降相关搜索实现固定[8,15]。针对载波相位模糊度处理难题，研究人员尝试引入更多方法以便

测绘学报 2022年8期2022-09-01
基于申威1621数学库中的非精确结果异常处理①
用. 数学函数在浮点运算[3]过程中,会出现浮点异常的情况,如何高效处理则至关重要. 文献[4,5]充分证明了一个数值计算软件要达到没有浮点异常产生的效果,其实现困难程度巨大. 在验证软件的可靠性方面,文献[6–8]提出了测试工具DART,CUTE 等,其中DART 可以对任何编译的程序进行自动化测试. 文献[9,10]提出了浮点标准形式化的工具Coq,Gappa 等,文献[10]提出的Gappa 使用区间算法自动评估和传播舍入误差,并且演示了该工具在浮点

计算机系统应用 2022年7期2022-08-04
基于编译时插桩的浮点异常检测方法*
)1 引言目前，浮点计算被广泛应用于各个领域,现有的计算机硬件设计及IEEE-754[1]标准，决定了浮点数是实数的有限精度编码[2]，不能精确表示出实数，在进行浮点计算时，可能会导致不精确或者异常的结果。由于浮点数转整数出现的整数溢出异常，欧洲Ariane 5火箭在1996年发射时出现了严重的升空自爆现象[3]，造成了巨额的经济损失。因此，提前发现和规避，是目前解决浮点计算异常问题的关键。能够对异常处理起到指导作用的异常检测方面的研究也在蓬勃发展。当前的

计算机工程与科学 2022年6期2022-06-23
真正的“理论”性能怎样看待GPU浮点运算
期只负责处理一个浮点数据，所以总的浮点运算次数就是核心数量×时钟周期了（当前常见的GPU浮点运算单位一般是TFLOPS，即每秒浮点操作多少万亿次）。又因为现在的核心可以一次性处理一个双精度浮点数据，它相当于两个最基础的单精度浮点数据，所以再×2就得到了GPU的浮点运算次数。国产GPU、英伟达RTX40系列和AMD RX 7000系列的理论性能其实就是根据其透露出的配置计算出来的理论浮点计算性能。因为现在的图像是分成像素点来处理的，每个点的色彩都要进行浮点运

电脑爱好者 2022年5期2022-05-30
OpenVX 高效能并行可重构运算通路的设计与实现
1 级使用4 个浮点乘法器并行计算式（2）和式（3）中的乘积项；第2级将4个输出结果两两相加；第3 级将M1，3、M2，3分别和a0、a1相加并输出最终计算结果。由图5可知，仿射变换的流水线数据通路需要4 个浮点乘法器及4 个浮点加法器。图5 仿射变换流水线Fig.5 Affine transformation pipeline透视变换对输入图像进行透视变换运算，支持的数据类型为vx_unit8 和vx_float32。该函数使用3×3 的透视矩阵M对像

计算机工程 2021年12期2021-12-20
基线长度和俯仰角约束条件下的模糊度浮点解求解及仿真实现
。2 整周模糊度浮点解求解技术的发展随着GPS载波相位差分技术的深入研究,利用两个或多个接收机进行高精度的载体姿态测量成为可能。快速、准确、可靠地求解整周模糊度是载体姿态测量的关键问题之一。针对这个问题,国内外许多学者和研究人员做了大量的工作。安徽理工大学徐跃[1]针对短基线单历元解算考虑到GEO卫星模糊度较难固定问题,在宽巷模糊度固定的基础上约束固定出IGSO和MEO卫星的模糊度,然后再用IGSO和MEO卫星模糊度约束固定出GEO卫星模糊度,而固定宽巷模

指挥控制与仿真 2021年5期2021-10-22
二进制浮点数转十进制的快速方法
情况下，对内存中浮点数二进制的转换支持并不完善。基于SIMD 的向量浮点单元，可以极大提高运算能力，但同时也增大了验证的难度。特别是在CPU 硅后验证阶段，硬件不可靠的情况下，调试时就需要把内存中浮点数取出然后转换为十进制数去分析是否符合预期。例如在龙芯2K1000[4]平台上进行向量优化时就遇到大量的浮点异常，这与传递到浮点寄存器中的数据大小有关。关于浮点数二进制转换为十进制，目前的多数研究还停留在根据IEEE754 标准去解析计算的阶段，这个计算过程是

辽宁工业大学学报(自然科学版) 2021年3期2021-06-24
基于Karatsuba和Vedic算法的快速单精度浮点乘法器
0663)单精度浮点数乘法运算的耗时主要集中在24 bit的尾数相乘部分。为了提高单精度浮点数乘法运算的速度，研究者提出了各种单精度浮点乘法器的改进方法[1-8]。文献[1]提出了基于Karatsuba算法[9-10]的改进设计，通过数学运算的公式变换，用加法器代替乘法器，相比于24 bit尾数直接相乘的单精度浮点乘法器的设计，该设计减少了3个乘法器，只使用了6个乘法器。但是乘法器的使用限制了单精度浮点乘法器运算速度的进一步提高。文献[2]提出了一种基于V

电子科技大学学报 2021年3期2021-06-19
DMR:兼容RISC-V架构的乱序超标量通用处理器核
、访存调度队列和浮点调度队列;调度队列中的指令就绪后,就会被乱序调度执行,每拍最多可以调度9条指令,其中3条整数指令、1条分支指令、2条load指令、1条store指令和2条浮点指令;指令被调度执行时读取寄存器文件获取源操作数,源操作数也可能来自旁路的数据;指令提交按序进行;指令Cache和数据Cache均为64 KB,4路组相联,Cache行大小均为64 B.Fig.1 DMR microarchitecture图1 DMR的微体系结构2 流水线DMR的

计算机研究与发展 2021年6期2021-06-17
兼容bfloat16 的高速浮点加法器设计
越来越高。由于浮点数科学计数的方式，在图像识别、机器学习等领域得到了越来越广泛的使用，对于数据计算速率的提升有很大的作用。由于浮点的加法、减法、转换、比较都可以转换为加法或者复用加法的部分计算来实现，使得浮点加法在运算中使用频率占50%以上［1］，所以浮点加法的性能提升对于浮点计算能力的提高有着非常重要的意义。在机器学习等领域发展过程中发现，一般情况下不需要用到32 位和64 位的高精度数据，而bfloat16 的数据格式比IEEE 754-2008

智能计算机与应用 2021年10期2021-02-25
基于RISC-V浮点指令集FPU的研究与设计
随着嵌入式系统中浮点运算的需求日益增多，应用范围从气候建模、电磁散射理论到图像处理、FFT 计算[1]、特征值计算等。为了支持和加速这些应用，需要能够产生高吞吐量的高性能计算设备。浮点处理器（Floating Point Unit，FPU）极大地提高了这些高计算应用的性能。在大多数现代通用计算机体系结构中，浮点处理器集成在处理器芯片内，比如ARM、MIPS等[2]。浮点处理器作为一种加速器，与整数流水线并行工作，并从主处理器分担大型计算、高延迟浮点指令。如

计算机工程与应用 2021年3期2021-02-04
GNSS模糊度整数估计方法图形可视化软件设计与应用分析
的核心在于模糊度浮点解的整数估计. 常用的三类模糊度整数估计方法包括:整数取整、整数序贯取整和整数最小二乘[5-10]. 尽管从理论上三类整数估计算法较容易被实现,且已有公开软件LAMBDA3.0提供三类模糊度整数估计功能[11]. 但是单纯地根据数学原理直接估计出整周模糊度,而对模糊度由实数空间映射到整数空间的过程缺乏直观的认知,不利于对三类估计理论的深入理解. 为更好地解释这三类整数估计过程,文献[5-6]采用归整域构建了模糊度实数域与整数域之间的几何

全球定位系统 2020年5期2020-11-18
基于启发式搜索的浮点表达式设计空间探索方法
）上的广泛应用，浮点计算在FPGA 上的应用变得越来越流行［1-4］。浮点数可以增加数据的表示范围，但是浮点计算的误差也会导致最终结果不准确。根据IEEE 754 标准，通过加、减或乘两个浮点数产生的计算结果都应四舍五入为IEEE 754 浮点数格式，这种舍入是浮点计算不准确的原因。当浮点数格式固定的前提下，浮点计算的误差主要取决于浮点表达式的形式。例如：表达式(x+y)2可表示为(x+y)×(x+y)和x×(x+y)+y×(x+y)等不同的形式，当x的取

计算机应用 2020年9期2020-09-29
流水的浮点倒数近似值运算部件的设计与实现*
201204)浮点运算部件是微处理器的重要运算部件，与处理器的性能直接相关。常见的浮点运算包括浮点加、减、乘、乘加等。这些浮点运算在传统的科学计算和工程计算应用领域中应用十分广泛。相对于这些常见的浮点运算，浮点倒数运算并不很常用，但是在数字信号处理、多媒体、计算机图形计算等应用领域，以及部分科学计算应用领域，却比较常用，也是一种重要的运算[1]。此外，利用浮点倒数运算，还可以实现浮点除法运算。常用的实现浮点倒数运算的算法与浮点除法类似，有基于减法运算的数

国防科技大学学报 2020年2期2020-05-06
一种模式可配置的单精度浮点乘法器设计
耗[1]。单精度浮点乘法器采用两个符合IEEE754标准的浮点数完成乘法运算，与定点运算相比，浮点运算单元(floating point units,FPUs)提供了高精度、高动态范围的实际值以及简单的编程模型[2]。一般而言，频率、功耗和面积是衡量乘法器和处理器性能的3个重要指标。为了降低浮点乘法器功耗，大多数的设计都是通过牺牲计算的精度来实现的[3-4]。例如，在某些对精度要求不高的机器学习和数据传感技术中，有研究直接利用一个乘数的值来代替乘法的结果，

西安邮电大学学报 2020年6期2020-04-07
DSP中的浮点与定点比较
和使用场景。1 浮点数据格式与定点数据格式1.1 浮点数据格式在计算机系统的发展过程中提出过多种方法表示实数，但是目前为止使用最广泛的是浮点表示法。IEEE（Institute of Electrical and Electronics Engineers，电子电气工程师协会）在I985年制定的IEEE 754（IEEE Standard for Binary Floating-Point Arithmetic，ANSI/IEEE Std 754-1985

通信电源技术 2020年1期2020-02-20
基于Simulink浮点模型和定点模型的问题研究
为例，重点解释了浮点模型和定点模型之间的区别，并通过自动生成的代码和CodeWarrior编译生成的可执行文件证明定点模型相对于浮点模型所占内存少。关键词：MATLAB/Simulink;自动代码生成;浮点;定点中图分类号：U462 文献标识码：A 文章编号：1671-7988（2019）04-131-03前言随着电动汽车的快速发展，企业对电子控制系统的性能与开发效率提出了越来越高的要求，传统手写代码的开发方式周期长、调试难度大，已经很难适用于现代电控

汽车实用技术 2019年4期2019-10-21
新思科技推出ARC VPX DSP处理器IP核
加速和高性能矢量浮点流水线等增强功能有助于我们开发精确的算法实现。”ARC VPX5和VPX5FS处理器支持单核、双核和四核配置。每个VPX内核包含一个标量执行单元和多个矢量计算单元，支持512位矢量字节内的8位、16位和32位SIMD运算。全新DSP处理器高度可配置功能，使开发人员能够通过只选择满足性能所需的硬件功能和矢量资源来优化功耗和尺寸。用于机器学习和人工智能应用的神经网络算法，可以由ARC VPX处理器使用8位数据类型以及16位和32位浮点数据类

计算机与网络 2019年22期2019-09-10
面向人工智能的浮点乘加器设计
训练和推理应用。浮点乘加部件能力是衡量人工智能芯片性能的主要指标。以NVIDIA Tesla V100为例，该芯片可达到7.5 TFLOPS的双精度计算性能、15 TFLOPS的单精度计算性能和125 TFLOPS的张量计算性能。Tesla V100中包含2 560个FP64的计算单元和5 120个FP32的计算单元，同时引入了640个张量核心。作为人工智能卷积运算的基本单元，张量计算单元的运算方式如图1所示。图1 Tensor Core基本运算方式矩阵运

计算机技术与发展 2019年8期2019-08-22
一种机载GNSS高精度定位算法
,提高模型强度与浮点解质量;其次,为充分挖掘模糊度参数的整周约束信息,当模型无法可靠地固定全部模糊度时,选用部分模糊度固定策略,提高模糊度固定效率及可靠性．本文方法可自适应调整大气扰动随时间、空间的变化,实现长短基线定位模式的灵活、有效切换,而部分模糊度固定策略充分发掘了模糊度参数的整周特性．1 GNSS定位模型1.1 浮点电离层模型GNSS动态定位非组合双差观测方程为(1)1.2 无电离层组合模型对于双频GNSS接收机,通常采用双频无电离层组合模型消去电

全球定位系统 2019年2期2019-05-07
传感器数据采集系统设计
用单精度或双精度浮点数进行采集，但是浮点数据在计算机内部存储的结构有别于其他类型的数据，同时由于传输的过程中存在丢包和干扰现象，为实现在上位机和下位机之间浮点数据的采集，本文使用STM32位处理器作为下位机主控，对PC上位机和下位机之间的通讯机制进行了初步研究。2 下位机设计有刷直流电机[2]调速系统由有刷直流电机、电机驱动模块、STM32F103C8T6最小开发板模块、霍尔编码器构成。在使用开发版板串口时，首先对相关寄存器初始化设置，以使串口发送接收数据

中小企业管理与科技 2018年27期2018-11-07
基于FPGA 的浮点LMS 自适应滤波算法的设计与实现
基于FPGA 的浮点LMS 自适应滤波算法的设计与实现齐志强*（中国空空导弹研究院，河南洛阳，471009）针对定点LMS(最小均方误差）自适应滤波算法动态范围小，运算精度差的弊端，提出了一种基于FPGA的浮点LMS自适应滤波算法的实现方法。该方法能够有效降低量化误差造成的性能损失，避免了采用DSP实现算法造成的硬件开销，降低了系统设计复杂度，提高了系统可靠性，同时还具有可移植性强，应用灵活等优点。自适应；抗干扰；浮点；最小均方误差；FPGA引言自适应滤波

数码设计 2017年6期2017-12-14
AMD发布首款Vega计算卡：16GB HBM2显存
，其16位半精度浮点性能达到25TFLOPs，32位单精度浮点性能达到12.5TFLOPs，热设计功耗低于300W。另外AMD全新的Vega计算卡同样搭载了最新的HBM2显存，容量为16GB，显存带宽为512GB/S，和Nvidia Tesla P100相比，AMD所使用的HBM2显存拥有更好的缓存管理机制。作为高性能集群运算的代表厂商，超微计划在明年上半年推出基于MI25计算卡的集群超级计算机，预计单精度性能可以达到100TFOPs。除了这张基于Vega

中国信息化周报 2016年49期2017-03-13
单双精度浮点运算加法器的实现
：为了使单双精度浮点加法运算方便，减少资源浪费，设计了一套可同时运行两路单精度或一路双精度的浮点运算加法器结构。该浮点数加法器可通过信号控制端，在高电平时执行双精度浮点加法，低电平时执行单精度浮点加法，且运算结果符合IEEE-754标准格式，通过实验验证，该加法器结构合理，功能正确。关键词：浮点运算；加法器；IEEE-754标准中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2016）31-0231-02浮点数的引用随着网络时代的迅速

电脑知识与技术 2016年31期2017-02-27
不同运算机制下FFT计算精度分析*
主要研究定点、块浮点和浮点运算机制下，频域抽取基4算法的精度问题。首先分析了定点、块浮点、浮点等运算机制下，基4算法基本运算单元中数据不同表现形式及输出截位规则。然后利用MATLAB平台建立了定点与块浮点FFT仿真模型，以噪信比作为FFT输出精度指标，研究输出精度与输入信号范围、算法参数之间的关系。仿真表明，输入为随机序列时，定点与块浮点FFT输出噪信比与输入信号幅值范围、输入序列长度及算法输入位宽有关。此结论可用以解决实际工程中小信号频谱失真问题，在工程

电子技术应用 2016年12期2016-12-22
基于Xilinx FPGA lP核的浮点频域脉冲压缩算法的设计与实现
PGA lP核的浮点频域脉冲压缩算法的设计与实现邢冠培,孟凡利(上海航天电子技术研究所，上海,201109)脉冲压缩体制雷达的发射信号通常包括多种线性调频信号，这就要求对回波信号的脉冲压缩处理适应性要强，如果采用定点脉压，不同信噪比的回波信号脉冲压缩结果的截位各不相同，需要分别进行仿真测试，以确定截位的位置，而本文提出一种浮点频域脉压的算法及实现，基于Xilinx FPGA IP核，无需考虑截位，对各种信号适应性强，方便易用。IP核；脉冲压缩；浮点；频域0

电子测试 2015年15期2015-12-05
一种细粒度流水化控制的FPU集成方法
，该方法通过细分浮点指令的执行状态，然后以执行状态为基本粒度生成与之对应的FPU控制信息，最后根据控制信息分段处理目标操作数，并通过流水化的形式实现数据的回写。基于一款SPARC V8型微处理器对上述方案进行了设计实现、仿真验证及分析。结果表明，该FPU集成方法与公开文献的方案相比，浮点指令关键路径缩短61%，硬件消耗减小16. 9%，浮点计算效率提高1.7倍，可用于将扩展双精度FPU集成到RISC处理器中，并使两者高效协同运算。FPU；协同运算；细粒度；

西北工业大学学报 2015年6期2015-10-22
高速深流水线浮点加法单元的设计
9）高速深流水线浮点加法单元的设计张明1，2，郑莉平1，余宁梅1 （1.西安理工大学自动化与信息工程学院，陕西西安 710048；2.中国航天科技集团公司第九研究院第七七一研究所，陕西西安 710119）在X87执行环境下，采用基于Two-Path算法的并行深度流水线优化算法，设计了一种能够实现符合IEEE-754标准的单精度、双精度和扩展双精度及整型数据且舍入模式可控的高速浮点加法器。采用并行深度流水设计，经验证，功能满足设计要求，使用TSMC6

网络安全与数据管理 2015年20期2015-10-21
Quartus II v14.1支持具有硬核浮点DSP模块的FPGA
.1支持具有硬核浮点DSP模块的FPGAAltera公司发布其Quartus II软件v14.1，扩展支持Arria 10 FPGA和SoC——FPGA业界具有硬核浮点DSP模块的器件，也是集成了ARM处理器的20 nm SoC FPGA。Altera最新的软件版本可立即支持集成在Arria 10 FPGA和SoC中的硬核浮点DSP模块。用户现在可以选择三种独特的DSP设计输入流程，DSP性能达到1.5 TFLOPS。软件还包括多项优化，加速Arria 1

单片机与嵌入式系统应用 2015年2期2015-03-24
基于“魂芯一号”的自适应截位浮点乘法实现∗
。现阶段32位单浮点精度无法满足自相关浮点矩阵的精度要求,因此本文基于国产“魂芯一号”DSP(简称BWDSP100)的指令系统,提出了一种自适应截位的浮点复数矩阵乘法,将浮点数据以最大值为基准扩位成定点数据,采用BWDSP100指令集中的72位定点乘累加器,将乘累加后的结果通过自适应截位处理,并对获取浮点数据的指数位进行调整,使得最终获取的结果最大程度地保留小数精度,减少截位过程的误差影响。本文使用BWDSP100作为实现平台,BWDSP100是由中国电子

雷达科学与技术 2015年3期2015-01-22
基于C++ Builder 6.0的IEEE 754中单精度浮点数转换实现
可以精确表示某一浮点型数据的单精度（常用）和双精度表示方法，这在许多对数据精度要求较高的场合得到广泛应用，而在数据通信过程中所有数据都是以十六进制打包和解析、二进制形式传输的，所以研究如何根据该标准把所要传输的浮点型数据编程转换成8位十六进制数据具有重要的实用意义。这里在分析和研究IEEE 754标准中浮点型数据单精度表示方式的基础上，结合Borland C++Builder 6.0可视化编程工具，阐述了如何把单精度浮点型数据转换成所需要的8位十六进制数，

现代电子技术 2014年20期2014-10-14
用于导航解算的矩阵运算硬件加速器设计
3］。因此，提高浮点矩阵乘法运算速度对惯导系统实时性的提高具有重要意义。之前的浮点矩阵乘积运算一般都采用PC或DSP实现，但这种串行处理器在应对高阶数、高复杂度的算法时，更新速率并不高。伴随超大规模集成电路技术的发展，国内外很多学者开始研究使用具有并行处理能力的FPGA来计算浮点矩阵乘积［4］。文献［5］提出了一种各计算单元之间不存在任何通讯的并行矩阵乘法器结构，但其所需要的存储空间随矩阵维数的增加而显著增加，且效率较低。文献［6］在Xilinx FPGA

计算机工程 2014年8期2014-09-29
采用Karatsuba 算法在FPGA 上实现双精度浮点乘法
安710065)浮点运算广泛应用于诸多领域，特别是在科学计算、数值分析和信号处理等方面，如数字滤波器、FFT、图像处理等。在所有的浮点算术运算中，乘法是其核心算法之一，如何构建高效的浮点乘法器一直是人们关注的焦点。随着FPGA技术的发展，由于FPGA器件本身的优势——速度、逻辑资源、丰富的IP核等，使得采用FAPG实现通用高性能的运算器成为可能。按照IEEE754中定义的双精度浮点数的尾数有53 bit，采用FGAP实现53 bit×53 bit的硬件乘法

西安石油大学学报（自然科学版） 2014年1期2014-04-01
Altera在Arria 10 FPGA率先提供硬核浮点DSP模块
前宣布在FPGA浮点DSP性能方面实现了变革。Altera是第一家在FPGA中集成硬核IEEE 754兼容浮点运算功能的可编程逻辑公司，大大提高了DSP性能、设计人员的效能和逻辑效率。基于TSMC 20SoC工艺技术，Arria 10 FPGA和SoC在单个管芯中实现了业界容量最大、性能最好的DSP资源。应用专利冗余技术，Altera开发了含有以万逻辑单元(LE)的业界密度最大的20 nm FPGA管芯。Arria 10器件性能比最快的28 nm高端FPG

电子技术应用 2014年5期2014-03-28
一种基于SRT－8算法的SIMD浮点除法器的设计与实现＊
073）1 引言浮点除法运算是基本操作之一。在早期的计算机中，除了除法本身的复杂性外，除法的不频繁使用导致了人们对除法效率的忽略。随着VLSI技术的发展，针对各个应用领域的处理器相继出现，特别是DSP、MMP等专用处理器，这些处理器的应用需求使得除法应用越来越广泛；而通用处理器中也大部分实现了浮点除法，如AMD－K7、Intel Core i7和Intel Itanium［1］等等。同时，各种应用的处理器对计算速度、芯片面积以及功耗大小的要求也对除法的实现

计算机工程与科学 2014年5期2014-03-23
载波相位差分相对定位的模糊度求解
，利用序惯条件下浮点模糊度及其协方差矩阵构造搜索空间，以模糊度残差平方和最小准则确定整周模糊度[6-7]。但不能保证能够得到正确解，为了获得正确的模糊度，需对双差模糊度浮点解进行整数变换降相关，以降低模糊度分量之间的相关性，然后再利用变换后的序惯条件下浮点模糊度及其协方差矩阵构造搜索空间，以模糊度残差平方和最小为准则确定整周模糊度，该方法因具有较高的搜索效率因而受到广泛关注[5-8]。其求解过程如图2所示。1)模糊度浮点解采用最小二乘法。图2 模糊度解算框

导航定位学报 2014年1期2014-01-16
Altera在Stratix 10 SoC率先采用四核64位Cortex-A53
x-A53、硬核浮点 DSP模块和1 GHz FPGA模块。硬核浮点DSP模块可达到10 TFlops的运算速度。”Chris详细解释了采用硬核浮点DPS模块给工程师带来的帮助：“众所周知，浮点运算DSP范围广，运算精度高，但浮点DSP的浮点运算需用硬件实现，价格昂贵；很多工程师只好用浮点DSP建模，定点DSP实现，以降低成本；采用Intel 14 nm三栅极工艺技术实现后，晶体管数量大量增加，实现浮点DSP模块成本不会增加很多，但对工程师帮助很大。”Al

电子技术应用 2013年11期2013-08-13
整周模糊度搜索空间确定方法研究*
模糊度初值，又称浮点解。一般采用在某一空间进行搜索的方法得到模糊度整周解。如何合理确定模糊度搜索空间是模糊度搜索方法的难点，也是不同模糊度搜索方法的主要区别之一。1 几种动态模糊度初始化方法比较目前利用较多的模糊度搜索方法有:AFM[1]、FARA[2－3]、FASF[3－5]、LAMBDA[6－13]和 Cholesky[14]分解方法等。其中，AFM在坐标域内进行搜索，其余几种方法均在模糊度域内进行搜索。目前各种单历元整周模糊度搜索方法普遍存在的问题是

弹箭与制导学报 2012年5期2012-12-10
基于FPGA的全流水双精度浮点矩阵乘法器设计
硬件结构和出色的浮点计算性能，适合对矩阵乘法进行硬件加速，是当前的研究热点.目前，采用FPGA实现矩阵乘法计算的研究已经取得一些成果.在定点矩阵乘法方面，Amira等在FPGA上实现了8位定点的矩阵乘法器，但是该设计所需要的带宽与矩阵规模成比例增加，限制了该设计的可扩展性［1］;Jang等设计的矩阵乘法器只需要固定的带宽，但是所需要的存储单元大小与矩阵规模成正比［2］.在浮点矩阵乘法方面，Campell等设计了一个并行结构矩阵乘法器，该设计中的各个计算单元

智能系统学报 2012年4期2012-09-24
基于嵌入式方法的浮点单元验证系统设计
IC的重要性。对浮点单元而言，验证更加困难。Intel曾经因为奔腾处理器的浮点错误而损失了数以亿计的美金，而且严重损害了公司的声誉。为了对某定浮点合并的FALU［1］进行验证，文献［1］采用特殊数据和随机数据相结合的方法对其进行了充分的功能仿真，但是只进行功能仿真是不够的。在芯片流片前为了在实际电路中对其进行验证，一般都需要用FPGA做原型验证。一种方法是直接把FALU综合后下载到FPGA里对其进行验证。这里采用另外一种方法，利用Xilinx公司FX系列带

微处理机 2012年1期2012-07-25
面向移动终端的统计机器翻译解码定点化方法
器翻译需要大量的浮点运算，无浮点运算单元的中低端嵌入式处理器影响了翻译速度。另一方面，面向移动终端的语音翻译也面临同样问题。对此，本文提出了将统计机器翻译解码运算定点化的方法。与统计机器翻译的浮点解码运算相比，利用定点实现解码运算可以降低对计算资源的需求，获得更好的翻译性能。实验结果表明，在保证同等翻译质量的情况下，本方法可以有效地提高统计机器翻译在移动终端上的翻译速度。本文在第2节简要介绍了统计机器翻译系统，第3节介绍了计算机内部数据的表示方法，第4节详

中文信息学报 2011年2期2011-06-28
新年伊始TI加强C2000系列在PLC领域实力TMS320F2806x Piccolo MCU能为可再生能源、PLC与电机控制提供浮点内核
量。TI的高性能浮点微控制器(MCU)Delfino系列(运算速度约在100～300 MIPS)及低端的Piccolo MCU系列(运算速度在40～60 MIPS)覆盖的范围虽然很广，但是缺少运算速度在60～80 MIPS之间的实时处理MCU，为了弥补这一空缺，TI日前宣布推出15款最新低成本TMS320F2806x Piccolo浮点MCU，以提供能平衡低成本Piccolo与高性能Delfino的性能，为可再生能源、电力线通信(PLC)、电机控制、数字电

电子技术应用 2011年2期2011-04-02
Altera演示基于模型的FPGA浮点DSP工具
了使用FPGA的浮点DSP新设计流程,这是基于模型的浮点设计工具,支持在FPGA中实现复数浮点DSP算法。Altera浮点DSP设计流程包括集成在DSP Builder高级模块库中的Altera浮点DSP编译器、Quartus II RTL工具链、ModelSim仿真器,以及 Math-Works MATLAB和Simulink工具,简化了FPGA的DSP算法实现过程。浮点设计流程结合并集成了算法模型和仿真、RTL产生、综合、布局布线以及设计验证级等。通过

单片机与嵌入式系统应用 2011年11期2011-04-01
基于IP核的数选式浮点矩阵相乘设计
提高嵌入式系统中浮点矩阵乘法运算的速度，则可加快其他类型的矩阵运算速度。目前实现浮点矩阵运算的方法，有直接使用VHDL语言编写的浮点矩阵相乘处理单元[1]，关键技术是乘累加单元的设计，通常依据设计者的编程水平决定硬件性能。同样，FPGA厂商也推出了一定规模的浮点矩阵运算IP核[2]，其应用针对本厂家器件，且经过专业调试和硬件实测，性能稳定且优于手写代码，但还有一些可改进的地方。本文基于Altera的算法IP核，采用数选方式对矩阵运算中的单精度浮点矩阵相乘进

电子技术应用 2011年6期2011-03-21
参数化可配置IP核浮点运算器的设计与实现
像处理中有大量的浮点数加、减、乘、除操作，浮点数本身的复杂性决定其需要专用的硬件来实现[1]。传统硬件电路的实现依靠手工搭建，过程复杂，存在电路参数分布性大、元器件老化、易受温度影响及通用性差等问题，尤其是对网格状多涡卷混沌吸引子的电路设计和调试需要花费更多时间。此外，要求电路设计者要有较高的技巧和经验[2]。基于IP核模块的设计方法是采用IP核模块而不是采用基本逻辑或电路单元作为基础单元，是以功能组装代替功能设计，用户只需通过设置参数即可方便地按需要定制

电子技术应用 2011年4期2011-03-15
浮点反正切函数的FPGA实现
E-754单精度浮点数据格式对输入输出数据进行处理，实现了高精度的浮点反正切函数的计算。1 反正切函数实现原理CORDIC算法有旋转模式和向量模式两种计算模式。旋转模式可以用来计算一个输入角的正弦、余弦，向量模式可以计算给定向量的角度和长度。CORDIC算法的基本迭代公式为:如果将输入向量通过一个特定的角Y变为0，且旋转的方向取决于Y的符号，即:则N次迭代后CORDIC公式的输出变为:其中P为旋转增益，P≈1.646 76。如果Z0=0，对于给定的X0和Y

电子技术应用 2010年8期2010-08-12
德州仪器最新TMS320C66x DSP实现业界最高定点与浮点性能独立BDTI基准测试表明TI C66x DSP内核性能远胜该市场所有其它DSP
测试中，其定点与浮点性能均获得最高评分。BDTI DSP Kernel Benchmarks(TM)套件分别对C66x DSP内核的定点与浮点性能进行的测试结果表明，在两组测试中该内核都获得了业界最高评分。C66x的浮点基准测试评分比此前参加测试的所有器件评分都高出2倍以上。技术分析权威公司BDTI在其《InsideDSP》新闻报中指出：“C66x的浮点性能BDTImark2000测试评分达10,720，远远超过了前代浮点DSP的性能。这将有助于应用开发人

电脑与电信 2010年11期2010-04-16
ADI公司扩展SHARC浮点DSP产品系列
将高性能、低功耗浮点处理精度扩展到广泛的HD音频、家庭影院、汽车电子、便携式医疗设备、工业控制和仪器仪表设计。新型SHARC处理器具有如下特性:400 MHz;5 Mb大容量片内存储器;低功耗浮点DSP(363 m W);单芯片、浮点信号处理精度。借助ADI公司SHARC系列32位浮点数字信号处理器(DSP)最新产品,设计人员将能更好地发挥浮点处理精度的优势,系统功耗预算、电路板空间和器件成本则不受影响。

单片机与嵌入式系统应用 2010年6期2010-04-04
SHARC DSP产品组合在高性能、低功耗浮点处理精度方面实现飞跃
nc.推出32位浮点数字信号处理器SHARC产品组合的最新成员-SHARC 2148x及 SHARC 2147x系列。高性能 SHARC 2148x及低功耗 SHARC 2147x系列处理器凭借集成高达 5 Mb的存储器，为各种应用提高了单芯片、浮点信号处理精度，并为便携式设备实现了高端系统功能。通过SHARC 2148x及SHARC 2147x处理器，设计师可以利用端到端SHARC系列的代码兼容性及鲁棒的ADI开发工具套件，借助性能极佳的32位浮点DSP

电子设计工程 2010年5期2010-04-04
Visual Basic处理浮点DSP芯片数据的方法
Basic处理浮点DSP芯片数据的方法雷文英1刘娜2张龙3(1.西安石油大学光电油气测井与检测教育部重点实验室陕西西安)(2.西安电子科技大学通信工程学院陕西西安) (3.中国石油集团测井有限公司长庆事业部陕西高陵)文章针对各DSP芯片中浮点数的特点,对计算机软件处理浮点DSP的数据的方法进行了分析并设计出相应的处理算法,最后在Visual Basic环境下对各自的算法描述进行了算法实现。实践表明,该算法处理结果误差小,稳定可靠,具有可移植性且

石油管材与仪器 2010年4期2010-02-06
单精度浮点加法器的ＦＰＧＡ实现
GA上实现单精度浮点加法器的设计，通过分析实数的IEEE 754表示形式和IEEE 754单精度浮点的存储格式，设计出一种适合在FPGA上实现单精度浮点加法运算的算法处理流程，依据此算法处理流程划分的各个处理模块便于流水设计的实现。所以这里所介绍的单精度浮点加法器具有很强的运算处理能力。关键词：IEEE 754；单精度浮点；加法运算；FPGA中图分类号：TP368.1文献标识码：B文章编号：1004—373X(2009)08—008—03

现代电子技术 2009年8期2009-06-25

热门标签