新能源汽车电池回收网点竞争选址模型及算法

2024-03-21 02:25刘勇，杨锟

计算机应用 2024年2期

刘勇，杨锟

（上海理工大学管理学院，上海 200093）

0 引言

2022 年国内新能源汽车销量已超过500 万辆，动力电池的平均寿命大约为6 年，2023—2024 年将迎来第一波退役潮，预计2025 年废旧动力电池回收市场空间可超过300 亿元。近年来，由于“双碳”政策的持续推行，新能源汽车电池回收工作得到更多关注，考虑到城市人口及汽车保有量众多，新能源汽车电池回收网点的选址显得尤其重要。当市场上有多家企业提供电池回收服务时，企业将通过市场竞争获得客户需求，这类问题即为竞争设施选址问题［1］。

目前电池回收相关研究主要围绕选址问题展开，尚未考虑回收企业的竞争性，但一般的竞争设施选址问题可为本文提供参考。Esmaeili 等［2］研究了包含供应商、分销商和客户的两条不同供应链中的离散型竞争设施选址问题，将交货期视为新配送中心和现有配送中心之间的竞争因素，采用分支限界法和遗传算法求解模型；Yu［3］提出了一个新进入企业的两级稳健模型，对于大规模问题，首先通过探索最优解给出求解内层模型的A 型广义连续背包问题（Generalized Continuous Knapsack Problem-A，GCKP-A）算法，然后在改进的基于排序的算法框架中嵌入GCKP-A 和2-opt 策略，提出一种启发式算法；Mai 等［4］研究了随机效用的最大捕获竞争设施选址问题，基于目标函数的凸性和可分离结构，提出多切口外近似方法进行求解；Lin 等［5］研究了竞争设施选址问题的一个变体，将吸引力划分为离散的级别，以决定设施的位置和吸引力水平，使利润最大化，并设计精确算法进行求解；刘伟伟等［6］研究了考虑碳排放的多产品竞争设施选址问题，构建双层规划模型，先将双层规划转化为有界闭集上的0-1 混合整数凹规划，然后提出具有全局收敛性的分支提升算法进行求解；Fernández等［7］考虑了顾客的最小吸引条件和间隔近似距离，建立非线性约束离散竞争设施选址模型，先对模型进行线性化，然后提出了一种启发式算法进行求解；Shan 等［8］考虑了新进入企业与现有竞争者之间的定价博弈，提出竞争选址双层模型，该模型根据纳什均衡原理，通过最大化效益优化选址，并设计启发式算法求解该模型；Zarrinpoor［9］提出了一个拥挤系统的双目标竞争设施选址模型，试图同时最大化每个设施捕获的需求和最小化系统的总等待时间，采用多目标和声搜索（Multi-ObjectiveHarmony Search，MOHS）算法和非支配排序遗传算法-Ⅱ（Non-dominated Sorting Genetic Algorithm-Ⅱ，NSGA-Ⅱ）求解该模型。

目前考虑排队论的竞争设施选址研究较少，本文提出考虑排队系统的新能源汽车电池回收网点竞争选址的新模型；考虑到人类学习优化（Human Learning Optimization，HLO）算法存在前期收敛较慢、寻优精度不高和求解稳定性不高的问题，本文引入精英种群反向学习策略、团队互助学习算子和调和参数自适应策略，提出改进人类学习优化（Improved Human Learning Optimization，IHLO）算法。最后以长江三角洲、上海市为例分别进行大、中、小规模的仿真实验，实验结果验证了新模型的可行性和新算法的有效性。

1 新能源汽车电池回收网点竞争设施布局规划模型

1.1 问题描述

市场上有两家知名新能源汽车电池回收企业A 和B，均已有一些回收网点，新兴企业C 也有一部分回收网点，但由于规模太小，市场影响力不足，将新建m个回收网点，与企业A、B 竞争市场份额，由于市场中的需求量在一定时间内不变，当企业A、B 吸引大量需求量时，企业C 营业额将减小，企业C 若能通过合理的选址布局形成竞争优势，则能争夺更多需求量，本文目标是使企业C 在与企业A、B 竞争需求量的条件下，通过新建设施的选址决策达到已建设施和新建设施的最大总利润。

假设条件：1）需求点和回收网点在区域内离散分布，三家企业的已建设施点、企业C 的候选新建设施点、需求点的坐标均已知。此条件确定本文问题为组合优化问题，且已知坐标将用于计算需求点到设施点的距离。2）需求点的需求量、需求点单位需求量带来的收益、三家企业的回收价格、企业C 设施点的固定成本均已知。此条件用于计算企业C 新建设施点和已建设施点的利润和成本。3）顾客根据概率选择设施点，概率大小取决于设施点的效用所占比例。此条件确定顾客的概率选择行为，以此计算顾客选择每个设施点的概率。4）各需求点的需求量相互独立且服从同一正态分布，即ai～N（μ，σ2）。此条件将用于化简式（20）。5）设施点对需求点的效用与设施点到需求点的距离、排队系统服务强度负相关，与回收价格正相关，成本与顾客平均排队时间正相关。此条件用于构建模型中的各项表达式。

1.2 符号说明

模型所用集合设置如下：i表示需求点，I表示需求点集合，i∈I；j表示企业C 候选设施点，J表示企业C 候选设施点集合，j∈J；r表示竞争企业A 已建设施点，R表示竞争企业A 已建设施点集合，r∈R；s表示竞争企业B 已建设施点，S表示竞争企业B 已建设施点集合，s∈S；v表示企业C 已建设施点，V表示企业C 已建设施点集合，v∈V。

模型所用参数设置如下：λj表示系统单位时间产生的平均需求量；μj表示单个服务台单位时间处理的平均需求量；ρj表示系统服务强度；P（j0）表示系统中顾客数为0 的概率；Lj表示系统中正在排队的顾客数；Wj表示每个顾客的平均排队时间；Uj表示每个顾客的平均总逗留时间；cij表示由回收价格、距离、排队系统服务强度组成的代价函数；dij表示需求点i到设施点j的距离；uij表示设施点j对需求点i的效用；pij表示需求点i的顾客选择设施点j的概率；cj表示设施点j的固定成本；cv表示设施点v的固定成本；c1表示企业C 候选点的服务台建设成本；c2表示企业C 候选点的排队时间成本；c3表示企业C 已建点的服务台建设成本；c4表示企业C 已建点的排队时间成本；ai表示i点的需求量；e表示单个服务台成本；f表示单位需求量带来的收益；g表示回收价格；m表示企业C新建回收网点的总数；n表示服务台数；C表示新建设施点总成本不超过其投资限额；Q表示容量限制；T表示门槛约束；D表示最长排队时间；E表示预期最长总逗留时间；N表示系统中顾客数；α表示满足门槛约束的最小期望概率；β表示满足总逗留时间约束的最小期望概率；γ表示顾客需要排队的最大容忍概率。

模型所用决策变量设置如下：yj表示如果选择候选点j作为回收网点，yj=1；否则yj=0。

1.3 新能源汽车电池回收网点竞争设施选址数学模型

回收网点的服务台数有限，当系统内顾客数多于服务台数时需要排队等待。首先考虑如下排队系统：回收网点j有n个服务台，顾客到达时间间隔服从参数为λj的泊松分布，单个顾客服务时间服从参数为μj的指数分布，则此系统可视为M/M/n排队系统［10］，第一个M 表示顾客到达时间间隔服从泊松分布，第二个M 表示单个顾客服务时间服从指数分布，n表示服务台数，排队系统关键指标如下：

其中：Uj表示每个顾客的平均总逗留时间，总逗留时间等于排队时间加服务时间，Pj(N≥k)表示系统中顾客数N≥k的概率，当k=n时，Pj(N≥k)表示顾客必须排队的概率。

本文提出代价函数cij表达式如下：

其中：e 为自然常数，a1、b1、d1、e1均为常数。考虑到顾客的概率选择行为，本文采用Logit 效用模型［11］，企业C 候选设施点j对需求点i的效用uij表达式如下：

企业A、B、C 已建设施点对需求点的效用都采用式（7）的方式计算。需求点i访问企业C 候选设施点j的概率如下：

需求点i访问企业C 已建设施点v的概率如下：

需求点i访问企业A 已建设施点r的概率如下：

需求点i访问企业B 已建设施点s的概率如下：

企业C 新建设施点成本表达式如下：

其中：a2、b2、d2均为常数。企业C 已建设施点成本表达式如下：

其中各项与候选点成本表达式相对应。

根据上述分析，本文以企业C 为研究对象，以企业C 已建设施和新建设施的总利润最大为目标，建立如下新能源汽车电池回收网点竞争设施选址数学模型：

目标函数包括4 部分，分别表示企业C 新建设施利润、企业C 已建设施利润、企业C 新建设施成本和企业C 已建设施成本。式（17）表示企业C 新建设施总数；式（18）表示新建设施点成本约束；式（19）表示新建设施点容量约束；式（20）表示新建设施点门槛约束，即每个新建设施点达到门槛需求量T的概率不低于α，实验中设置了T和α的值；式（21）表示新建设施点排队时间约束，结合式（3），Wj表示顾客平均排队时间，因此实验中设置了最长排队时间D的值；式（22）表示新建设施点总逗留时间约束，即每个新建设施点的顾客平均总逗留时间小于E的概率不低于β，此约束需用到式（4），实验中设置了E和概率β的值；式（23）表示新建设施点顾客必须排队的概率约束，此约束需用到式（5），实验中设置了概率γ的值；式（24）表示选址决策变量yj取值为0 或1。

对于式（20），由于本文已假设各需求点的需求量相互独立且服从同一正态分布ai～N（μ，σ2），因此，对于任意企业C候选设施j∈J的均值为方差为根据大数定律和中心极限定律［12］，可化简式（20）并替换为式（25）：

对于M/M/1 排队系统，顾客总逗留时间服从参数为μ-λ的指数分布，为方便模型求解，本文假设M/M/n排队系统的顾客总逗留时间Uj服从参数为nμj-λj的指数分布，Uj概率密度函数如下：

因此，可化简式（22）并替换为式（28）：

2 改进人类学习优化算法

本文研究的新能源汽车电池回收网点竞争选址问题属于NP-hard 问题，采用优化算法进行求解。HLO 算法是一种新型的群智能优化算法，针对其前期收敛速度较慢、寻优精度不够高和求解稳定性不够高等问题，本文在HLO 算法基础之上引入精英种群反向学习策略、团队互助学习算子、调和参数自适应策略，进而提出IHLO 算法。

2.1 人类学习优化算法

HLO 算法由Wang 等［13］于2014 年提出，该算法不同于基于普通生物或物理现象的智能优化算法，而是模拟人类的学习行为。HLO 算法的核心内容包含随机学习算子、个体学习算子和社会学习算子这3 个学习算子。联想到人类的学习过程，在没有任何先验知识的情况下，只能漫无目的地随机学习，这样的学习模式比较低效，但同时也可能启发对未知领域的认知；人类在随机学习一段时间后会积累经验，这时可以根据经验调整学习方向，以之前较好的经验为基准继续自主学习；人类在自主学习一段时间后可能遇到瓶颈，无法突破自我，这时，人类会与周围的人交流学习经验，互相学习，结合他人的经验调整学习方向。HLO 算法通过充分融合这三种学习机制，不断更新迭代寻找最优值，它的优势主要在于全局搜索能力强、收敛较快、参数较少以及易实现，因此，近几年来被大规模应用于各类工程优化问题上。

2.1.1 初始化

HLO 算法采用二进制编码框架，每个个体由一个二进制字符串表示：

其中：xi表示第i个个体，N为种群的规模，M表示解的维数，二进制字符串的每一位都被随机初始化为0 或1，xij表示第i个个体的第j维。

2.1.2 学习算子

1）随机学习算子。

HLO 算法模拟人类随机学习过程开发的随机学习算子表达式如下：

其中rand是（0，1）内均匀分布的随机数。

2）个体学习算子。

HLO 算法模拟人类自主学习的过程，将进行个体学习的经验储存于个体知识库（Individual Knowledge Database，IKD），IKD的表达式以及个体进行个体学习的形式如下：

其中：IKDi表示第i个个体的知识库；G表示候选解的个数；IKDi的每一个行向量都表示个体i的一个最优解，ikdi1表示个体i的最优候选解，ikdiG表示个体i的最差候选解，越靠前最优解越佳；ikdip表示个体i的第p个最优解，p是1 到G之间的随机整数，决定个体学习哪一个个体最优解；ikipj表示第i个个体的第p个最优解的第j维。

3）社会学习算子。

HLO 算法模拟人类社会学习的过程，将整个社会的学习经验储存于社会知识库（Social Knowledge Database，SKD），SKD的表达式以及个体进行社会学习的形式如下：

其中：H表示候选解数；skdq表示整个社会的第q个最优解，q是1～H的随机整数，决定个体学习哪一个社会最优解；skqj表示第q个最优解的第j维。

HLO 算法通过控制每种学习方式的比例产生新解，完整的学习策略如下：

其中：rand是（0，1）均匀分布的随机数，rand（0，1）表示随机学习算子，随机生成0 或1，pr、pi-pr、1 -pi分别表示算法执行随机学习算子、个体学习算子、社会学习算子的概率。

2.2 算法改进

HLO 算法虽在部分优化问题上表现优异，但也存在一些不足：1）HLO 算法的种群初始化未采用任何优化策略，初始种群可能不够丰富，易导致算法陷入局部最优；同时，较差的初始解不利于学习经验的更新，算法在起步阶段很难快速收敛到较优区域。2）HLO 算法中的个体学习算子和社会学习算子可将学习经验分享给新种群，但个体学习和社会学习跨度较大，学习经验差异也较大，融合之后的学习经验不一定对新种群有积极作用，导致算法寻优精度提升不明显。3）HLO 算法的参数pr和pi设置为固定值，不利于个体对搜索空间的全面勘探，无法确保各种学习算子在有利区域发挥自身优势，导致求解效果存在偶然性，算法稳定性不足。

针对HLO 算法前期收敛较慢的问题，本文提出精英种群反向学习策略，在算法初始化时让种群反向学习，在原种群与反向学习后的种群中保留更优个体生成精英种群，将精英种群作为初始化种群，使算法在前期能快速找到较优解；针对HLO 算法寻优精度较低的缺陷，本文提出团队互助学习算子，在个体学习与社会学习之间加入双人小组学习和多人小组学习，使不同学习阶段之间更连贯，同时扩大学习面，加强算法的全局勘探能力，提高寻优精度；针对HLO 算法求解稳定性较低的缺陷，本文提出调和参数自适应策略，提出在不同学习阶段调和使用的自适应参数和高斯分布动态参数，提高学习的灵活性，确保种群到达最佳学习区域，提高算法稳定性。

2.2.1 精英种群反向学习策略

反向学习被广泛应用于算法的初始化过程中［14］，假设a、b分别是（a，b）区间中的上下限，j代表维数，p是原值，则P是原值反向学习后的值，表达式如下：

考虑本文的二进制编码框架，个体的每一维都为0 或1，本文将所有为1 的维的反向对应维设置为1，得到反向学习种群，具体过程为：如果原初始化种群个体xi中的第一维xi1为1，则反向学习种群的个体xi中的第M维xi(M+1-1)为1；如果原初始化种群个体xi中的第j维xij为1，则反向学习种群的个体xi中的第M+1 -j维xi(M+1-j)为1，表达式如下：

生成反向学习种群后，计算原初始化种群和反向学习种群的适应度值，将更优的个体保留至精英种群，并将精英种群作为最终的初始化种群。

2.2.2 团队互助学习算子

在HLO 算法中，种群在完成个体学习后会进行社会学习，但是实际生活中人类往往还会学习邻近的群体，因此提出小组学习算子［15］作为过渡。考虑到社会群体的庞大性和多样性，单一的小组学习依然无法做到学习经验的完全共享，且针对不同问题，小组内的个体数难以设定，于是本文提出团队互助学习算子，在个体学习与社会学习之间加入双人小组学习和多人小组学习，使双人小组和多人小组互相学习团队经验，以此强化个体间的信息交流，提高寻优精度。将双人小组和多人小组学习的经验分别储存在双人小组知识库（Two-person Group Knowledge Database，TGKD）和多人小组知识库（Multi-person Group Knowledge Database，MGKD），TGKD和MGKD的表达式以及个体进行团队互助学习的形式如下：

其中：TGKDk表示第k个双人小组的知识库，O表示共有O个小组，F表示候选解数，tgkdkr表示双人小组k的第r个最优解，r是1～F的随机整数，决定个体学习哪一个候选解，tgkkrj表示第k个小组的第r个最优解的第j维；MGKDl表示第l个多人小组的知识库，P表示共有P个小组，E表示候选解的个数，mgkdls表示多人小组l的第s个最优解，s是1～E的随机整数，决定个体学习哪一个候选解，mgklsj表示第l个小组的第s个最优解的第j维。TGKD和MGKD的更新策略与IKD、SKD相同。

加入团队互助学习算子后HLO 算法的完整学习策略如下：

其中：rand是（0，1）内均匀分布的随机数，pr、pi-pr、pt-pi、pm-pt、1 -pm分别表示算法执行随机学习、个体学习、双人小组学习、多人小组学习、社会学习的概率。

2.2.3 调和参数自适应策略

HLO 算法中的参数pr和pi被设为定值，为使参数值的选择不受具体优化问题影响，提出pr的自适应策略［16］表达式如下：

其中：prmin1和prmin2是pr的两个最小值，prmax表示pr的最大值，Sp是预定义的两个自适应阶段的转折点，Itemax和Ite分别是最大迭代次数和当前迭代次数。此自适应过程分为两个阶段：第一阶段pr线性增加，随机学习比重提高，有利于增加种群多样性，避免算法早熟收敛；第二阶段pr线性减小，促使种群向优异个体学习，展开局部搜索。

考虑到不同个体间学习能力的差异，且人类智商遵循高斯分布，使用高斯分布模拟个体学习能力以动态调整参数pi［17］。首先，算法初始化时为每个个体赋予不同的pi，且服从高斯分布：

每次迭代执行一次pi的动态更新，在每次迭代时，μ设置如式（45）：

其中：pi，j是第j个个体的pi值；若全局最优值未更新，则用更新后的μ为所有pi使用高斯分布赋值。

参数pr决定了算法执行随机学习的概率，随机学习类似遗传算法里的变异算子，因此pr值通常设置较小且相对稳定。个体学习、团队互助学习、社会学习是种群积累学习经验的主要过程，也是算法的核心，参数pi、pt、pm直接影响算法的效率，但在缺少先验知识的情况下难以设置最优值。基于上述分析，本文提出调和参数自适应策略，参数pr采用式（43）所示的自适应策略，有利于丰富种群多样性，帮助个体摆脱局部最优，参数pi、pt、pm均采用式（44）～（46）所示的高斯分布动态调整策略，有利于协调各种学习机制，使种群达到最佳学习状态。两种参数策略调和使用可以互取长处，使参数设置更合理；同时随着算法迭代，灵活的参数机制可提高种群学习效率，确保学习经验通过各种学习机制互相传递，提高算法稳定性。

2.2.4 更新策略

产生新解后，根据适应度函数计算新解的适应度值，并更新IKD、TGKD、MGKD、SKD。若当前解优于IKD里的最差候选解或IKD里的候选解数少于G时，则保留新解至IKD；若当前解优于TGKD里的最差候选解或TGKD里的候选解数量少于F时，则保留新解至TGKD；若当前解优于MGKD里的最差候选解或MGKD里的候选解数量少于E时，则保留新解至MGKD；若当前解优于SKD里的最差候选解或SKD里的候选解数量少于H时，则保留新解至SKD。

2.2.5 算法流程

步骤1 初始化各参数，初始化种群，使用精英种群反向学习策略优化初始化种群。

步骤2 根据目标函数计算适应度值，初始化IKD、TGKD、MGKD、SKD。

步骤3 按照式（42）完成学习过程，使用调和参数自适应策略调整参数，完成学习后得到下一代的新解。

步骤4 对于新解，将违反约束条件的解修改成可行解。

步骤5 根据目标函数计算适应度值，根据更新策略更新IKD、TGKD、MGKD、SKD。

步骤6 若未超过最大迭代次数，则转步骤3；否则，输出结果。

2.2.6 算法时间复杂度

HLO 算法的时间复杂度如下：假设群体规模为N，搜索空间维度为D，则HLO 算法的初始化群体的时间复杂度为O(ND)，种群进行随机学习、个体学习、社会学习的时间复杂度为O（N），计算个体适应度值的时间复杂度为O（ND）。同理，IHLO 算法采用精英种群反向学习策略的时间复杂度为O（N），采用团队互助学习算子的时间复杂度为O（N），采用调和参数自适应策略的时间复杂度为O（N），IHLO 算法总的时间复杂度为O(ND)。因此，IHLO 算法和HLO 算法的时间复杂度处于同一水平，IHLO 算法改进策略并未增加算法的时间复杂度。

3 数值实验

为验证IHLO 算法求解新能源汽车电池回收网点竞争选址模型的有效性，本文实验分为三部分。首先以上海市部分区域为例说明案例，用IHLO 算法进行求解，对选址结果以及模型各部分的含义进行详细说明；然后采用大、中、小规模算例，选取改进二进制灰狼（Improved Binary Grey Wolf Optimization，IBGWO）算法［18］、改进二进制粒子群（Improved Binary Particle Swarm Optimization，IBPSO）算法［19］、HLO 算法［13］、融合学习心理学的人类学习优化算法（Human Learning Optimization algorithm based on Learning Psychology，LPHLO）［15］与本文提出的IHLO 算法进行对比；最后采用小规模算例分析算法改进策略，以探究三种改进策略对算法性能的影响。

3.1 应用案例

本文结合上海市部分区域，采用IHLO 算法进行求解。实验中涉及的经纬度均选自百度地图，采用如式（47），通过坐标计算距离：

其中：α1 和β1 表示某一点的经度和纬度，α2 和β2 表示另一点的经度和纬度，S表示此两点间的距离值。

模型包含诸多约束条件，若将违反约束条件的解直接删除，则将浪费许多个体的学习结果，降低算法效率，因此，本文考虑在算法中将违反约束条件的解修改成可行解：对于式（18），将这个解中成本最高的点由未被选中的成本最低的点替换；对于式（19）～（20），将这个解中所有违反人流量约束、门槛约束的点由未被选中的吸引力适中的点替换；对于式（21），将这个解中所有违反排队时间约束的点由没有选中的排队时间最少的点替换；对于式（22），将这个解中所有违反总逗留时间约束的点由没有选中的λ-nμ值最小的点替换；对于式（23），将这个解中所有违反排队概率约束的点由没有选中的顾客到达需要等待的概率最小的点替换。

如图1 所示的小型案例释义如下：假设企业A、B、C 分别有2 个已建电池回收网点，分别用三角形、梯形、六边形表示。企业C 有5 个候选电池回收网点C（1X1，Y1），C（2X2，Y2），…，C（5X5，Y5），用实心圆表示；将要在其中新建2 个电池回收网点，用环形表示；共有10 个需求点，用菱形表示。采用IHLO 算法进行求解，求得最大利润为533 632 元，选址结果为［1 0 1 0 0］，表明企业C 应该在候选电池回收网点C（1X1，Y1）和C（3X3，Y3）新建设施，在这两点新建电池回收网点后，企业C 已建设施和新建设施的年利润为533 632 元，图中两个环形表示企业C 的新建电池回收网点。结合前文数学模型，分别表示企业C 的新建网点营业额、已建网点营业额、新建网点总成本和已建网点总成本，算法求得结果分别为964 713 元、1 084 641 元、738 711 元和777 011 元。

图1 小型案例Fig.1 Small case

3.2 算法对比分析

上述应用案例仅采用极小场景进行说明，为进一步验证算法性能，进行更大规模实验。本文采用IHLO 算法以及IBGWO 算法、IBPSO 算法、HLO 算法和LPHLO 分别进行大规模、中规模、小规模的仿真实验。本文参考上海统计年鉴设置设施点、需求点数量，参考文献［20-21］设置投资限额、容量限制、排队时间、等待概率等模型中的其他参数。对于小规模的仿真实验，本文设置企业A、B、C 的已建设施点数分别为30、30、20，企业C 的候选设施点数为100，将选择20 个点新建设施，需求点为200 个，投资限额C为7 460 000 元，容量限制Q为555 人，人流量的门槛需求量T为297 人，排队时间不高于3.6 min，总逗留时间不超过18 min 的概率不低于0.9，顾客到达后必须等待的概率不高于0.43；对于中规模的仿真实验，本文设置企业A、B、C 的已建设施点分别为60、60、40 个，企业C 的候选设施点数为200，将选择50 个点新建设施，需求点数为500，投资限额C为18 600 000 元，容量限制Q为647 人，人流量的门槛需求量T为364 人，排队时间不高于3.6 min，总逗留时间不超过18 min 的概率不低于0.9，顾客到达后必须等待的概率不高于0.43；对于大规模的仿真实验，本文设置企业A、B、C 的已建设施点数分别为100、100、50，企业C 的候选设施点数为300，将选择100 个点新建设施，需求点数为700，投资限额C为37 100 000 元，容量限制Q为502 人，人流量的门槛需求量T为288 人，排队时间不高于3.6 min，总逗留时间不超过18 min 的概率不低于0.9，顾客到达后必须等待的概率不高于0.43。3 种规模的5 种算法种群规模均为50。为提高求解效率，本文在实验中根据5 种算法的收敛情况设置最大迭代次数，小规模问题中5 种算法在运行50 次时均已开始收敛，中规模问题中5 种算法在运行100 次时均已开始收敛，大规模问题中5 种算法在运行200次时均已开始收敛，因此3 种规模的5 种算法迭代次数分别为50、100、200。

本文通过多次实验并参考文献［13，15，18，19］，五种算法的相关参数设置如下：

IBGWO 算法：收敛因子a最大值为2；IBPSO：Vmax=4，Vmin=-4，c1=1.5，c2=1.5，wmax=0.9，wmin=0.1；HLO 算法：pr=5/M，pi=0.85+2/M；LPHLO：prmax=10/M，prmin=1/M，ptmax=0.8+1/M，ptmin=0.7+1/M，pimax=0.9+1/M，pimin=0.8+1/M；IHLO算法：prmax=0.015，prmin1=0.002，prmin2=0.005，高斯分布初始均值MU_pi=0.3+2/M，高斯分布标准差SIGMA_pi=0.02/3，MU_pt=0.6+2/M，SIGMA_pt=0.02/3，MU_pm=0.85+2/M，SIGMA_pm=0.02/3，Sp=0.2 ×Itemax，多人小组个体数g=10。一般对于单目标问题，IKD、TGKD、MGKD、SKD中候选解的个数设置为1，以更好地平衡算法性能和计算复杂度［22］，因此，HLO 算法、LPHLO 和IHLO 算法中的E、F、G、H均设置为1。

在5 种算法函数评价次数相同的情况下进行30 次对比实验，并记录最优值、平均值、最差值、标准差、运行时间。编程软件为Matlab2018a，实验环境为Intel i5-6300HQ、2.30 GHz、8 GB RAM、Windows 10。

表1 不同规模下五种算法的求解结果Tab.1 Solving results of five algorithms under different scales

对于小规模算例，IHLO 算法的最优值、平均值、最差值和标准差均能取得更好的求解结果，说明IHLO 算法的求解质量和求解稳定性优于IBGWO 算法、IBPSO 算法、HLO 算法和LPHLO，IHLO 算法运行时间最短，说明求解速度优于其他算法；对于中规模算例，IHLO 算法的五项指标依然优于其他四种算法，且随着规模增大，IHLO 算法的求解结果优势更明显；对于大规模算例，IHLO 算法相较于其他算法在最优值、平均值和最差值上依然表现更佳，进一步证明了IHLO 算法优异的求解精度，IHLO 算法的标准差优于IBGWO 算法、IBPSO 算法和HLO 算法但略逊于LPHLO，说明IHLO 算法在求解大规模问题时虽能保证寻优精度但牺牲了部分算法稳定性，在运行时间这项指标中，IHLO 算法求解速度依然最快。用平均值衡量求解精度，用标准差衡量求解稳定性，用运行时间衡量求解速度，对于大、中、小三种不同的规模，算例结果显示IHLO 算法相较于IBGWO 算法求解精度至少提高了0.13%，求解稳定性至少提高了10.05%，求解速度至少提高了17.48%。综上所述，IHLO 算法在三种规模共15 个指标中的14 个指标上表现最佳，IHLO 算法相较于其他算法在大、中、小规模问题中均展现了优异的求解精度，且求解速度更快，也展现了较为良好的求解稳定性。

除了寻优精度，收敛速度也是算法重要的评价指标。图2～4 给出3 种规模下5 种算法的迭代收敛曲线，收敛曲线均从30 次独立实验中随机抽取。观察迭代收敛曲线可知，IBGWO 算法前期收敛较快，但中后期寻优质量不佳，大规模问题中更为明显；IBPSO 算法收敛效果较差，求解质量低于其他算法；HLO 算法和LPHLO 前期收敛较慢，中后期寻优质量较好，但收敛效果不佳；IHLO 算法前期收敛快，寻优质量高，中后期稳定收敛。综上所述，IHLO 算法能在迭代早期快速找到高质量解，并在中后期达到稳态，具有优异的收敛速度。

图2 小规模五种算法的迭代收敛曲线比较Fig.2 Comparison of iterative convergence curves of five algorithms in small scale

图3 中规模五种算法的迭代收敛曲线比较Fig.3 Comparison of iterative convergence curves of five algorithms in medium scale

图4 大规模五种算法的迭代收敛曲线比较Fig.4 Comparison of iterative convergence curves of five algorithms in large scale

IHLO 算法所展现的优异的求解精度和收敛速度得益于本文提出的改进策略。通过提出精英种群反向学习策略，一方面增加种群多样性，减少算法陷入局部极值的风险，另一方面保留更优个体，确保了算法每次迭代的搜索效率，提高算法前期收敛速度；通过提出团队互助学习算子，拓宽个体学习面，强化个体的学习能力，提高算法寻优精度；通过提出调和参数自适应策略，提高参数与学习机制的适配性，灵活运用不同学习机制的优势，平衡个体的学习状态，增加算法稳定性。

3.3 算法改进策略分析

为验证三种改进策略的有效性，进行算法改进对比实验。由于前文已经证明IHLO 算法在不同规模问题上的优异表现，且算法改进对比实验重在分析各个改进策略的影响，因此，此部分实验均采用小规模算例即可。在其他条件保持不变的情况下，将引入精英种群反向学习策略的HLO 算法、引入团队互助学习算子的HLO 算法、引入调和参数自适应策略的HLO 算法、引入精英种群反向学习策略和团队互助学习算子的HLO 算法、引入精英种群反向学习策略和调和参数自适应策略的HLO 算法、引入团队互助学习算子和调和参数自适应策略的HLO 算法分别命名为HLO-1、HLO-2、HLO-3、HLO-4、HLO-5、HLO-6，并将实验结果与HLO 算法、IHLO 算法进行对比。

表2 是8 种算法独立运行30 次的实验结果。

表2 三种改进对比分析的实验结果单位：104元Tab.2 Experimental results of comparative analysis of three improvements unit：104CNY

分析表2 数据可知，HLO-2、HLO-4、HLO-6 和IHLO 的最优值明显优于其他算法，因为团队互助学习算子强化了算法的寻优能力，有利于算法找到更优解；HLO-3、HLO-5、HLO-6和IHLO 的标准差相较于HLO 算法有明显减小，因为调和参数自适应策略有助于加强算法稳定性，使计算结果稳定在较好的区间里；HLO-1、HLO-4 和HLO-5 的最优值和平均值相较于HLO 算法并无明显提升，因为精英种群反向学习策略优势在于提高算法前期收敛速度，未对算法寻优精度和稳定性有显著影响；IHLO 算法的四项评价指标均表现最优，说明三种改进策略的融合提升了IHLO 算法各方面性能。

4 结语

本文以新能源汽车电池回收问题为背景研究竞争设施选址问题，在引入排队论的情况下，构建以企业已建设施和新建设施总利润最大为目标的优化模型。为求解新能源汽车电池回收网点竞争选址问题，提出改进人类学习优化算法，针对人类学习优化算法前期收敛速度较慢、寻优精度不高、求解稳定性不高等缺陷，分别引入精英种群反向学习策略、团队互助学习算子、调和参数自适应策略进行优化。最后分别以长江三角洲、上海市为例进行大、中、小规模的仿真实验，并与IBGWO、IBPSO、HLO、LPHLO 进行对比，实验结果证明了本文模型的可行性和算法的有效性。后续可将该算法应用于冷链配送中心竞争选址问题。