当处理bigdata,我们努力减少这个数据的大小通过使用现代技术,最重要的是特征选择过程。在前几年,一些算法已经提出,模拟一些生物体的行为在寻找食物和他们使用的方法的研究方法[1]。在使用它们作为一个数学模型来解决一些复杂的问题。肯尼迪和埃伯哈德提出的二进制版本已知的粒子群优化(PSO)称为全局搜索,在传统PSO算法修改为了解决二进制优化问题[2、3]Rashedi等人提出了一个引力搜索算法的二进制版本(GSA) (BGSA)呼吁特征选择[4]、拉莫斯等人提出了他们的版本的和谐搜索(HS)的上下文中相同的目的盗窃检测配电系统。本文的工作分为两个阶段,第一阶段开始的地方使用模糊为了确定影响工作结果的功能,然后使用MI互信息技术进入只有重要的数据在研究过程[5]。第二阶段是使用BBA二进制蝙蝠算法[6]。
蝙蝠算法
蝙蝠是唯一的哺乳动物,有翅膀,有巨大的能力和效率,使它们从这些特性研究人员感兴趣的是他们的回声定位能力这一特性可以被认为是一种天然的声纳[7]。蝙蝠工作产生声脉冲的不同频率和非常快,然后等待这些脉冲返回后,他们与猎物相撞,然后计算它和猎物之间的距离根据声波的频率和时间来回[8]。这样,蝙蝠中考虑生物能够吞噬自己晚上在黑暗的黑暗,他们的蝙蝠能够区分移动和固定目标和知道这些目标的方向运动,这一过程中完成的一小部分时间[8]。这个算法的作者杨认为蝙蝠的行为是一个理想的选择和路径的改进方法[1](图1)。然后他发达他们像一群蝙蝠寻找食物/猎物使用echo-positioning (9、10)。开发了一些改进规则如下:
1。所有蝙蝠回声定位属性来估计距离,也知道之间的区别(障碍和猎物)以惊人的方式。
2。蝙蝠在随机飞行速度(V我)和位置(X我)和恒频fmin变化波长(λ)和声音响度(一个o),蝙蝠有能力调整波长或脉冲频率产生,能够调整的速度脉冲rϵ[0,1]根据猎物维度。
3所示。蝙蝠的响度变化在许多方面,但杨假设响度可以改变在一个给定的曲线从大的积极价值一个o一个最小值一个最小值和常数。默认的蝙蝠是由更新位置和速度更新使用以下数学模型:
在哪里代表新的蝙蝠的速度。
在哪里代表了新职位,是最好的一个网站,当前全球解决方案为决策变量可以被认为是最好的。
在哪里f1频率为每一个蝙蝠b我,β是一个随机数,它的值是在[0,1]。
杨引入了使用随机路径的概念技术改善明显的对比可能的解决方案通过选择当前最好的解决方案之一,然后使用它来创建一个新的解决方案中所有蝙蝠组[11]:
ϵ在哪一个随机数,价值[1],是平均的声音来自所有蝙蝠在这一步。技术是通过调整平衡响度和脉冲发射率如下:
α,y是常数,第一步的算法和发射率和响度随机选择和期限内吗ϵ[0,1]ϵ[0,1]从前面的方程,它将指出,蝙蝠跟踪频率变化,可以加速他们获得最好的解决方案[6]。
为了解决问题在离散空间中,蝙蝠的复制算法的二进制版本已经更新处理问题基于向量[0,1],分子可以前往任何过多的材料的各个角落只使用[12]0或1的值。这意味着蝙蝠算法(BBA)有点类似的基本算法(BA),但根据搜索空间,英航在连续距离虽然BBA搜索是基于离散空间由0和1这个过程需要一个函数值在0和1之间变化,称为传递函数[13]。选择这个函数的过程取决于它必须满足一定的前提条件:
1。这个函数的范围必须与范围[0,1],因为它代表一个粒子的概率改变其位置。
2。传递函数应该提供最大可能的变化的位置改变的绝对速度值。一些粒子与一个伟大的绝对值可以移动的速度远离最优解,因此必须开关重新定位在以下迭代。
3所示。前面的词适用于最小的概率改变位置即使绝对速度太小了。
在本文中,我们依靠(乙状结肠函数)作为传输函数的所有分子转化为二进制值的位置:
根据这个函数可以更换与情商Eq。(2)。(8):
在哪里(正态分布)。
最后给二进制值方程是一种机制,任何从一群蝙蝠蝙蝠空间。
互信息(MI)
我们经常发现很多随机相干的信息和相关的变量,这些变量的相关程度和影响他们中的一些人可以推断通过互信息[14]。
H是离散随机变量X的熵条件的离散随机变量Y采取一定的价值。这意味着y,我们得到信息,是相互的信息我(X, Y)。
否则,我(X, Y)= 0,如果X和Y是完全无关的。
相互的信息主要是应用于滤波器特性设置测量特定特性之间的相关性和一些类分类[15]。有一个经典的实现互信息方法的一些特性分类指标[16](图2)。这一理论最重要的应用之一是选择功能,因为它将评估功能的重要性,安排他们根据他们的重要性,换句话说这个理论将安排的特性以升序排序根据每个特性的影响最终结果的数据,因此会减少特性包括在计算,加快了工作的计划[17]。在接下来的关系,它将显示一个广泛的功能和分类:
推断特定特性之间进行信息交换的过程,这个过程很容易,但是难就难在评估一套完整的功能和发现每个特性的链接与一系列的其他特性。每个特性可能不会给一个完整的画面,但它们之间的加成法可以澄清形象(18、19)。N变量之间(X1, X2…XN)和变量(Y),链式法则是:
可以指定交换信息作为一种措施来减少不确定性分类标签,在“适应度函数最大化的价值信息交换(3,20)。
特征选择
特征选择方法减少的数量特性用于描述一组大型数据集,以改善算法的性能。这种方法的目的是减少使用的功能,并减少所需的时间来获取结果,导致增加分类的准确性(18、21)(图3)。特征选择算法可以表示为三个阶段:
下载图片
图3:特征选择的样本子集的解决方案。
1。搜索算法:评估功能的总数输入和选择的重要组成部分。
2。适应度函数:它将数据传输到双星系统选择1号对应的功能。
3所示。分类器:它分析了输入数据的适应度函数给出更准确的结果。
提出的算法
该方法FMI_BBA包含两个基本阶段。在第一阶段,模糊互信息(FMI)方法用于确定由模糊Mamdani模型最重要的特性的基础上创建两个变量代表的输入数据的大小和数量的特性为每种类型的数据。三个变量被选为每个输入和输出的图片(低、中、高),然后这些输出之间确定的范围(10 - 50)为了确定的特性,将进入数量的MI技术,反过来,被发送到第二阶段第二阶段,英国银行家协会算法是用来减少并指定一定数量的特性,来自第一阶段通过随机同步向量[0,1],相对应的特征值1输入对应的分类函数和忽视特性值0。
在哪里C分类模型的准确性,问是长度的选择特性,p是功能的总数。
第二阶段的算法FMI_BBA关注英国银行家协会,具体特征选择的包装器。后通过FMI方法获取最重要的特性,这些特性引入BBA算法减少作为第二阶段(算法1)。一个特定数量的功能安排使用BBA算法采用和选择在最后使用朴素贝叶斯分类器分类操作。(图4)提出了一个提议FMI_BBA框架的详细流程图。
算法1:拟议中的FMI_ BBA,算法 |
1:设置初始参数:r, n, cc1, dd1, Max_iteration, 2:MI过滤技术应用于选择一个子集的特性取决于它们的重要性 |
3:设置初始速度和位置使用,Eq。(1)和(2)式。 |
4:评估数据集通过适应度函数和设置。 |
5:我从1到Max_iteration设置迭代。 |
6:根据情商更新速度和位置数据。,(1)和(2)式。 |
7:当我≤Max_iteration停止满意并返回得到最好的全球性的解决方案。 8:选择BBA特性的特定子集的算法。 |
9:返回功能的好(选择功能)。 |
下载图片
图4:提出的架构FMI_BBA算法。
实验结果
建议算法FMI_BBA评估并与其他进化算法。
数据集
应用该算法对一群bigdata验证其效率解决分类问题的一种方法。表1说明了将该算法应用于从UCI获得一些数据存储库[22]。
表1:描述所使用的数据集。 |
数据集 |
#样品 |
#特性 |
目标类 |
卵巢 |
253年 |
15155年 |
2 |
Dlbcl |
77年 |
7130年 |
2 |
评估标准
分类效率是衡量质量(SP),马修相关系数(MCC),分类精度(AC)和敏感(SE)这些指标定义如下:
TP、TN、FP和FN真阳性的数量,真正的负面,假阳性和假阴性的混淆矩阵,分别,这些标准的值代表分类过程的强度以及它们之间的比例是直接的。
讨论和分析
相比,本文提出的算法与二进制遗传算法(BGA)和原算法(BBA)。
数据集分为30%作为我们的实验测试组,其余用作训练数据。20倍将获得最好的可靠ratingt表2,评价标准与其他进化算法。这表明不到总数的特征选择和分类算法的准确性比其他分类算法。
表2显示的数据对培训组和测试组实现最好的结果分类。例如,在白血病数据集,数据的准确性(AC)火车组代表97%,该算法FMI_BBA BBA的90%。在BGA和92%。
表2:分类算法的性能平均20多个部分(括号中的数字表示标准错误)。 |
数据集 |
方法 |
训练数据集 |
|
|
|
|
测试数据集 |
卵巢 |
FMI-BBA |
18.2 (0.3071) |
0.9768 (0.0591) |
0.9965 (0.0195) |
0.9559 (0.0455) |
0.9725 (0.0257) |
0.9044 (0.0958) |
|
BBA |
483.15 (0.3170) |
0.6610 (0.0383) |
0.6105 (0.0507) |
0.8062 (0.0368) |
0.3643 (0.0552) |
0.7544 (0.0891) |
|
BGA |
399.2500 (0.3230) |
0.8880 (0.0871) |
0.9533 (0.1310) |
0.8458 (0.1240) |
0.9627 (0.1654) |
0.9299 (0.0364) |
Dlbcl |
FMI-BBA |
14.2 (0.2608) |
0.9721 (0.0358) |
0.9256 (0.0745) |
0.91769 (0.0812) |
0.9346 (0.0419) |
0.9711 (0.0824) |
|
BBA |
474年 (0.2721) |
0.9048 (0.0416) |
0.9148 (0.0547) |
0.8880 (0.1030) |
0.7205 (0.1284) |
0.9640 (0.0448) |
|
BGA |
383.55 (0.3021) |
0.9548 (0.248) |
0.9658 (0.0258) |
0.9320 (0.0403) |
0.8992 (0.0541) |
0.9366 (0.0096) |