读论文:OSIBD

《A Novel Technique on Class Imbalance Big Data using Analogous over Sampling Approach》,2017,IJCIR

大数据中的类别不平衡问题降低了现有的分类器的效果,本文提出了一种新奇的算法,叫Over Sampling on Imbalance Big Data(OSIBD)。结果是,OSIBD算法在处理不平衡类别的问题上效果要比C4.5算法好。

类别不平衡问题影响分类器效果的原因是:只有少数的minority 实例是模型构造过程中可以获取的,所以模型是很难预测unseen minority 实例。

处理类别不平衡的方法有

1.作用于算法的内部方法
调整决策threshold,对少数类产生bias,在学习过程中引入costs来补偿少数群体。

2.作用于数据的外部方法
对少数类的过采样和对多数类的欠采样。

3.基于boosting的针对训练集不平衡的综合方法

OSIBD算法

(1)Preparation of the Majority and Minority subsets
准备多数类和少数类的子集

(2)Improve with in class imbalances by removing noisy and borderline
instances
通过去除噪声和边界实例来改善类别不平衡

为了找到弱实例,其中一种方法是找到最有影响属性或特征,然后移除与该特征相关的噪声或弱属性的范围。

(3)Applying oversampling on the minority subset
对少数类进行过采样

通过生成合成实例,副本实例和生成具有现有和合成实例的特征的混合实例,以类似方法对预处理的少数子集进行过采样。

(4)Forming the strong dataset
形成足够的数据集

个人心得

文章中提到的过采样算法比较模糊,没有类似SMOTE的具体的过采样算法。
OSIBD的实验对比是和C4.5来进行的,而且是单颗树的。