正负样本不均衡
手动方法
- 过采样or欠采样:
- 过采样是指增加样本数据量较少的样本,样本较少时采用
- 欠采样是指减少样本数据量较多的样本,样本较多时采用
- 聚类:
- 对原始数据集中数据量较多的类别进行聚类,根据每个类别的比例,选择一个合适的阈值(百分比),将聚类结果每个类中大于这个阈值的数据去掉
- 对原始数据集中数据量较多的类别进行聚类,根据每个类别的比例,选择一个合适的阈值(数值或百分比),将聚类结果所有类中数据量小于阈值的类别去掉
- 分割数据集:
- 对数据量多的类别进行分割,使每一部分的数据量都和数据量较少的类别相匹配。例如,某个数据集中有正样本100条,负样本1000条,可以将负样本分为10份,每份100条数据。将这10份负样本分别和正样本组合建模,可以得到10个不同的模型。最后使用这10个模型进行预测
Focal Loss
正常的二分类loss:
为了提高正样本的权重,设计了BCE,其中
为了提高困难正样本的权重,降低简单正样本的权重,设计了FL(