技术想法
1、对于正负样本极不均衡的二次分类问题-少量人工标注
第一次分类: 正样本过采样,负样本抽样,进行分类。
对于第一次分类>0.9的预测集,从中抽取样本进行人工标注。
第二次分类:对误判和正确分类的样本进行再次分类。
第二次分类的准去率基本等于线上准确率。
非常好用的方法。
2、同一地址多种表达方式,归一化问题。
使用深度学习多输入,label是否是同一地址。
类似问答。
https://github.com/seatgeek/fuzzywuzzy#usage
1、对于正负样本极不均衡的二次分类问题-少量人工标注
第一次分类: 正样本过采样,负样本抽样,进行分类。
对于第一次分类>0.9的预测集,从中抽取样本进行人工标注。
第二次分类:对误判和正确分类的样本进行再次分类。
第二次分类的准去率基本等于线上准确率。
非常好用的方法。
2、同一地址多种表达方式,归一化问题。
使用深度学习多输入,label是否是同一地址。
类似问答。
https://github.com/seatgeek/fuzzywuzzy#usage