1、gbdt与xgb选择分裂点的时候使用的是什么?  gbdt MSE;xgb ? 对应的一个公式

 

https://blog.csdn.net/zxf2ld/article/details/125645529

图方面:

  1. 同构,LPA、Louvain、PageRank
    1. Louvain,模块度最大化,https://zhuanlan.zhihu.com/p/556291759
    2. LPA https://blog.csdn.net/qq_34160248/article/details/126804687
      1. 核心是如何不漏过主要问题,而限缩计算;是节点建立;
      2. 假设为核心,比如使用粉丝关系去计算,本质上是认为黑产粉丝之间是互相关注的;
      3. 最后跑出来的团伙,其实就是团;
      4. 对于预制黑标签,扩散,其逻辑本质就是如果一个团伙关系紧密,团伙中有一部分黑的,则把整个团伙染色;
      5. 二部图LPA
  2. 关系构建,一般的设备关联、想通节点关联;弱关系,强关系;
    1. 行为也可以关联;比如,用户下单商家;可以有强弱计算方法
    2. 文本内容关联: 比如找商家店员身份,基于收货地址和商户名称
    3. 暗号;
  3. 密集子图:连通图,k-core, fraudar, biclique等
  4. SynchroTrap; 基于行为构建的同步行为用户组,本质就是行为相似度;基于时间的

2024.2.28

面试经典问题回答

你觉得你们业务当前遇到的困难时什么?

  1. 我个人是眼里容不下问题的,所以能解决的问题我全部都解决了;
  2. 我也肯定知道那些短期不可能解决好的问题,比如XX不太智能,XX效率还是比较低;比如验证效率比较低,应该更智能化。策略阈值需要人工设定,可以通过算法XX;
  3. 那具体真正的问题,还是风控的核心问题;风险预防与业务价值;
  4. 当然还有组织结构的问题,包括分工不合理等;这些不是我说了算,只能做到能做到的地方。

未来工作的诉求是什么?

  1. 对我来说诉求就是能让自己发挥价值的地方;毕竟这个行业干了这么多年,现在拥有的技能不想浪费掉;可能听起来有点虚。

 

 

 

Opay面试

  1. 训练集和验证集效果好,但是测试机效果不好;是什么问题?
    1. 特征存在偏移
      1. 测试集特征与训练集不一致;
        1. 对比特征分布是否一致; 如KL散度
    2. 样本选择出现偏差
      1. 验证集和测试集不符合独立同分布
  2. 深度学习哪些防止过拟合的方法?
    1. dropout
    2. 正则化w, l1,l2
    3. batchNormalize
    4. LayerNormalize
    5. 减少层数和个数,降低学习率
    6. early stopping
    7. 增加数据量: 数据增强,如图像旋转、裁剪等
  3. transformer简单介绍,self-attention除以 根号d 是什么作用?
    1. Q x K得出的是序列的不同位置间的相关性;
    2. softmax,数值过大过小,梯度都比较小;统一除以sqrt(d-k)常数,缩小量纲,可以加快训练速度;
  4. BN 有什么作用?
    1. 好处
      1. 更快的收敛
      2. 减轻对初始化参数的依赖
      3. 增加泛化能力,降低过拟合风险
    2. 缺点:
      1. batch较小时效果比较差;
      2. 不适用于rnn;
    3. LayerNormalize
      1. 不依赖batch
      2. 适用于rnn

 

百度面试:

  1. bert的任务是什么?NSP(next sentence predict) MLM(masked language model)
  2. bert的损失函数是什么?
    1. MLM使用softmax计算单词的概率,交叉熵损失
    2. NSP使用简单的分类,IsNextSequene,其实也是交叉熵损失
  3. 他说,beart后来把NSP这种方法不怎么用了?为什么?NSP有什么缺点
    1. 其实是RoBERTa,去掉了NSP任务;

 

中国星网:

  1. bert与transformer的损失函数区别?
    1. 先确认transformer; https://www.cnblogs.com/mxleader/p/17828540.html
    2. BERT的模型结构是Seq2Seq,核心是Transformer encoder;
  2. bert为什么没有使用multi-head,只使用一个head?
    1. 先确认;

小米:

  1. 编程题
    1. [-9, -7, -3, 0, 1,1, 5,6] 找出绝对值只出现一次的个数
    2. 方法:两边往中间合并;

 

小红书:

  1. 编程题
    1. 爬楼梯1,一次只能爬1阶,2阶,3阶;
    2. 爬楼梯2,一次只能爬k阶;https://blog.csdn.net/qq_40905198/article/details/102491844

小红书:电商风控一面

  1. 编程题
    1. 找出0-100间的质数

 

京东广告反作弊:

  1. 快速排序;
  2. 0-9号牌,十个人;有放回出来3个人,求满足年龄依次变小的概率;
    1. C(3,2)+C(4,2)+…+C(9,2);先确定第3个人,再从剩余里取2个人即可,考虑顺序;
  3. fraudar算法的核心是什么? 是不是用户相似度;

 

数字人民币研究所:

  1. xgb学习率过大会存在什么问题?
    1. 每棵树的贡献赋予了更大的权重,但这可能会导致过拟合/不稳定,会加快训练时间。而较低的学习率抑制了每棵树的贡献,使学习过程更慢但更健壮。
  2. bert对长文本有什么缺点? 【这问题很垃圾】,
    1.  如果文本长度超1000字符,怎么办? https://blog.csdn.net/weixin_43815222/article/details/136204450
      1. 截断,前截断、尾截断、前+尾
      2. pooling,切分过多个bert,再加一层合并
      3. 压缩,去除无用部分
    2. 对于风控任务,往往是整段话中有一小块敏感的就都要抛弃;而使用bert会通篇考虑语义,弱化黑的部分;所以,黑词很有效;第二就是,截断判断,有一段有问题整片拒绝

 

金融风控

1、PSI模型稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。https://blog.csdn.net/m0_54231818/article/details/134788210

2、KS统计量  https://zhuanlan.zhihu.com/p/140766729 ; 累积正例占比 减去 累积负例占比的最大值,说明对于正负样本的区分能力;

3、xgb特征重要性,weight 特征的使用次数,gain 特征的平均增益,cover特征对样本的平均覆盖度;

4、IV(Infromation Value),信息价值,用来表示特征对目标预测的贡献程度,即特征的预测能力,一般来说,IV值越高,该特征的预测能力越强,信息贡献程度越高。由于IV值的计算是以WOE值为基础的,所以计算IV值之前,首先得计算WOE值。

https://blog.csdn.net/lu_yunjie/article/details/109530875