背景
平台收到屏蔽不成功的case,发现是不同商户的不同投放使用了相似的图片,目前大部分的屏蔽规则是按照投放id屏蔽,因此无法屏蔽这种情况
现状分析
根据badcase,可以采用两种方案进行优化
方案 | 优点 | 缺点 | 备注 | |
---|---|---|---|---|
1 | 扩展屏蔽范围至类目屏蔽 | 1.屏蔽彻底,一般不会出现跨类目的素材相似 2.引擎改动小 |
1.后续细化屏蔽能力需要额外开发 2.整体消耗影响大 |
见”负反馈分析” |
2 | 用phash汉明距离进行屏蔽 | 1.精细化屏蔽 2.整体消耗影响小 |
本来是有的,但是我这边就当没有 |
傻逼产品建议方案二
技术方案
方案选型
方案 | 具体实现 | 优点 | 缺点 | |
---|---|---|---|---|
1 | filter阶段进行负反馈屏蔽 | 1.将所有creative信息与负反馈列表进行phash汉明距离计算 2.投放中某一创意相似就进行过滤 |
1.与历史召回过滤逻辑统一 | 1.filter阶段只能过滤投放 |
2 | 一阶段精排前实体选择后屏蔽 | 1.实体选择后进行rerank 2.将过滤后剩余有效的creative信息展开,与负反馈列表进行phash计算 3.保留过滤后的,如果某个投放的创意全被过滤则过滤整个投放 |
1.可扩展性强 | 1.逻辑复杂,为图片负反馈单独维护 |
3 | 创意精排后进行屏蔽 | 1.将投放选定的图片与负反馈图片列表进行汉明距离计算,屏蔽投放 | 1.代码入侵小 | 1.影响召回率 |
注:
filter阶段:就是最开始检索层返回了一堆的广告,然后会先在检索词进行filter(漏斗)过滤,那么这个时候,广告也会有选定的图片,然后将这个图片进行相似度比较,此时只能过滤投放
一阶段精排前实体选择后:实体选择在filter阶段之后,就是说从大的候选集里选出更符合用户要求的实体,那这个工作其实就是filter阶段做的,一阶段精排是ad精排,进行CTR排序,穿插红线、底价排序。在一阶段是不进行投放内部创意的笛卡尔积展开的。所以在”实体选择后,一阶段精排前”进行过滤,防止相似的图片进入ad精排中
创意精排后:创意精排是二阶段精排的过程之一,对投放内部的创意进行笛卡尔积展开,内部打分排序,最后选定图片,在此处过滤也是只能过滤投放了
PS:
- 为什么Filter阶段只能过滤投放?
- Filter阶段的主要目标是快速从大量候选广告中筛选出一部分初步符合条件的广告投放,以便在后续阶段进行更精细的处理。这一阶段注重的是高效地缩小候选集的规模
- 为什么创意精排后只能过滤投放?
- 创意精排后,广告投放已经完成了所有的排序和打分工作,形成了最终的展示列表。在这个阶段进行过滤,意味着需要重新评估整个投放的所有创意,这会导致系统的重复计算和资源浪费。
具体改动
- 网关层:
deleteId末尾拼接图片phash
- 检索层
新增NegativeFeedbackRerank
PS:
- PHASH的数据哪来的?
- 之前就有,用于其他部分的去重,比如分页去重,单用户去重
结果
每天过滤量约1000次,对整体消耗无影响