编辑导语:本文作者在介绍了系统的核心功能模块、系统架构、定位策略后,推出广告虚假流量的治理与防范,与大家分享。
首先,背景
广告业自古以来就是一个经久不衰的传统行业。自从互联网大数据开始良好发展以来,越来越多的广告主将预算投放到网络广告上,这几年规模大大增加。各大互联网厂商纷纷紧随布局,互联网上的网络广告行业正在蓬勃发展。
网络广告行业离钱很近。随着参与人数越来越多,行业蓬勃发展的背后开始滋生大量的“作弊”手段,严重影响了整个行业的生存和发展。面对不断创新的制假方式和已经“链条化”的制假产业,亟待解决问题。
《互联网广告管理暂行办法》将互联网广告定义为“通过网站、网页、互联网应用程序等互联网媒体,以文字、图片、音频、视频或者其他形式,直接或者间接宣传商品或者服务的商业广告”。
第二,为什么会有大量的作弊流量?
1.广告主的广告需求和优质媒体资源的供给之间存在矛盾。
随着互联网的快速扩张,广告主对互联网广告的需求持续增长。相应的,中国的互联网人口红利正在逐渐丧失,导致优质媒体资源供给有限。因此,为了满足广告主对互联网广告的需求,一些媒体平台和技术服务商作弊,制造虚假流量。
2.广告产业链延长,很多广告环节出现流量欺诈。
在竞争压力或商业利益的驱动下,广告主作为广告活动的出资人,为了完成KPI任务或消耗竞争对手大量的广告预算,给予品牌更多的展示机会。
服务商和媒体平台商为了赚取更多的佣金,会超售流量,将劣质流量与粗制滥造的混在一起或者通过脚本和模拟器刷流量。特别是在按效果付费广告联盟的形式下,一些网站为了获取更多的广告费,往往会通过技术或人为的手段人为提高点击率。为了完成与广告主约定的KPI任务,一些广告代理公司还会购买流量服务。在移动广告市场,电信运营商是一个特殊的成员。电信运营商可以利用通道控制,在用户上网时,强行在下行内容中插入广告,甚至更改广告创意。
3.不透明的广告交易链加剧了广告欺诈的滋生。
随着互联网广告产业链的延伸,与传统广告产业链相比,技术服务商的出现使得技术在互联网广告领域发挥着至关重要的作用。然而,由于技术门槛的限制和数据安全的考虑,互联网广告交易过程中的一些技术规则和数据资源并未向广告主和第三方公开,导致目前广告交易链条不透明,加剧了互联网广告作弊的滋生。
为了让虚假数据更加“真实”,数据造假的技术也是日新月异,从最初的人工刷到机器人刷。现在各种技术手段应用于互联网媒体平台进行数据造假。为了帮助大家在这个行业顺利发展,笔者整理了一些常用手段。
第三,常见的“作弊”维度
1.从生产模式维度来看
互联网虚假流量主要包括机器作弊(M)、人类作弊(H)、机器和人类相结合(M & H)三种作弊方式。
2.从异常交通标志的维度
虚假流量可分为六类[1]:用户信息异常流量(I)、投放异常流量(P)、浏览异常流量(V)、曝光异常流量(E)、点击异常流量(C)、归属地异常流量(A)。
用户异常流量:异常网络IP或异常设备ID携带的虚假流量。
同一个网络IP在一天内关联多个不稳定cookie,则此IP存在异常;一天内一个设备ID关联多个不同机型或一天内一个Android ID关联多个IMEI;亦或是同一个IMEI在一天内关联多个ID,则此ID存在异常。异常IP或ID所带来的广告流量一般为虚假流量。
异常流量:广告过程中产生的虚假流量。
投放异常一般包括:无投放曝光、人群失真、时差异常三种情况。无投放曝光指在同一次广告请求中没有监测到投放请求,但有曝光请求的现象;人群失真指广告投放的用户与产生曝光/点击行为的用户不一致;时差异常则指同一次广告投放和曝光/点击之间时间间隔过长或投放与曝光/点击发生的时间顺序出现颠倒。当在广告投放环节出现以上情况时,一般为虚假流量。
异常浏览流量:通过异常广告源或异常浏览器分发发现的虚假流量。
在进行互联网广告投放时,广告主一般会指定特定目标群体、地域进行广告投放,当实际发生曝光或点击的URL(网络统一资源定位符)与预定页面产生较大差异时可判定这些流量为
异常曝光流量:广告曝光级别产生的虚假流量。
曝光异常一般包括:曝光碰撞、曝光过高、连续曝光三种情况。曝光碰撞指同一用户在很短时间内同时在多个广告位上发生曝光,由于普通人在打开不同页面时存在时间差,当时间差过小时,可判定其为虚假流量。曝光过高是是指某个用户在一分钟内对某个广告位的曝光量过高。而连续曝光则指同一用户在同一个广告位上有规律地进行了一系列曝光。此外,在广告曝光异常层面还存在“广告不可见”的情况,有些媒体或广告技术服务商为达到广告主的投放需求,擅自修改广告素材的尺寸,或通过有代码无素材、单素材多代码等形式制造不可见广告的虚假流量。
异常点击流量:广告点击层面产生的虚假流量。
主要包括:无曝光点击、点击频繁、连续点击、点击率过高、鼓励点击五种情况。无曝光点击指某个广告位没有被曝光但却产生了点击点击频繁一般指某一用户在某个时间段内在同一广告位上点击数据过大连续点击指同一用一用户在同一个广告位上有规律地进行了一系列点击点击率过高,顾名思义一般指某个广告位在某个时间段内点击率过高鼓励点击,指作弊者采用诱惑性图片、文字诱导用户点击或将广告放到用户容易产生误操作的区域,让用户点击这些情况下产生的广告流量一般为虚假流量。
常见的“作弊”手段,从数据到显示,从显示到检测代码。只要检测码认为广告确实被展示过一次,无论用户是否实际看到了广告,广告主都要为这个曝光付费。作弊是让代码说谎的一种手段[2]。
1.直接访问监控代码
将客户端的信息以参数的形式拼凑成URL,以HTTP请求的形式发送给第三方。
人工拼凑网址,因为量级小,IP有限,容易识别,是最低级的手段。
2.服务器刷监控码
设置大量爬虫来抓取网页的指定元素。
而且大部分云机房的IP地址都属于同一个IP段,屏蔽各大云服务商的IP段可以解决此类问题。
3.客户端刷机监控代码
当用户访问网页时,网页上的JS持续多次触发该行为,多次滑动页面,模仿多次点击。
这样,如果广告用户的频率,大部分都在8/16/24/32这些吉祥数字上。基本上可以认定为用户正常浏览可以买一送七!如何自动发现这样的作弊行为?能理解傅立叶变换,频域。
正常用户点击广告时,自然点击分布与广告创意有关,而刷量点击要么集中,要么均匀分布,不难区分。看一下点击热图就一目了然了。
4.经常更换用户身份。
广告中的用户身份不会是PII的电子邮件和手机号码等信息。通常,cookie用于web场景,IDFA用于苹果手机的原生应用,AndroidID用于安卓手机的原生应用。如果这些都不可用,则使用指纹(IP+用户代理)。
无论采用哪种刷机方式,一般来说,用户的身份都要经常更换,这是反作弊时应该明白的。
对于可以选择流量的DSP,有一个简单的办法:每当第一次看到cookie或者设备,干脆不要出价;
对于在移动端以SDK的方式潜入媒体的SSP产品,可以获得很多终端信息。如果一部手机的电池总是满的,十有八九会有问题。
5.将iframe放在假显示器上
Iframe是一种HTML标签,可以将其他页面的内容插入到当前页面中,常用作展示广告的载体。通过设置宽度和高度,将广告位设置为肉眼不可见的大小,由机器检测并曝光。在一些新闻页面上,会在很不起眼的位置播放视频广告,效果也很差。
如果某个频道曝光率很高,但是转化率非常低,基本上就能吸引眼球。
6.诱骗用户点击广告
诱骗用户点击广告的情况通常发生在BBS中,经常会有伪装成帖子的广告用博主眼球的内容诱骗用户点击。点击后会出现页面跳转或者触发软件下载,用户很容易被抓住。除了BBS,一些下载网站还有很多“点击下载”,就是典型的招数。
7.操作员弹出窗口
广告显示在媒体的特定位置。在从网页到用户浏览器的数据链路中,运营商对网页数据进行深度包检测(DPI),用自己的广告覆盖媒体广告,发送给用户。
8.登陆页面劫持
打开浏览器访问目标网址:当ww.baidu.com按回车键时,地址栏中的网址变成这样:www,baidu,com?Utm_source=ABC,用广告源地址替换网站地址,增加这个渠道的流量。
9.饼干馅
“馅”就是“馅”的意思,也是针对CPS联盟的作弊手段。在用户不知情的情况下,用户被标记了一个标识网站管理员的Cookie。如果用户后来去了淘宝,进行了购买,由于Cookie的存在,自然的购买结果就变成了站长的引流结果。
10.下载归属
在移动应用下载广告方面,第三方监测一般规定用户点击广告一段时间后产生的下载行为视为广告效果。如果要求每个访问用户首先记录一次点击,无论是否下载,那么只要用户随后进行了下载,它将被记录为收入。当用户不浏览广告时,直接产生点击行为,通常表现为大量未曝光的点击。
四、常见的反作弊方法
1.基本手段
排重:Cookie、设备号及IP排重SDK加密防护点击频次有效期异常数据黑名单归因时间差防作弊
2.反作弊策略逻辑
以下数据是示例,不作为指标使用。
2.1点击反作弊。
(1)单个设备和单个频道的点击次数
5s内单设备,单渠道,点击大于等于2次小于5次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于5次,该设备在该渠道的点击和激活都标记为异常。一天内单设备,单渠道,点击大于等于3次小于6次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于6次,该设备在该渠道的点击和激活都标记为异常。一周内单设备,单渠道,点击大于等于12次小于15次,该设备在该渠道的点击标记为异常,激活默认为自然量;点击大于等于15次,该设备在该渠道的点击和激活都标记为异常。
(2)单ip和单频道点击次数
一天内,单ip,单渠道,点击大于等于30次,则该IP下的点击和激活标记为异常。
2.2激活反作弊
(1)单个设备和单个通道的激活时间
一天内单设备,单渠道,激活app大于等于3次小于5次,该设备在该渠道的点击标记为异常,激活默认为自然量;激活大于等于5次,该设备在该渠道的点击和激活都标记为异常。一周内单设备,单渠道,激活app大于等于4次小于6次,该设备在该渠道的点击标记为异常,激活默认为自然量;激活大于等于6次,该设备在该渠道的点击和激活都标记为异常。
(2)单个ip和单个通道的激活时间
一天内,单个ip、单个频道激活次数大于等于30次的,该IP下的超额点击和激活将被标记为异常。
(3)点击激活时差。
点击到激活的时间差小于等于5s,该设备在该通道的点击激活被标记为异常。
2.3黑色通道库
3天点击数大于1w,且激活率在0.01%以下的渠道,进入黑渠道库。
2.4黑色装备库
5s内点击3个以上广告链接的设备。一天内点击5个以上广告链接的设备。一天内激活3个以上app的设备。一周内,激活3个以上app的设备,且次日留存均为0。一周内,激活3个以上app的设备,且7日内,每日使用时长方差小于等于3分钟。渠道数据设备指纹的唯一性不匹配。
每个通道都有黑器件库,都需要参与计算。
单日激活率小于或等于某个值。使用所有黑名单数据库。
单日激活率大于等于一定值,被列入黑名单。
单通道的黑色设备,其未来的点击和激活都被标记为异常。
2.5黑IP库
一天内,点击大于等于50次的IP。–50以上ip占比0.47%一天内,激活大于等于10次的IP。–激活大于10个的仅3个人,可见刷IP点击之多,占比0.054%一天内,激活app次数/激活设备大于等于2的IP。一周内,激活5个以上app的ip,且次日留存率均为0。一周内,激活5个以上app的ip,且7日内,每日使用时长方差小于等于3分钟。
每个渠道都有黑ip库,都需要参与计算。
单日激活率小于等于某个值。使用黑名单库。
单日激活率大于等于一定值,被列入黑名单。
单个频道的黑IP,其未来的点击和激活都被标记为异常。
第五,写在最后。
反作弊需要大量的数据和技术支持,才能更准确地识别作弊流量。广告作弊对整个行业的危害是长期的。所有广告行业从业者都应该严厉打击广告欺诈,保护行业的正常发展。
本文内容非原创。以下是部分内容
[1]摘自《互联网广告虚假流量常见类型及原因分析》
[2]摘自《广告公司内部流量发布:互联网广告作弊十八般武艺》
[3]摘自《如何利用机器学习打广告反作弊(上)》
作者:幻想伏特加,商业和计算广告产品经理。
本文由@幻想伏特加原创发布。每个人都是产品经理。未经许可,禁止复制。
题目来自Unsplash,基于CC0协议。
000802ST北文股票
