Thirsty for more expert insights?

Subscribe to our Tea O'Clock newsletter!

News & Insights

Privacy

数字广告作弊：如何识别无效流量并免受其害

Jasmine Jin

Published on

1/4/2020

在当下这个时代，数字广告早已成为了各大品牌想要拓展全球市场，在激烈的竞争中提高销售业绩与市场份额必不可少的投资之一。全球的广告主们每年在数字广告上高达数千亿美元的花费悄悄吸引着不法分子们利用尚未成熟的技术漏洞来谋取暴利。这些欺诈者的出现不仅扰乱了行业秩序，还对数字广告生态链中不同的利益相关者造成了直接的经济损失。据统计，数字广告欺诈每年会给全行业带来至少65亿美元以上的损失，有的分析家甚至估计损失可高达190亿美元。那么我们应该如何识别可疑现象，并与广告作弊行为作斗争呢？

理解典型的广告作弊方式

你可能会好奇所谓的广告作弊到底是什么，是怎样产生的。接下来让我们一起来看看以下两种典型的情景。

情景1

来自电商公司 A 的 Laura 投放了一条搜索广告，其主要目的是增加网站访客数量。自从网站的童装板块上线之后，这条广告已经被连续投放了4个月。在前3个月中，此广告点击量有持续、稳定的上升，所以 Laura 和她的领导都很高兴。但是，令她出乎意料的事请发生了，在第4个月的第2个星期，广告的点击量突然在星期四、星期五猛然上涨，比往日同期的平均值增加了60%。让 Laura 疑惑不解的是，网站本身没有任何更新或变化，并且广告点击量在星期六恢复了正常。她把这个奇怪的现象告诉了同事，并且决定一起调查这些额外点击量的真假。

情景2

来自中国汽车公司 B 的 Peter 在近期投放了一波针对于墨西哥网站访客的再营销展示广告。在一个星期五的下午，就在 Peter 准备下班回家过周末的时候，他突然注意到了一个异常的现象：在过去几天，绝大多数的广告展示、点击出现在下午1点到5点期间，然而这个时间的墨西哥人通常还在睡觉。他立刻感觉事请有点蹊跷，并且担心这些广告的展示和点击是由机器产生的。以上这两种情景的共同点是：其中涉及到的展示量与点击量都属于无效流量。在现实中，绝大多数的数字广告作弊都是通过无效（非人为）流量（Invalid Traffic, IVT）产生的。无效流量分为一般无效流量（GIVT）与复杂无效流量（SIVT）。

什么是一般无效流量（GIVT）？

一般无效流量（General Invalid Traffic, GIVT）是一种相对容易识别的作弊方式，通常由爬虫和机器人自动生成。这些流量的表现通常会非常奇怪，正常的人为流量是绝对不会有类似的行为的，比如一个同样的链接被重复点击1000次，或者每隔5秒钟就切换到一个新页面等。一般无效流量可以通过常规的过滤方式被识别出，包括过滤列表的添加应用以及其他标准参数的检查等。典型的一般无效流量有以下几种：

已知数据中心流量 (Known data-center traffic)：来自于数据中心服务器的流量，这些服务器的 IP 地址和无效行为是相关联的（通常为非人为流量）。
机器人与爬虫 (Bot and spiders or other crawlers)：机器人与爬虫产生的网络活动都是非人为的，有些机器人与爬虫产生的网络活动是合法的（比如搜索引擎机器人），它们可以帮助提高终端用户的体验，而有些则是违法的，甚至带有恶意。即使是合法的机器人和爬虫流量也同样需要被过滤掉，因为它们属于非人为流量，并且可能会在某些情况下触发广告的曝光。
基于活动的过滤 (Activity-based filtration)：有些用户行为需要你额外关注，比如多次重复同样的有特定规律的行为，进行网络交易的速度过快、次数过频繁等等。这些看起来比较可疑的用户行为也需要被侦别出来，因为它们很可能也是无效流量。
不正常规律 (Irregular pattern)：包含一种或多种不正常规律的广告流量，比如自动刷新（会造成额外页面浏览的产生）或者多次重复点击。
提前抓取或加载的流量 (Pre-fetch or browser pre-rendered traffic)：浏览器有时会在用户到达网页或是与网页进行互动之前提前加载一些网页上的内容，这是为了给用户带来更加无缝隙的上网体验，但是提前加载网页内容可能会导致一些广告被自动触发。这种被自动触发的广告所产生的无效流量也需要被过滤掉。

什么是复杂无效流量（SIVT）？

如名所见，复杂无效流量（Sophisticated Invalid Traffic, SIVT）是一种更高级的作弊方式。复杂无效流量不能通过常规过滤方式被识别出来，通常需要分析员具有高级的分析技巧才可以进行鉴别。典型的复杂无效流量有以下几种：

自动化浏览 (Automated browsing)：在既没有用户参与也没有声明自己是爬虫的情况下，一个程序或是自动脚本向网页索要内容（包括数字广告内容），比如僵尸网络。
错误的代表 (False representation): 为了非法目的将网站伪装成其他虚假的实体，可能会导致广告被展示到错误的网页栏位上（计划购买的广告点位与实际广告展示点位不符）。
无效代理流量 (Invalid proxy traffic)：有些中间代理设备可以操控流量计算或者传递非人为流量和无效流量。这些代理可能会被用于机器人流量的传输，使机器人流量看似是从普通的来源中产生的。
广告程序软件和恶意软件 (Adware)：广告程序软件会伪装成合法广告的内容，借机在用户的设备上上安装恶意软件。
物质激励下的数据操控 (Incentivized manipulation)：在广告主完全不知情的状态下用金钱诱惑用户与一个或多个广告进行互动，而用户与广告互动的唯一目的就是为了获取报酬。

广告主怎样应对无效流量？

尽管数字广告作弊不会在短时间内被彻底消除，但整个数字广告生态圈，从广告主到媒体都已经对这个问题的严重性有了更深的认识。如果广告主想要将假流量带来的损失最小化，就需要从知识角度和技术角度全方位武装自己。首先，广告主们应该了解什么是无效流量以及怎样处理它们。在市场上有很多提供广告审计与验证的第三方服务，他们通常都有自己独特的技术与擅长的领域。有的会通过计算样本的数量从而推断总体的无效率，但并无法精确到具体哪些曝光、点击、或 App 下载是假的；有的则会检查每一笔交易的真实性。因此，在广告主与第三方伙伴进行合作前，应该透彻地了解他们采用什么样的方法去鉴别、处理无效流量，只有这样才能筛选出最合适的合作伙伴。近些年来，越来越多的媒体渠道开始获得 Trustworthy Accountability Group (TAG) 提供的认证。根据该组织在2018年11月对美国750亿展示与视频广告在 PC 端、移动网页端以及移动 App 端的研究发现，通过认证的渠道的造假率要比未通过认证的渠道低84%。在2019年1月，TAG 也在欧洲展开了同样的调查研究，结果与美国的很相似。尽管与获得认证的媒体渠道合作，也并不能确保万无一失，广告主们还是可以在很大程度上降低风险与损失。另外一种常用的反作弊手段是在媒体端添加 ads.txt。Ads.txt 是一种媒体可以在他们自己的网站上添加的文本文件，其中包括已获得该媒体授权的第三方经销商列表，这些第三方经销商可以合法售卖该媒体的广告栏位。Ads.txt 可以保护媒体不受到域名欺骗的影响 (作弊者造假广告曝光来源的 URL 或网站地址）。广告主们也可以应用一些网站分析工具（比如 Google Analytics）去鉴别潜在的无效流量。举个例子，如果发现了从某个广告获取的用户有接近100%的跳出率，并且平均会话时长小于1秒，那么这些流量很可能不是真的。如果这些流量的数量很大，那么广告主需要及时采取一些应对措施，如考虑立刻停止广告投放，或是进一步与媒体沟通相应的赔偿方式等等。在不远的未来，打击数字广告作弊还将是一项很艰巨的的任务，但是随着行业整体技术与水平的不断提高，数字广告从业人员将进行更加有力的还击。

Jasmine Jin

Back to homepage