Resultados VS Aprendizado: Desmistificando Testes A/B

|

Por que resultados precisam vir antes do aprendizado em Marketing Digital? A resposta para isso é simples: você precisa lucrar com as suas campanhas em primeiro lugar.

O aprendizado também é essencial e te trará frutos no longo-prazo, mas possui requisitos obrigatórios para você afirmar de fato que aprendeu algo.

Fazer Testes A/B significa entrar num universo científico onde é preciso compreender e lidar com as leis da estatística.

Isso é crucial para evitar que você caia em algumas armadilhas, como: viés de confirmação, indução, falso positivo e demais confusões que irão te induzir ao erro e causar prejuízos sem que nem ao menos você perceba que está errando.

Neste guia vamos esclarecer esses pontos e trazer dicas para facilitar o seu programa de testes a/b.

Gerar aprendizado pode custar caro

Um dos principais requisitos para fazer testes a/b, é possuir um volume suficiente de amostragem de dados.

Em outras palavras, significa que você precisa de tráfego suficiente nas suas campanhas e landing pages para poder validar com certeza e num tempo viável os seus experimentos.

Com pouco tráfego você pode até observar uma variável campeã naquele período, porém as chances desta variável ser um falso positivo são grandes.

Você precisa ser cético quando se trata de experimentos, caso contrário sua decisão pode custar caro.

É suspeito aprender com baixo tráfego

Se você quer ser um profissional sério, preste atenção nisto.

Você não pode tirar conclusões com base em um tamanho de amostragem insuficiente. Uma boa estimativa é ter como objetivo pelo menos 350–400 conversões por variação.

Este número pode ser menor dependendo da circunstância (como quando a discrepância entre a versão de controle A e a variante B é muito grande) mas os números mágicos não existem.

Não fique preso a um número. Isso é ciência, não mágica.

Peep Laja, Instituto CXL

Abaixo explico melhor sobre a significância estatística.

Viés de Confirmação

Em qualquer teste A/B realizado por um tempo razoável, há um custo por não concluir a experiência e escolher a versão que os dados indicam ser superior: este é o custo de oportunidade.

Também existe um custo para concluir um teste e talvez fazer a escolha errada: este é o custo do erro (e, claro, está presente mesmo em resultados com uma significância de 95%).

Portanto, cuidado com o custo de oportunidade e o custo do erro.

Não é porque você tem um volume de tráfego ideal, alto nível de confiança e boa duração do teste que significa que os seus resultados foram válidos.

Viés de confirmação, também chamado de viés confirmatório ou de tendência de confirmação, é a tendência de se lembrar, interpretar ou pesquisar por informações de maneira a confirmar crenças ou hipóteses iniciais.

Wikipédia – Viés de confirmação

Existem várias ameaças à validade do seu teste e você precisa sempre ser o mais cético possível e considerar todas as possibilidades de contextos e cenários diferentes.

Comportamentos como viés de confirmação, dados históricos e até mesmo cálculos errados ou ferramentas desconfiguradas, podem te induzir ao erro.

E esses erros são mais comuns do que você imagina.

O que é significância estatística?

A significância estatística é um conceito fundamental na análise de testes A/B, especialmente no contexto do marketing digital.

Ela é usada para determinar se a diferença entre as métricas de desempenho de duas variantes (A e B) é real ou se ocorreu ao acaso.

Cientificamente falando, o poder estatístico é a probabilidade de um teste A/B detectar uma diferença estatisticamente significativa no nível alfa (α) se um efeito verdadeiro de certa magnitude estiver presente.

E a significância estatística é a probabilidade de que a diferença observada nos resultados de um teste A/B não seja devida ao acaso, dada a hipótese nula de que não há diferença.

Simplificando, é a capacidade de detectar uma diferença entre as variações de teste quando uma diferença realmente existe, evitando falsos positivos.

Um resultado estatisticamente significativo significa que é improvável que tenha ocorrido por acaso, e que há evidências de que uma relação causal existe entre as variáveis.

Ela é usada para determinar se a hipótese nula de um estudo pode ser rejeitada ou não.

Neste exemplo temos um resultado com significância estatística, ou seja, com 95% de confiança

Quando falamos de Testes A/B em Marketing Digital, a significância estatística é a probabilidade da diferença entre a versão de controle e a variante do seu experimento não ser resultado de erro ou acaso (falso positivo).

Em relação ao intervalo de confiança, o nível de confiança é a frequência com a qual o intervalo observado contém o valor correto para o parâmetro de interesse quando o experimento é repetido várias vezes.

Por exemplo, o nível de confiança de 95% significa que 95% dos intervalos de confiança construídos a partir das amostras aleatórias contêm o valor verdadeiro do parâmetro.

Em relação ao teste de hipóteses, o nível de confiança é o complemento do nível de significância. Isto é, um intervalo de confiança de 95% reflete um nível de significância de 5%.

Exemplo: com 80% de confiança, você tem 20% de probabilidade de não ser capaz de detectar uma diferença real para uma dada magnitude de interesse. Se 20% for muito arriscado, você pode diminuir essa probabilidade para 10%, 5% ou mesmo 1%, o que aumentaria seu poder estatístico para 90%, 95% ou 99%, respectivamente.

Em um Teste A/B (em que é possível coletar somente uma amostra) espera-se que a amostra seja uma das 95% para as quais a hipótese nula é falsa.

Isso porque o valor-p menor que 0,05 é considerado significativo estatisticamente.

Isso significa que há menos de 5% de chance de que a diferença observada seja devido ao acaso.

Se o valor-p for maior que 0,05, então não há evidências suficientes para concluir que há uma diferença significativa entre os dois grupos.

Estes são os parâmetros mais usados para testes A/B online.

Calculadora de Testes AB e Significância Estatística
Calculadora de Testes AB e Significância Estatística
Neste exemplo, não há garantias de que a variante campeã seguirá vencendo, pois o valor-p foi superior a 0,05.

Mas cuidado com o perfeccionismo exagerado.

Antes de pensar que você resolverá todos os seus problemas executando testes com 99% de confiança, entenda que cada aumento na potência requer um aumento correspondente no tamanho da amostra e na quantidade de tempo que o teste precisa para ser executado (tempo que você pode desperdiçar executando um teste de perda — e perda de vendas — apenas por um ou dois pontos percentuais extras de probabilidade estatística).

Como Calcular a Significância Estatísticas dos meus Testes A/B?

Para realizar este cálculo você precisa de três informações fundamentais.

1) Taxa de Conversão de cada grupo
A taxa de conversão em cada variação do experimento.

2) Tamanho da amostra
O número total de visitantes únicos que visitou cada variação do experimento.

3) Nível de Confiança
Este parâmetro altera o nível de confiança de o efeito provocado pelas alterações não ter ocorrido devido ao acaso. Recomenda-se a utilização de no mínimo 95%, pois cientificamente o valor-p menor que 0,05 é considerado significativo estatisticamente.

Mas não se preocupe com os cálculos, existem diversas calculadores gratuitas para agilizar e facilitar a vida dos profissionais de marketing digital.

Calculadora Testes AB Resultados Digitais
Calculadora de Teste A/B

Recomendo a Calculadora de Resultados de Testes A/B da SurveyMonkey, ou esta calculadora da Resultados Digitais.

Quantas visitas eu preciso para rodar meu teste A/B?

Tudo vai depender do seu cenário e parâmetros escolhidos.

Felizmente existem calculadores online para facilitar nosso planejamento de mídia e programas de growth hacking.

A calculadora A/B Test Size da ABTestGuide.com pode ser uma excelente aliada.

Recomendação de amostragem mínima para 95% de confiança

Para operar a calculadora você precisa informar:

  • Conversion Rate Control: taxa de conversão média de controle, ou seja, da versão A (original) do experimento.
  • Expected improvement over control: expectativa de otimização da taxa de conversão sobre a versão original A, por meio do experimento A/B.
  • Unique visitors on your test page per week: visitas únicas esperadas na sua versão de testes (B) por semana.
  • Max number of weeks for AB-test: o número máximo de semanas que o experimento irá rodar, ou seja, o período de duração.

Você ainda pode determinar se a hipótese será unilateral ou bilateral, além de poder customizar o nível de poder e de confiança para testes que precisam de resultados com um nível de significância mais exigente.

Além disso, é importante lembrar que a significância estatística não é a mesma coisa que a importância prática.

Uma diferença pode ser estatisticamente significativa sem ser grande o suficiente para ter um impacto real sobre o desempenho de marketing. Portanto, além de avaliar a significância estatística, é importante avaliar o tamanho do efeito e o ROI.

Confie nos Algoritmos e Escale, depois Aprenda

Neste ponto do post você já deve ter entendido que testes A/B não são brincadeira, muito menos truque de mágica.

Estamos falando de aplicação científica no marketing digital.

O fato é que realizar experimentos vai te exigir tempo e dinheiro, seja pra cobrir experimentos que não trouxeram resultados positivos ou para garantir um volume de tráfego ideal para uma amostragem com significância estatística.

Um resultado sem significância estatística não é uma evidência, mas sim uma incerteza.

Infelizmente nem sempre estaremos num cenário propício para realizar experimentos. Mas e se eu te disser que existe uma maneira de fazer testes simultâneos e ainda assim garantir o melhor resultado possível?

Estou falando de aprendizado de máquina ou machine-learning aplicado às ferramentas de tráfego pago do Google ADs e Facebook ADs.

Meta ADs: Criativo Dinâmico (Power5)

O criativo dinâmico de Meta ADs funciona como um super criativo!

Nele você pode inserir várias opções de título, descrição, chamadas para ações e até mesmo combinar imagens e vídeos diferentes. Dessa forma o algoritmo da Meta vai testar e otimizar essas combinações, priorizando resultados eficientes para cada impressão exibida.

Meta ADs Power5
Os textos de legendas e as peças criativas, serão combinadas entre si, com entrega baseada em eficiência diária

Graças ao aprendizado de máquina, essa otimização ocorre individualmente para cada pessoa que vê o anúncio. Significa que o aumento de desempenho será a prioridade máxima dessas combinações parametrizadas.

Isso torna o criativo dinâmico uma ferramenta de otimização excelente quando você não sabe ao certo qual criativo será relevante para públicos diferentes, possibilitando trabalhar com diversos criativos e copywriting de uma vez.

Lembrando que o criativo dinâmico não substitui o Teste A/B no sentido de aprendizado, ou seja, no sentido de descobrir qual a melhor variação possível daquele experimento.

O principal objetivo do criativo dinâmico é experimentação orientada ao desempenho, e não ao aprendizado.

Veja aqui como criar um criativo dinâmico no Facebook ADs.

O Lances inteligentes é um subconjunto de estratégias de lances automáticas que usa o aprendizado de máquina para otimizar as conversões ou o valor delas em cada um dos leilões (um recurso conhecido como “lances durante o leilão”)

CPA desejado, ROAS desejado, Maximizar conversões, Maximizar o valor da conversão e CPC otimizado (ECPC) são estratégias de Lances inteligentes.

O Lances inteligentes funciona muito bem para empresas de pequeno e grande porte. O Lances inteligentes otimiza com base nos dados de todas as suas campanhas. Desse modo, até mesmo o desempenho das novas campanhas sem dados pode aumentar.

Aqui está a documentação oficial sobre os lances inteligentes e um artigo sobre o machine learning do Google ADs.

Primeiro busque lucrar com suas campanhas para só depois otimizá-las com experimentos

Um Pouco Mais de Fatos do Mercado

No início deste post eu afirmei que os resultados precisam vir antes dos experimentos, ou seja, a performance das suas campanhas deve ser seu principal objetivo.

E a melhor maneira de fazer isso é confiando nos algoritmos.

Porém eu entendo que a princípio isso pode parecer loucura (a não ser que você me permita lhe fazer um pitch de vendas apresentando alguns cases da Alaska).

E justamente por entender que isso parece loucura que eu resolvi convidar um dos profissionais mais incríveis e competentes que conheço em Marketing Digital (especialista em programas de growth hacking).

Visão Dos profissionais de Marketing Digital No Brasil

O texto é seguir é uma colaboração do Anderson Palma, ex Vice-presidente de Performance & Growth e atual Diretor de Inovação na Suno Research (uma das maiores empresas de publicações e ideias de investimentos financeiros do Brasil):

“Esse é um assunto que sempre deu o que falar.

Afinal de contas temos tantos gurus do marketing por aí ensinando pessoas a executar, planejar e preparar toda a estratégia de marketing de suas empresas que fica difícil contrariar… mas ao mesmo tempo sinto a necessidade inerente de responder à altura quando vejo algo que foge completamente daquilo em que acredito… Então, sem mais delongas, lá vai minha opinião…

Você não precisa saber tudo pra começar a fazer campanhas de tráfego pago.

Ufa, como é bom tirar esse desabafo do peito…

Eu sei, parece algo simples, não é mesmo? Mas não é.

Quando você está no front de batalha fazendo a suas campanhas de mídia paga, ou mesmo de mídia orgânica, tudo o que você quer é escalar. Tudo que você mais deseja na vida é fazer com que a sua campanha, o seu post ou o seu anúncio, tenha um crescimento absurdo que vai impulsionar os resultados da sua empresa.

O único problema, é que o mundo real não funciona assim…

No mundo real, você tem concorrentes brigando pelas mesmas palavras chaves que você. No mundo real você tem gente investindo e muito mais do que você é capaz de investir. Mas não necessariamente você saberá disso.

Por essa razão, eu te digo agora: a melhor coisa que você faz em relação as suas campanhas, é colocar elas na rua. Assim que você abandona a prancheta e coloca suas campanhas no ar, você é capaz de fazer algo que nunca aconteceria caso estivesse tentando aperfeiçoar a suas campanhas o tempo todo no papel: você interage com a vida real e com pessoas reais.

No mundo real, você tem concorrentes brigando pelas mesmas palavras chaves que você. No mundo real você tem gente investindo e muito mais do que você é capaz de investir.

Anderson Palma, Diretor de Inovação na Suno Research

Na prática a história é outra, já dizia o poeta.

Mas há tempo para acalmar o seu coração em relação esse assunto, acho que é bacana falar: fica tranquilo, os algoritmos sabem mais do que você.

Calma, não estou falando pra você abandonar a plataforma dos seus anúncios, mas o que quero dizer com isso é que você tem na suas mãos uma ferramenta muito poderosa: os algoritmos das mídias pagas.

Ele sabe muito bem qual é o comportamento do seu consumidor. Coisas que você nem faz ideia, como quais as preferências sexuais de alguém, ou se determinada pessoa está grávida… Parece absurdo e exagero, não é mesmo? Mas não é.

Na realidade é algo bem comum para empresas que entendem o comportamento do seu consumidor. Empresas que deixam os algoritmos trabalharem.

Eu mesmo deixo que a escala aconteça de acordo com o ritmo dos algoritmos, para depois atuar, caso seja necessário.

Isso permite a máquina do Google ADs a automatizar lances em tempo real no leilão de anúncios do Google, além de escolher as audiências e os criativos certos para cada uma, de forma precisa e automática.

Um caso que eu gosto de lembrar é o de um pai que costumava receber anúncios de determinada loja de departamento nos Estados Unidos. Como as compras para casa e para cada um dos integrantes eram feitas a partir do mesmo IP, mesmo que de dispositivos diferentes, as recomendações que essa família recebia de compras, relacionava o comportamento de busca de todos os membros da casa dentro do website da loja.

Acontece que em dado momento o pai começou a receber comunicações via e-mail e via anúncios de itens de gravidez. Obviamente, a sua esposa não estava grávida. A sua filha tinha apenas 16 anos e também não poderia estar grávida. Ele, claro, também não estava grávido.

Portanto a única explicação lógica era de que a empresa estivesse errada, e por isso o pai enviou um e-mail a empresa reclamando do tipo de conteúdo que ele receberá.

A empresa se desculpou depois de tentar explicar como funcionava os mecanismos de recomendação, mas acabou colocando a culpa nas máquinas. Pouco tempo depois, o pai retorno para empresa pedindo desculpas: a filha estava realmente grávida…

A pergunta que fica para você é a seguinte: até que ponto você está deixando os algoritmos trabalharem no seu negócio para ser capaz de colher os resultados e tomar as decisões de negócio que são necessárias de cada gestor em cada empresa?

Até que ponto sua empresa é capaz de confiar nos algoritmos e escalar, para depois aprender com isso? Fica a dica.

Utilize os algoritmos, eles são seus amigos…”

O Mercado Livre Usa o Machine-Learning No Google ADs

Um grande player que usa e abusa do aprendizado de máquina é o Mercado Livre.

Com 247 milhões de usuários e mais de 150 milhões de ofertas, seria impossível para o Mercado Livre otimizar todas suas campanhas de Google ADs e entregar a oferta mais relevante para cada cliente sem o uso da Inteligência Artificial.

Segundo dados oficiais do Google, depois de usar o machine learning do Google ADs, o Mercado Livre teve um aumento de 160% em suas vendas e de 35% no ROI.

Esse e muitos outros exemplos mostram que é possível entender a jornada do cliente, prever resultados de marketing e otimizar investimentos com o aprendizado de máquina, trazendo melhores resultados.

Não precisa se assustar: o aprendizado de máquina pode te ajudar a obter mais resultados na “era da informação” em que vivemos

O Algoritmo Não É Onisciente

O algoritmo não é onisciente, mas é uma máquina absurda de fazer cálculos.

O cérebro humano é extremamente limitado para realizar cálculos e projeções, se compararmos com algoritmos.

“Algoritmos entendem você melhor do que você mesmo se entende (…) Hoje bilhões confiam no algoritmo do facebook ou do google para nos dizer a verdade. A Netflix nos diz o que assistir… No futuro nos dirão onde trabalhar, com quem casar, ou se o Banco Central deve diminuir ou não a taxa de juros.”

Yuval Harari, em Homo Deus

Basicamente eles seguem fórmulas e padrões matemáticos baseados em relação, análise e probabilidade estatística.

Porém é importante salientar que felizmente os algoritmos não são oniscientes!

É por isso que chamamos de aprendizado de máquina ou machine-learning: um algoritmo sozinho não toma decisões subjetivas (e não entende contextos), mas somente realiza cálculos. E nós, como humanos e profissionais de marketing, podemos orientar o algoritmo para tomar decisões em prol do nosso objetivo de gerar o maior número de resultados pelo menor custo possível.

Desta forma as otimizações de lances, formatos e entregas se tornam excepcionais e humanamente impossíveis de se realizar manualmente.

Conclusão

Experimentos são essenciais para melhores resultados no longo-prazo, mas a melhor maneira de acelerar um crescimento de tráfego pago é por meio do aprendizado de máquina.

Busque primeiro a eficiência e só depois o aprendizado.

É claro que para tudo existe um momento e cenário ideal, mas se você está buscando por incremento de vendas neste momento, eu recomendo fortemente que você suba um criativo dinâmico em Meta ADs com algumas opções de títulos, descrições, criativos e chamadas para ação − e deixe o algoritmo trabalhar!

O mesmo vale para o Google ADs: confie nos lances inteligentes.

Ainda em tempo, vale dize que o Google ADs é mais sensível a mudanças se compararmos com o Meta ADs. Portanto, mudar a headline ou subir novos anúncios todos os dias pode ser uma péssima ideia para suas campanhas de Google.

Com o uso de lances inteligentes você habilita o aprendizado de máquina a favor das suas campanhas, prevendo uma infinidade de comportamentos e jornadas que seriam impossíveis de controlar (e de observar) com lances manuais.

E quer saber da melhor parte?

Essa função está aberta para todo o mercado utilizar!

Faça os testes e conte pra gente como foi sua experiência.

Ebook CRO