Artigos

1.6.6.1: O que é um teste estatístico?


Suponha que comparamos dois conjuntos de números, medidas provenientes de duas amostras. Por comparação, descobrimos que eles são diferentes. Mas como saber se essa diferença não surgiu por acaso? Em outras palavras, como decidir se nossas duas amostras são realmente diferentes, ou seja, não vieram da mesma população?

Essas amostras podem ser, por exemplo, medições da pressão arterial sistólica. Se estudarmos a droga que potencialmente reduz a pressão arterial, é sensato misturá-la aleatoriamente com um placebo e depois pedir aos membros do grupo que relatem sua pressão arterial no primeiro dia do ensaio e, digamos, no décimo dia. Então, a diferença entre duas medidas permitirá decidir se há algum efeito:

Código ( PageIndex {1} ) (R):

Agora, há um efeito promissor, diferença suficiente entre as diferenças de pressão arterial com a droga e com o placebo. Isso também é bem visível com boxplots (Verifica por você mesmo). Como testar? Já sabemos como usar o valor p, mas é o fim da cadeia lógica. Vamos começar do início.

Hipóteses estatísticas

Os filósofos postularam que a ciência nunca pode provar uma teoria, mas apenas refutar isto. Se coletarmos 1000 fatos que apóiam uma teoria, não significa que a provamos - é possível que a 1001ª evidência a refute. É por isso que nos testes estatísticos comumente usamos duas hipóteses. Aquela que estamos tentando provar é chamada de hipótese alternativa ( (H_1 )). O outro, padrão, é chamado de hipótese nula ( (H_0 )). A hipótese nula é uma proposição de ausência de algo (por exemplo, diferença entre duas amostras ou relação entre duas variáveis). Não podemos provar a hipótese alternativa, mas podemos rejeitar a hipótese nula e, portanto, mudar para a alternativa. Se não podemos rejeitar a hipótese nula, então devemos permanecer com ela.

Erros estatísticos

Com duas hipóteses, existem quatro resultados possíveis (Tabela ( PageIndex {1} )).

O primeiro (a) e o último (d) resultados são casos ideais: ou aceitamos a hipótese nula que é correta para a população estudada, ou rejeitamos (H_0 ) quando ela está errada.

Se aceitamos a hipótese alternativa, quando ela não é verdadeira, cometemos um Erro estatístico tipo I- encontramos um padrão que não existe. Esta situação é freqüentemente chamada de “falso positivo” ou “falso alarme”. A probabilidade de cometer um erro Tipo I está ligada a um valor p que é sempre relatado como um dos resultados de um teste estatístico. Na verdade, o valor p é uma probabilidade de ter o mesmo ou maior efeito se a hipótese nula for verdadeira.

Imagine o oficial de segurança do plantão noturno que ouve algo estranho. As opções são duas: pule e verifique se esse ruído é uma indicação de algo importante ou continue relaxando. Se o ruído externo não for importante ou mesmo real, mas o policial pulou, esse é o erro Tipo I. A probabilidade de ouvir o ruído suspeito quando, na verdade, nada acontece em um valor p.

amostra populaçãoNulo é verdadeAlternativa é verdade
Aceitar nulo
Aceitar alternativa

Tabela ( PageIndex {1} ) Hipóteses estatísticas, incluindo ilustrações de erros (b) Tipo I e (c) Tipo II. Pontos maiores são amostras, todos os pontos são população (ões).

Para o oficial de segurança, provavelmente é melhor cometer um erro Tipo I do que pular algo importante. No entanto, na ciência a situação é oposta: sempre ficamos com o (H_0 ) quando a probabilidade de cometer um erro Tipo I é muito alto. Filosoficamente, esta é uma variante de Navalha de Occam: os cientistas sempre preferem não introduzir nada (ou seja, mudar para uma alternativa) sem necessidade.

o homem que sozinho salvou o mundo da guerra nuclear

Essa abordagem pode ser encontrada também em outras esferas de nossa vida. Leia o artigo da Wikipedia sobre Stanislav Petrov (https://en.Wikipedia.org/wiki/Stanislav_Petrov); este é outro exemplo de quando o alarme falso é muito caro.

A questão óbvia é qual probabilidade é “muito alta”? A resposta convencional coloca esse limite em 0,05 - a hipótese alternativa é aceita se o valor p for inferior a 5% (nível de confiança superior a 95%). Na medicina, com vidas humanas em jogo, os limites são ainda mais rígidos, em 1% ou até 0,1%. Ao contrário, nas ciências sociais, é frequente aceitar 10% como limite. O que quer que tenha sido escolhido como limite, deve ser definido a priori, antes de qualquer teste. Não é permitido modificar o limite para encontrar uma desculpa para uma decisão estatística em mente.

Figura ( PageIndex {1} ) Esquema de decisão estatística (para teste unicaudal). ( alpha ) é a probabilidade de erro Tipo I, ( beta ) - de erro Tipo II. Antes do teste, devemos definir ( alpha ), geralmente para 0,05. Em seguida, usamos os dados originais para calcular a estatística (adivinhar a localização da linha vertical preta). Em seguida, usamos a estatística para calcular o valor p. Finalmente, se o valor p for menor que ( alpha ), rejeitamos a hipótese nula.

Aceite a hipótese nula quando na verdade a alternativa é verdadeira é um Erro estatístico tipo II- falha em detectar um padrão que realmente existe. Isso é chamado de “falso negativo”, “descuido”. Se o agente de segurança descuidado não saltou quando o barulho lá fora é realmente importante, isso é Erro tipo II. A probabilidade de cometer erro tipo II é expressa como potência do teste estatístico (Figura ( PageIndex {1} )). Quanto menor for essa probabilidade, mais poderoso será o teste.


Assista o vídeo: Estatística qui-quadrado para testes de hipóteses (Dezembro 2021).