Antes de dar prosseguimento, vamos aqui utilizar de uma pequena revisão do teste de hipóteses para proporção, para duas coisas. Primeiro, retomar esses conceitos que apresentamos durante esse módulo. E já preparar, então, essa base para o próximo módulo. Então, nós vamos utilizar essa revisão nesses dois sentidos. A estrutura do teste de hipóteses para proporção. Como a gente comentou nesse módulo. Vai ser a mesma para os demais; ou seja, a estrutura é a mesma. Com pequenas diferenças que, no seu momento oportuno, serão melhores discutidas. Por hora, vamos relembrar que o teste de hipóteses se encaixa diferentes tipos de objetivos que a gente esteja tentando verificar. Por exemplo, nós podemos verificar se a média de uma determinada população estaria dentro do que a gente esperaria. Então, aqui, a gente contrastando o valor que a gente esperar encontrar. Então esse é o parâmetro que a gente gostaria de encontrar com o valor que a gente tem que melhor reflete o que seria, realmente, o parâmetro da população. Pode então ser definido de forma empírica ou a partir de uma teoria. Então, aqui é o valor que gostaríamos de testar. A gente pode fazer, a partir dessa estrutura, dois tipos de testes. Quando o desvio padrão da população é conhecido e quando ele é desconhecido; sendo, respectivamente, os testes 'z' e o teste 't'. Podemos também, com uma simples adaptação da estrutura, testarmos se a média de uma população seria igual à média de uma outra população a partir dos valores que obtivemos nas amostras respectivas. Isso também se estende para o caso de várias amostras. Então, 'k' amostras. A diferença é que para 'k' amostras utilizaremos o teste 'f' de ANOVA. E para o caso de comparação entre duas amostras, ainda, o teste 'z', teste 't', sempre considerando conhecermos, ou não, o desvio padrão. Por fim, uma estrutura viável seria a de utilizarmos aqui a proporção. Então, na teoria, também, ou algo empírico que a gente gostaria de testar; para validar, ou não, o nosso parâmetro da população. Aqui, no caso, o parâmetro sendo a proporção. Todas essas estruturas se encaixam no que a gente está chamando de teste de hipóteses. Com relação, especificamente, a esse teste de proporção, nós temos que lembrar o seguinte. A gente atuava uma situação que a quantidade de informação numérica que a gente tinha era máxima; ou seja, a gente estava falando de variáveis do tipo contínuas. E mais do que isso, a gente também exigia que o tamanho da amostra fosse o que a gente chamava de amostra grande. Ou seja, uma amostra maior do que 30 elementos. Sendo essas duas condições atendidas, o teste, então, a partir daquela nossa estrutura geral, que a gente adaptou para o nosso caso, pode ser construída. E aqui, no caso, ele é a verificação da proporção da população- a gente está chamando aqui do parâmetro 'Pi'- com o valor da ocorrência amostral. No caso, aqui a proporção que a gente encontrou uma amostra, a gente vai chamar de valor 'p'. Lembrando que o valor que nós construímos na nossa hipótese nula e hipótese alternativa, ele tem como referência o melhor conhecimento que a gente tenha dessa população. Então, isso veio de alguma fonte; ou veio de forma empírica, ou veio de forma teórica. Esse é o status quo, o melhor conhecimento que a gente tem da população. E a gente vai testar contra uma hipótese alternativa. E essa hipótese alternativa, veja que ela mantém aqui. Nós vamos falar com mais detalhes sobre isso no próximo módulo, no módulo 3: "Como construir hipóteses nulas e hipóteses alternativas". Mas, por hora, perceba que a gente mantém aqui o parâmetro da população; mantemos aqui o conhecimento que a gente tem; e o valor 'p', ou seja, os dados amostrais, entram aqui. Se o número de eventos de sucesso na amostra, ou seja, se a gente está procurando verificar qual é a proporção de observações que pertençam ao que a gente gostaria de validar. Nós vamos chamar, então, de casos de sucesso. Encontramos caso de sucesso. Para facilitar, nós vamos usar uma variável binária. No caso, aqui, a gente vai chamar de 'x' igual a 1 quando for identificado, para essa observação particular, caso de sucesso. Caso contrário, nós vamos colocar, então, valor como 0 e seria caso de fracasso. Ou seja, que não pertence ao que a gente esperaria encontrar. E a proporção é construída dessa forma. Seria, então, o número de vezes que a gente encontrou sucesso na amostra. Se a gente somar os valores de 'x', como 'x' é igual a 1, teremos valor que pode ser relativizado pelo tamanho da amostra. Então, o tamanho da amostra aqui é 'n' e é a nossa proporção. Ou seja, esse valor aqui vai indicar se isso daqui é simplesmente uma diferença, ou se há evidências de que realmente seja maior ou menor. Então, o valor de 'p' entra nessa parte aqui da estrutura. No entanto, cabe a gente lembrar daquelas duas condições iniciais, que a amostra era grande e que a variável era do tipo contínua. Para a execução do teste de proporção, nós estamos assumindo uma terceira condição, essa que pelo teorema do limite central, nós vamos falar que a estrutura desse teste pode ser uma estrutura baseada na distribuição do tipo normal. Nós vamos falar também com detalhes sobre a construção da estatística teste na aula específica. Por outro lado, nós vamos ver aqui de forma empírica o que seria isso. Nós então vamos aqui apresentar essa idéia a partir de caso que, à princípio, não se encaixa naquelas condições que a gente estava desejando serem satisfeitas para a aplicação do teste de proporção. Ou seja, a gente está falando de uma amostra pequena. Perceba, também, que a gente está falando de caso que a variável é do tipo discreta. Então, a gente tem aqui números de sucesso dentro da nossa amostra. Então, não seria aquele nosso cenário ideal para aplicação do teste de proporção, mas a gente está justamente partindo desse caso mais difícil para mostrar a idéia. Por hora, estamos assumindo que o nosso conhecimento teórico seria de que essa população da qual essa amostra foi extraída atende essa proporção de 50% para caso de sucesso que a gente esteja pretendendo verificar. Aqui nós estamos utilizando a distribuição do tipo binomial para mostrar a idéia. Perceba que o desenho da distribuição se encaixa, mais ou menos, padrão que a distribuição normal também se assemelha. Ou seja, nós temos aqui o valor de 50% sendo o que tem a maior probabilidade de acontecer. E quando a gente tem desvio para mais ou para menos, esse desvio é simétrico, ou seja, as proporções, as probabilidades são mais ou menos as mesmas, ainda. Isso daqui, quanto mais a gente vai se distanciando, vai diminuindo a probabilidade, mas ela se mantém simétrica. Então perceba que se a gente usar aqui a proporção não mais simétrica, veja que o desenho passa a não ser mais parecido com uma distribuição do tipo normal. Então, a gente tem aqui o valor ainda maior de probabilidade quando ele atinge o valor que a gente tem esperado da população, mas os desvios não são mais simétricos. Perceba que há uma diferença grande. No entanto, conforme a gente vai aumentando o valor da nossa amostra, perceba que as diferenças começam a ser menores. Então, aqui com 11, depois com 12. Então, ou seja, os desvios estão começando a se tornar mais simétricos. E assim por diante. 13, que eu já vou aumentar pouco mais, 15, depois 20. 25. 30 elementos. Perceba que com 30 elementos, o desenho da distribuição começa a ser muito parecido, de novo, com uma distribuição do tipo normal. Eu logicamente não estou indo pelo caminho analítico para essa demonstração, mas eu estou apenas demonstrando para vocês que o tamanho da amostra deve ser maior do que 30. Estando satisfeitas essas três condições, nós vamos poder utilizar a estrutura da distribuição do tipo normal para propormos a nossa estatística teste. Vai ser feita dessa seguinte forma. Será a partir da comparação dos valores observados esperados dentro da escala 'z', ou seja, dentro da estrutura da distribuição do tipo normal. Onde nós vamos comparar o que a gente encontrou na amostra, que era aquele nosso valor 'p', com o que a gente tinha de conhecimento, ou status quo, da população, dado aqui por esse valor esperado 'Pi', de 'P0'; dividido pelo desvio da população. No caso, aqui, a gente está assumindo que o desvio é conhecido e ele vai ser dado por essa fórmula aqui. Tendo, então, sido assumidas aquelas condições, podemos utilizar uma estrutura tão simples como essa que vai servir para fazermos a comparação a partir de valor crítico. Se nós temos condições de rejeitar, ou não, a nossa hipótese nula. De novo, nós vamos falar sobre isso com mais detalhes na aula específica. O Sigma, também nós vamos falar de novo, mas é o grau de significância; o tanto que a gente quer evitar o erro do tipo. E nós vamos, ao invés de utilizar a tabela da normal que geralmente a gente encontra livros, nós vamos usar a função do excel: 'INV.NORMP'; para o valor específico de alpha, ela retorna o valor na tabela 'z'. E esse é o valor crítico associado ao nível de significância. A estatística teste é então comparada com o valor crítico. Se ela estiver ao lado direito do valor positivo, rejeita-se. Se ela estiver à esquerda do valor negativo do valor crítico, também rejeita-se a hipótese nula. Vamos pegar exemplo para fecharmos esse primeiro módulo. Fabricante afirma que uma remessa de pregos contém menos de 1% de peças defeituosas (parâmetro da população). Uma amostra aleatória de 200 pregos acusa 4 peças defeituosas (Estatística da amostra). Teste a afirmação ao nível de 5%. Então, na aula de construção de hipóteses nulas e hipóteses alternativas, nós vamos ver que a fórmula mais correta seria essa. O valor aqui da... A gente está testando o parâmetro de proporção. Aqui é o status quo.; ele é repetido aqui. E o valor 'p' indica que, na verdade, a população parece ser maior, porque a gente encontrou aqui 2%. Aqui é o valor 'x' dividido por 'n', 2%; sendo que esperávamos encontrar. Então, a gente vai ver isso aqui na aula de construção de hipótese alternativa. Na nossa aula a gente viu uma estatística teste específica que é baseada na distribuição do tipo normal. Nós vamos ver para cada uma dos testes de hipóteses a construção da sua respectiva estatística teste. E qual a sua distribuição relativa. Aqui, no caso, vamos inserir 1,42, que ainda não tem significado nenhum. Aliás, nós vamos ver sobre o significado dessas estatísticas teste na aula específica da rejeição, ou não, da hipótese nula. Por hora, só lembrando que, o valor crítico, nós obtivemos pela função do excel: INV.NORMP(0,05%), é o nosso 'alpha', é o nosso nível de significância. Isso dá o valor de menos ou mais 1,64. Como a nossa estatística teste deu menos do que o valor crítico, nós não podemos rejeitar a hipótese nula. Então, esse foi o exemplo para a gente fechar esse primeiro módulo. No segundo módulo, a gente vai entrar com os testes não paramétricos e as suas estruturas respectivas.