sábado, 28 de maio de 2016

PROBABILIDADE E ESTATISTICA

UNIDADE I - CONCEITOS FUNDAMENTAIS DE ESTATÍSTICA
Na Unidade I - Conceitos Fundamentais de Estatística a proposta do estudo foi informá-lo a respeito dos conceitos estatístico básicos que são fundamentais para o bom andamento da disciplina. Retome atentamente os seguintes conteúdos:

1)      Definição de Estatística e Estatística descritiva

Estatística: É uma parte da Matemática Aplicada que fornece métodos para coleta, organização, descrição, análise e interpretação de dados para tomada de decisões. 

Estatística Descritiva e Indutiva

  Estatística Descritiva  –  é a parte da Estatística que tem por objeto descrever os dados observados.

  Estatística Indutiva – é a parte da Estatística que tem por objetivo obter e generalizar conclusões para a população a partir de uma amostra, através do cálculo de probabilidade. O cálculo de probabilidade é que viabiliza a inferência estatística.

2)      Termos essenciais da Estatística

O que é população e amostra

 População
É o conjunto de “todos” indivíduos ou objetos que apresentam pelo menos uma característica em
comum. A população pode ser finita ou infinita. Na prática, quando uma população é finita, com número  grande de elementos, considera-se como população infinita.

Amostra
Considerando-se a impossibilidade, na maioria das vezes, do tratamento de todos os elementos da população, retira-se uma amostra. A amostra deve apresentar as mesmas características que havia na população.
  
O que são dados brutos e rol

Dados Brutos
É uma seqüência de dados não organizados obtidos por meio de coleta de dados.



Rol
 É o nome que se dá aos dados brutos quando já estão ordenados, de alguma forma



 O que são variáveis qualitativas e quantitativas e como se classificam



Variáveis são objetos de estudo de interesse do pesquisador que são definidas por ele mesmo, de acordo com a pesquisa que irá realizar.

Variáveis Qualitativas:  Quando seus valores são expressos por  atributos  ou dão uma qualidade à população ou amostra em estudo, por exemplo, sexo, cor da pele, etc.

Variáveis Quantitativas: Quando os dados são de caráter nitidamente quantitativo,  e o conjunto dos resultados possui uma estrutura  numérica, se dividem em Discretas e Continuas 

Variáveis Quantitativas Discretas:  São dados provenientes de contagens ou enumerações  Por exemplo:  número de irmãos, idade das pessoas, número de eletrodomésticos que tem em casa, numero de filhos, etc

Variáveis Quantitativas Contínuas: São dados que assumem quaisquer valores dentro de dois limites. Por exemplo, renda familiar mensal, peso, altura, etc.

3)      Técnicas de amostragem
•Casual ou aleatória simples: Este tipo de amostragem é equivalente a um sorteio lotérico.

•Proporcional estratificada: Utilizada quando a população se divide em subpopulações chamadas de estratos. É provável que a variável em estudo apresente comportamentos distintos dentro de cada estrato, sendo assim, os elementos  da amostra devem levar em consideração tais estratos. A
amostragem estratificada obtém os elementos da amostra proporcional ao número de elementos de cada estrato.

•Sistemática:  Esta técnica deve ser utilizada quando a população já se encontra ordenada, por
exemplo: casas de uma rua, prontuários de funcionários, linhas de produção, estrada de rodagem, etc.

Arredondamento



4)      O que é distribuição de freqüência
Quando se estuda uma variável, o maior interesse do pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência de suas possíveis realizações. A distribuição ou tabela de freqüência é onde será apresentado o cálculo da pesquisa para o fechamento e tomada de decisão. Podem ser chamadas de discretas ou contínuas.



5)      Quais são as fases do método estatístico
O Método Estatístico é um processo para se obter, apresentar e analisar características ou valores numéricos para uma melhor tomada de decisão em situações de incerteza. Toda pesquisa, nas mais variadas áreas, utiliza-se de modo geral se cinco fases quando se emprega o Método Estatístico:



Fase 1 – Definição do Problema
 Para usar o Método Estatístico devo me perguntar: Qual o problema que quero resolver? Quais são meus objetivos? 
Resultados numéricos resolvem meu problema e dão conta de meus objetivos? Se sua resposta for afirmativa, o Método se aplica, caso contrário, use outra Metodologia.

Fase 2 – Planejamento
 Na fase do planejamento devo fazer as seguintes perguntas: Vou usar uma População ou  uma amostra? Se amostra, que técnicas de amostragem irei empregar? Quais serão as variáveis que quero estudar? Serão Qualitativas ou Quantitativas? Usar questionário ou planilha? Quem coletará os dados em campo? 

Fase 3 – Coleta de Dados 
 Nesta fase será elaborado o instrumento de pesquisa que irá usar para fazer a coleta dos dados e a será feita a aplicação do instrumento em campo. Devo fazer perguntas do tipo: Como será o  layout do instrumento de pesquisa? Se questionário: Como serão as perguntas, fechadas ou abertas? 
O instrumento de pesquisa deve estar de acordo com o problema, os objetivos e as variáveis que selecionadas. 


Fase 4 – Apuração e Apresentação dos Dados
Apurar os dados é resumi-los de  modo  que se transformem em informação significativa. O resultado da apuração é apresentado na forma de tabelas e gráficos. Cada uma das variáveis que estudou irá se transformar em uma distribuição de freqüência que posteriormente se transformará em um gráfico.

Fase 5 – Análise e Interpretação dos Dados 
 Nesta fase espera-se que os objetivos tenham sido atingidos, de modo, que seja possível uma tomada de decisão em relação ao problema e os objetivos que motivaram a pesquisa.

6)      O que é pesquisa de mercado e pesquisa de opinião
Na prática podemos empregar o método estatístico para fazer uma pesquisa de mercado ou uma pesquisa de opinião. A pesquisa de mercado é um estudo que tem como objetivo determinar as perspectivas de venda de um produto no mercado e indicar a maneira de se obter os melhores resultados. Também permite analisar os mercados que oferecem melhores perspectivas, os padrões de qualidade exigidos pelo mercado e o tempo necessário para se alcançar o nível ideal de vendas. A pesquisa de mercado é um investimento necessário que pode economizar dinheiro e fornecer elementos essenciais para a aproximação com o mercado consumidor.
A pesquisa de opinião tem como objetivo investigar e retratar as atitudes e opiniões dos indivíduos, possibilitando à sociedade conhecer com precisão as tendências e posições dos diferentes segmentos sociais. Ela faz parte do cotidiano da população e tem uma grande visibilidade na mídia.

UNIDADE II – TABELAS E GRÁFICOS

Na Unidade II, aprendemos a construir tabelas e gráficos estatísticos para a organização e tabulação dos dados coletados.
1)      Definição de tabela de freqüência - É um quadro que resume um conjunto de dados “tabulados” dispostos segundo linhas e colunas de maneira sistemática. 
As tabelas ou distribuições de frequência são usadas para sintetizar valores obtidos por meio de coleta de dados. Podemos construir distribuições de  frequência  para variáveis quantitativas ou qualitativas.
Uma distribuição de  frequência é chamada de distribuição de frequência variável discreta  quando estamos trabalhando com  variáveis qualitativas ou quantitativas discretas. 
Uma distribuição de  frequência é chamada de distribuição de frequência variável  contínua  quando estamos trabalhando com  quantitativas contínuas  ou discretas  e agrupamos os dados por faixas de valores.

Distribuição de freqüência variável discreta - Uma tabela ou distribuição de  frequência  variável discreta deve conter 4 colunas distribuídas da seguinte forma:
  


Vejamos um exemplo de como construir uma distribuição de  frequência  variável discreta. A  sequência abaixo representa as notas de 30 alunos em uma prova de Estatística.
Obtenha a distribuição de frequência variável discreta.



Solução:
1) Primeiro vamos transformar os dados brutos em rol e vamos pintar cada uma das notas
com cores diferentes para facilitar a contagem das frequências absolutas.



2)      Vamos montar agora a tabela de frequência variável discreta 




Resposta: Após o resumo das notas na tabela de  frequência  variável discreta conseguirmos verificar que a nota de Estatística mais freqüente foi a nota 4 com 43,33% seguida da nota 3 que aparece com uma porcentagem de 26,67%. Como a nota máxima era 5 podemos dizer que o desempenho da sala nesta disciplina foi muito bom.

Distribuição de freqüência variável continua
Uma tabela ou distribuição de  frequência  variável contínua é utilizada quando, na sequência numérica em estudo há um grande número de elementos distintos. Neste caso uma distribuição de  frequência variável discreta não seria aconselhável, pois não faria a redução conveniente dos dados. Nesta situação é conveniente agrupar os dados  por faixas de valores, o que chamamos de distribuição de frequência variável contínua. 
Uma tabela ou distribuição de  frequência  variável contínua deve conter 4 colunas distribuídas da seguinte forma:




Para construção dessa distribuição devemos ter conhecimento de alguns conceitos Vamos usar para isso um exemplo para podermos indicar adequadamente cada  um dos conceitos que iremos definir.



Definição de gráfico

GRÁFICOS  

São representações visuais dos dados estatísticos, eles servem na interpretação de dados para tomadas de decisão.

Diferenças entre gráficos de informação e gráfico de análise

Gráficos de informação
 São gráficos destinados principalmente ao público em geral, objetivando proporcionar uma visualização rápida e clara. São gráficos tipicamente expositivos, dispensando comentários explicativos adicionais. As legendas podem ser omitidas, desde que as informações desejadas estejam presentes.



Gráficos de análise
 São gráficos que se prestam melhor ao trabalho estatístico, fornecendo elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Os gráficos de análise frequentemente vêm acompanhados de uma tabela estatística. Inclui-se, muitas vezes um texto explicativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico. Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaboração de um gráfico.



3) Classificação dos gráficos Gráficos em barras horizontais Gráficos em barras verticais (colunas) Gráficos em linhas ou lineares Gráficos em setores Estereogramas Pictogramas Histograma

CLASSIFICAÇÃO DOS GRÁFICOS
 Os gráficos usados na representação de dados estatísticos podem ser classificados de diversas formas, veremos a seguir.

Gráficos em barras horizontais  
É semelhante ao gráfico em colunas, porém os retângulos são dispostos horizontalmente.



Gráficos em barras verticais (colunas)  
Quando as legendas não são breves usam-se de preferência os gráficos em barras horizontais. Nesses gráficos os retângulos têm a mesma base e as alturas são proporcionais aos respectivos dados.



Gráficos em linhas ou lineares  
São  frequentemente  usados para representação de dados  ou séries cronológicas que tem um grande número de períodos de tempo. As linhas são mais eficientes do que as colunas, quando existem intensas flutuações nas séries ou quando há necessidade de se representarem várias séries em um mesmo gráfico. Quando representamos, em um mesmo sistema de coordenadas, a variação de dois fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é denominada de área de excesso.



Gráficos em setores  
Este gráfico é construído com base em um círculo, e é empregado sempre que desejamos ressaltar a participação do dado no total. O total é representado pelo círculo, que fica dividido em tantos setores quantas são as partes. Os setores são tais que suas áreas são respectivamente proporcionais as  requências relativas da série em estudo. O gráfico em setores só deve ser empregado quando há, no máximo, 7 (sete) dados. 



Estereogramas  
São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados nas representações gráficas das tabelas de dupla entrada.



Pictogramas  
São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos devem ser autoexplicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja o exemplo abaixo:



Cartogramas: São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.



Histograma
É formado por um conjunto de retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os pontos médios dos intervalos de classe. A área de um histograma é proporcional à soma das  frequências simples ou absolutas. É utilizado para distribuições de frequência variável contínua.



4) Construção de gráficos Gráficos de barras Gráficos de setores Histograma

Vamos aprender a construir gráficos de barras, de setores e histograma, por serem os mais utilizados em estatística. Cada distribuição de frequência gera um gráfico.

Gráficos de barras
É utilizado para representar distribuições de  frequência  variável discreta. Ele é representado por um conjunto de hastes (retângulos) verticais separados entre si, em um sistema de coordenadas cartesianas que tem por base os valores ou realizações da variável em estudo e por altura as porcentagens correspondentes.
Vejamos um exemplo: Dada a distribuição de  frequência  variável discreta que representa as notas de uma turma em Estatística construa o gráfico de barras



Solução: Para construir o gráfico usamos a coluna da variável (notas) e a coluna das porcentagens. Vamos construir o eixo xy (plano cartesiano). Sobre o eixo x iremos representar cada uma das notas e sobre o eixo y cada uma das porcentagens referente a cada nota. O Excell resolva fácil esse problema, se tiver dificuldades consulte um instrutor no espaço Webclass ou nos laboratórios de informática.



Resposta: Concluímos ao observar o gráfico que a nota mais frequente nessa turma foi a nota 4, seguido da nota 3. Podemos dizer que a turma está de parabéns, pois a maioria dos alunos (70%) tiveram notas boas, uma vez que a prova valia 5.

Gráfico de Setores
É utilizado para representar distribuições de  frequência variável discreta. O gráfico de setores é construído sobre uma circunferência. Cada setor ou parte que essa circunferência fica dividida é proporcional as frequências relativas da variável em estudo.

Cálculo do setor circular: setor = fri x 360º

 Vejamos um exemplo: Dada a distribuição de  frequência  variável discreta que representa o gênero dos funcionários de uma empresa  construa o gráfico de setores.




Sabemos que o setor referente e masculino será maior que o setor referente a feminino, vamos construir o gráfico, usando o Excell. 

Resposta: Observando o gráfico podemos concluir que nessa empresa há mais homens do que mulheres.

Histograma
 É utilizado para representar distribuição de  frequência variável continua. O histograma é um conjunto de retângulos verticais e justapostos (colados), representado em um sistema de coordenadas cartesianas. As bases são os intervalos de classe da variável em estudo e as alturas as porcentagens correspondentes.
Vejamos um exemplo: A distribuição abaixo representa o peso de 40 mulheres. Construa o respectivo histograma e tire suas conclusões.




Conclusão: Concluímos ao observar gráfico que 45% das mulheres investigadas tem pesos entre 55 |- 59 quilos, 30% das mulheres tem pesos entre 51 |- 55 e 25% das mulheres tem pesos entre 59 |- 63 Kg.

UNIDADE III – MEDIDAS DE POSIÇÃO 

A Unidade III, conceituamos as medidas de posição, e aprendemos a calculá-las e interpretá-las

1.       Medidas de posição

• Medidas de tendência central

MEDIDAS DE TENDÊNCIA CENTRAL

  Como já vimos anteriormente as Medidas de Tendência Central recebem este nome por posicionar-se no centro da variável em estudo. As principais são: a média aritmética, a moda e a mediana.

Média Aritmética  (x)

  A média aritmética é representada pelo símbolo x

.  É uma medida bastante utilizada seja na vida prática das pessoas como na mídia em geral, porém é muito influenciada por valores extremos, ou seja valores muito altos ou muito baixos.  Podemos querer calcular a média de dados estatísticos não-agrupados, agrupados em distribuições de frequência variável discreta ou distribuições de frequência variável contínua. Cada uma dessas situações deve ser tratada de forma diferenciada, vejamos:

Dados Não-Agrupados
  Para calcular a média aritmética, de  dados não-agrupados, usamos a seguinte
fórmula.



Dados Agrupados
Para calcularmos média aritmética de dados agrupados usaremos a seguinte a formula da média aritmética ponderada.



a) Cálculo da Média Aritmética para a Variável Discreta  - dados agrupados  sem faixas de valores  
Exemplo 1:  Foram observadas 34 famílias e anotado o  “número de filhos do sexo masculino” que cada uma delas têm em uma distribuição de frequência variável discreta. Determine a média aritmética.



As frequências (fi) são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores de ponderação.



b) Cálculo da Média Aritmética para Variável Continua  -  dados agrupados  com faixas de valores:
Exemplo 1:  Calcular a estatura média de bebês em uma certa comunidade conforme a tabela:






Moda (mo)
  É o valor que ocorre com maior frequência em uma sequência ou série de valores. Por exemplo, o salário mais comum em uma fábrica é chamado de salário modal, isto é, o salário recebido pelo maior número de empregado

Uma sequência pode ser classificada de acordo com o número de modas que possui em:

Nenhuma moda - amodal
Uma moda - unimodal ou modal
Duas Modas - bimodal
Mais de duas modas -  polimonal



li(mo) = limite inferior da classe modal. 
fi(mo)= freqüência da classe modal.
fi(ant) = freqüência da classe anterior à classe modal. 
fi(post)= freqüência da classe posterior à classe modal.
h= amplitude do intervalo de classe.  

Mediana (md)

  Para a mediana usaremos o símbolo  “md”. Define-se mediana como sendo o valor real que separa o rol (dados já organizados) em duas partes deixando à sua direita o mesmo número de elementos que à sua esquerda. Por exemplo: Dada a série de valores X:  5, 2, 6, 13, 9, 15, 10, determine a mediana. 

  De acordo com a definição de mediana, o primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos valores. Ordenando temos:



O valor que divide a série acima em duas partes iguais é o número 9, logo, a mediana dessa sequência é 9. Podemos dizer que 50% dos valores da sequência X são menores que 9 e 50% dos valores maiores do que 9.

Método prático para o cálculo da Mediana:

  Para calcular a mediana devemos considerar duas situações: se o número de elementos da sequência é par ou ímpar
  Se a série dada tiver número  ímpar  de  termos, o valor mediano será o  termo de ordem dado feita fórmula:



Por exemplo: Calcule a mediana da série Z: 0, 0, 1, 1, 2, 2, 3, 4, 5. Observe que neste caso a sequência já está ordenada e temos nove elementos, portanto n = 9. Fazendo o cálculo da posição do elemento:



Identificamos com este cálculo a posição, ou seja, o endereço da mediana. A mediana é o 5ª elemento da sequência.



Resposta: A mediana será o termo que ocupa a 5ª posição, ou seja, a mediana é 2. Dizemos que 50% dos valores da sequência Z são menores do que 2 e 50% maiores ou iguais a 2.



Vejamos um exemplo: Determine a mediana da sequência X: 7, 21, 13, 15, 10, 8, 9, 13 Solução: Ordenar X: 7, 8, 9, 10, 13, 13, 15, 21, temos n = 8


A mediana é um número, porém neste caso temos dois candidatos. Sempre que aparecer esta situação, para calcular a mediana usaremos a media aritmética entre eles. 

Lembram-se dessa fórmula:  





Resposta: A mediana da sequência X é 11,5. Podemos dizer que 50% dos valores dessa sequência são menores do que 11,5 e 50% maiores do que 11,5. 

Obs: Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série. 

Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana com um dos elementos da série. A mediana será sempre a média aritmética dos dois elementos centrais da série. 

A mediana depende da posição do elemento na série ordenada. A media aritmética 
depende dos valores dos elementos. Essa é uma da diferença marcante entre mediana e 
média. A média  se deixa influenciar, e muito, pelos valores extremos. 

a) Calculo da Mediana na Variável Discreta (sem intervalos de classe) 
  Neste caso os dados já estão ordenados e agrupados em uma tabela de frequência. Vejamos um exemplo: Determinar a mediana da série, que representa as notas de alunos na disciplina de Língua Portuguesa. 



Vamos resolver este problema. Nesta situação para facilitar nossos cálculos, abriremos ao lado da coluna das frequências (fi) uma outra coluna que chamaremos de f(ac), ou seja, frequência acumulada. Nesta coluna iremos acumular em cada linha as frequências absolutas (fi) da seguinte forma: 



Resposta: A nota mediana de Língua Portuguesa é 8. Podemos dizer que 50% das notas são 
menores ou iguais a 8 e 50% maiores ou iguais a 8. 

Exemplo 2: Determinar a mediana da série abaixo que representa as notas de 32 alunos na 
disciplina de Geografia. 



Pronto, descobrimos que a nota mediana de Geografia é de 2,5, ou seja, 50% dos alunos tiraram notas menores ou iguais a 2,5 e 50% tiraram notas maiores ou iguais a 2,5. 

b) Calculo da Mediana da Variável Contínua (com intervalos de classe) 
Neste caso, é preciso seguir as etapas: 

1ª Etapa: Calculamos a posição da mediana, considerando se o numero de elementos da serie 
é par ou ímpar. 

2ª Etapa: Para identificarmos o intervalo de classe onde se encontra a  mediana 
determinamos as frequências acumuladas “f(ac)”. 

3ª Etapa: Calculamos a mediana “md” estimada pela seguinte fórmula:. 



Agora vamos aprender com mais um exemplo. Dada a tabela abaixo, que representa as estaturas de 40 pessoas, calcule o valor da mediana: 



Vamos seguir as etapas descritas anteriormente. 
1ª Etapa: Calculamos a posição da mediana, considerando se o número de elementos da serie é par ou ímpar. 

Esta série tem 40 elementos, portanto é par. 



Descobrimos que a mediana está na posição 20ª e 21ª, agora temos que identificá-las na tabela de frequência. 

2ª Etapa: Identificamos o intervalo de classe onde se encontra a mediana e determinamos as frequências acumuladas “f(ac)”. 


Resposta:  A mediana estimada das estaturas é igual a 60,55 cm. Significa que 50% das pessoas observadas tem estaturas inferiores a 60,55 cm e 50% estaturas superiores a 60,55 cm. 


Principais medidas separatrizes 
• Quartil 
• Quintil 
• Decil 
• Percentil

São números que dividem a sequência ordenada de dados em partes que contêm a mesma quantidade de elementos da série.
           
Desta forma, a mediana que divide a sequência ordenada em dois grupos, cada um deles contendo 50% dos valores da sequência, é também uma medida separatriz.

Além da mediana, as outras medidas separatrizes são: quartis, quintis, decis e percentis.

Quartis

Ao dividir a série ordenada em quatro partes, cada uma ficará com seus 25% de seus elementos.

Os elementos que separam estes grupos são chamados de quartis.

Assim, o primeiro quartil, que indicado por Q1, separa a sequência ordenada deixando 25% de seus valores à esquerda e 75% de seus valores à direita.

O segundo quartil, indicado por Q2, separa a sequência ordenada deixando 50% de seus valores à esquerda e 50% de seus valores à direita. O Q2 é a Mediana da série.

O terceiro quartil Q3 obedece a mesma regra dos anteriores.

Quintis

Ao dividir a série ordenada em cinco partes, cada uma ficará com seus 20% de seus elementos.

Os elementos que separam estes grupos são chamados de quintis.

Assim, o primeiro quintil, indicado por K1, separa a sequência ordenada deixando 20% de seus valores à esquerda e 80% de seus valores à direita.

De modo análogo são definidos os outros quintis.

Decis

Ao dividir a série ordenada em dez partes, cada uma ficará com seus 10% de seus elementos.

Os elementos que separam estes grupos são chamados de decis.

Assim, o primeiro decil, indicado por D1, separa a sequência ordenada deixando 10% de seus valores à esquerda e 90% de seus valores à direita.

De modo análogo são definidos os outros decis.

Percentis

Ao dividir a série ordenada em cem partes, cada uma ficará com 1% de seus elementos.

Os elementos que separam estes grupos são chamados de centis ou percentis.

Assim, o primeiro percentil, indicado por P1, separa a sequência ordenada deixando 1% de seus valores à esquerda e 99% de seus valores à direita.

De modo análogo são definidos os outros percentis.

Verifica-se que os quartis, quintis e decis são múltiplos dos percentis, então basta estabelecer a fórmula de cálculo de percentis. Todas as outras medidas podem ser identificadas como percentis.

UNIDADE IV MEDIDAS DE DISPERSÃO OU VARIAÇÃO

Na Unidade IV, conceituamos as medidas de dispersão e aprendemos como calcular e interpretar o desvio-padrão

1. Medidas de dispersão Variância Desvio-padrão

As medidas de variação ou dispersão, avaliam a dispersão ou a variabilidade da sequência numérica em análise, são medidas que fornecem informações complementares à informação da média aritmética. As principais medidas de dispersão são: a variância e o desvio-padrão.  

Usaremos as letras s2 para denotar a variância de uma amostra e s para denotar o seu desvio-padrão.

Desvio Padrão

Em Probabilidade e Estatística, o desvio padrão é a medida mais comum da dispersão estatística (representado pelo símbolo sigma, σ). Ele mostra o quanto de variação ou "dispersão" existe em relação à média (ou valor esperado). Um baixo desvio padrão indica que os dados tendem a estar próximos da média; um desvio padrão alto indica que os dados estão espalhados por uma gama de valores.
O desvio padrão define-se como a raiz quadrada da variância. É definido desta forma de maneira a dar-nos uma medida da dispersão que:
1.   Seja um número não-negativo;
2.   Use a mesma unidade de medida dos dados fornecidos inicialmente.
Faz-se uma distinção entre o desvio padrão σ (sigma) do total de uma população ou de uma variável aleatória, e o desvio padrão de um subconjunto em amostra.

Variância

Na teoria da probabilidade e na estatística, a variância de uma variável aleatória ou processo estocástico é uma medida da sua dispersão estatística, indicando "o quão longe" em geral os seus valores se encontram do valor esperado.

 2. Cálculo da variância e do desvio-padrão Dados brutos Variável discreta Variável contínua
Cálculo da Variância e Desvio Padrão

Para calcular a variância e o desvio-padrão vamos analisar três casos:

i)  Quando os dados ainda não foram agrupados em tabelas de frequência, ou seja, estão na forma de dados brutos ou rol;

ii)  Quando os dados estão agrupados em distribuições de frequência variável discreta

iii)  Quando os dados estão agrupados em distribuições de frequência variável contínua. 
Dados brutos ou rol

Para podermos calcular a variância e o desvio padrão de dados brutos vamos usar as fórmulas que seguem:



Distribuição de frequência variável discreta   
Para calcular a variância e o desvio-padrão de uma distribuição de frequência variável discreta vamos usar as fórmulas a seguir:

Cálculo da variância e do desvio-padrão da distribuição de frequência variável continua 

Para calcular a variância e o desvio-padrão de variáveis continuas devemos proceder como para as variáveis discretas, tomando somente o cuidado de substituir o  xi pelos pontos médios de cada classe, uma vez que a variável está agrupada com intervalos de classe. 


Uma característica importante da distribuição normal é que, quanto maior a amostragem, mais uniformemente as ocorrências se distribuem à medida que se afastam da média central.

A medida desta uniformidade é o "desvio padrão", um valor que quantifica a dispersão dos eventos sob distribuição normal, ou seja, a média das diferenças entre o valor de cada evento e a média central, conforme a definição:

Em uma distribuição normal perfeita, 68,26% das ocorrências se concentrarão na área do gráfico demarcada por um desvio padrão à direita e um desvio padrão à esquerda da linha média, conforme a figura 3:

Quando demarcamos dois desvios padrão, para a direita e a esquerda da média, abrangemos 95,44% das ocorrências e 99,72% quando demarcamos três.
Fazendo previsões
Esta particularidade torna as distribuições normais previsíveis, ou seja, se pudermos levantar seu desvio padrão poderemos fazer previsões sobre os eventos representados dentro das probabilidades definidas.
Quanto maior o desvio padrão, maior a dispersão e mais afastados da média estarão os eventos extremos.