UNIDADE I - CONCEITOS FUNDAMENTAIS
DE ESTATÍSTICA
Na Unidade I - Conceitos
Fundamentais de Estatística a proposta do estudo foi informá-lo a respeito dos
conceitos estatístico básicos que são fundamentais para o bom andamento da
disciplina. Retome atentamente os seguintes conteúdos:
1)
Definição de Estatística e Estatística
descritiva
Estatística: É uma parte da Matemática Aplicada que
fornece métodos para coleta, organização, descrição, análise e interpretação de
dados para tomada de decisões.
Estatística Descritiva e Indutiva
Estatística
Descritiva – é a parte da Estatística que tem por objeto
descrever os dados observados.
Estatística
Indutiva – é a parte da Estatística que tem por objetivo obter e generalizar conclusões
para a população a partir de uma amostra, através do cálculo de probabilidade.
O cálculo de probabilidade é que viabiliza a inferência estatística.
2)
Termos essenciais da Estatística
O que é população e amostra
População
É o conjunto de “todos” indivíduos ou objetos que apresentam
pelo menos uma característica em
comum. A população pode ser finita ou infinita. Na prática,
quando uma população é finita, com número grande de elementos, considera-se como
população infinita.
Amostra
Considerando-se a impossibilidade, na maioria das vezes,
do tratamento de todos os elementos da população, retira-se uma amostra. A
amostra deve apresentar as mesmas características que havia na população.
O que são dados brutos e rol
Dados Brutos
É uma seqüência de dados não organizados obtidos por
meio de coleta de dados.
Rol
É o nome que se
dá aos dados brutos quando já estão ordenados, de alguma forma
O que são
variáveis qualitativas e quantitativas e como se classificam
Variáveis são objetos de estudo de interesse do
pesquisador que são definidas por ele mesmo, de acordo com a pesquisa que irá
realizar.
Variáveis Qualitativas:
Quando seus valores são expressos por
atributos ou dão uma qualidade à
população ou amostra em estudo, por exemplo, sexo, cor da pele, etc.
Variáveis Quantitativas: Quando os dados são de caráter
nitidamente quantitativo, e o conjunto
dos resultados possui uma estrutura
numérica, se dividem em Discretas e Continuas
Variáveis Quantitativas Discretas: São dados provenientes de contagens ou enumerações Por exemplo:
número de irmãos, idade das pessoas, número de eletrodomésticos que tem
em casa, numero de filhos, etc
Variáveis Quantitativas Contínuas: São dados que assumem
quaisquer valores dentro de dois limites. Por exemplo, renda familiar mensal,
peso, altura, etc.
3)
Técnicas de amostragem
•Casual ou aleatória simples: Este tipo de amostragem é
equivalente a um sorteio lotérico.
•Proporcional estratificada: Utilizada quando a
população se divide em subpopulações chamadas de estratos. É provável que a variável
em estudo apresente comportamentos distintos dentro de cada estrato, sendo
assim, os elementos da amostra devem
levar em consideração tais estratos. A
amostragem estratificada obtém os elementos da amostra
proporcional ao número de elementos de cada estrato.
•Sistemática: Esta
técnica deve ser utilizada quando a população já se encontra ordenada, por
exemplo: casas de uma rua, prontuários de funcionários,
linhas de produção, estrada de rodagem, etc.
Arredondamento
4)
O que é distribuição de freqüência
Quando se estuda uma variável, o maior interesse do
pesquisador é conhecer o comportamento dessa variável, analisando a ocorrência
de suas possíveis realizações. A distribuição ou tabela de freqüência é onde
será apresentado o cálculo da pesquisa para o fechamento e tomada de decisão.
Podem ser chamadas de discretas ou contínuas.
5)
Quais são as fases do método estatístico
O Método Estatístico é um processo para se obter, apresentar
e analisar características ou valores numéricos para uma melhor tomada de
decisão em situações de incerteza. Toda pesquisa, nas mais variadas áreas,
utiliza-se de modo geral se cinco fases quando se emprega o Método Estatístico:
Fase 1 – Definição do Problema
Para usar o
Método Estatístico devo me perguntar: Qual o problema que quero resolver? Quais
são meus objetivos?
Resultados numéricos resolvem meu problema e dão conta
de meus objetivos? Se sua resposta for afirmativa, o Método se aplica, caso
contrário, use outra Metodologia.
Fase 2 – Planejamento
Na fase do
planejamento devo fazer as seguintes perguntas: Vou usar uma População ou uma amostra? Se amostra, que técnicas de
amostragem irei empregar? Quais serão as variáveis que quero estudar? Serão
Qualitativas ou Quantitativas? Usar questionário ou planilha? Quem coletará os
dados em campo?
Fase 3 – Coleta de Dados
Nesta fase será
elaborado o instrumento de pesquisa que irá usar para fazer a coleta dos dados
e a será feita a aplicação do instrumento em campo. Devo fazer perguntas do
tipo: Como será o layout do instrumento
de pesquisa? Se questionário: Como serão as perguntas, fechadas ou
abertas?
O instrumento de pesquisa deve estar de acordo com o
problema, os objetivos e as variáveis que selecionadas.
Fase 4 – Apuração e Apresentação dos Dados
Apurar os dados é resumi-los de modo
que se transformem em informação significativa. O resultado da apuração
é apresentado na forma de tabelas e gráficos. Cada uma das variáveis que
estudou irá se transformar em uma distribuição de freqüência que posteriormente
se transformará em um gráfico.
Fase 5 – Análise e Interpretação dos Dados
Nesta fase
espera-se que os objetivos tenham sido atingidos, de modo, que seja possível
uma tomada de decisão em relação ao problema e os objetivos que motivaram a pesquisa.
6)
O que é pesquisa de mercado e pesquisa de
opinião
Na prática podemos empregar o método estatístico para
fazer uma pesquisa de mercado ou uma pesquisa de opinião. A pesquisa de mercado
é um estudo que tem como objetivo determinar as perspectivas de venda de um
produto no mercado e indicar a maneira de se obter os melhores resultados. Também
permite analisar os mercados que oferecem melhores perspectivas, os padrões de
qualidade exigidos pelo mercado e o tempo necessário para se alcançar o nível
ideal de vendas. A pesquisa de mercado é um investimento necessário que pode
economizar dinheiro e fornecer elementos essenciais para a aproximação com o mercado
consumidor.
A pesquisa de opinião tem como objetivo investigar e
retratar as atitudes e opiniões dos indivíduos, possibilitando à sociedade
conhecer com precisão as tendências e posições dos diferentes segmentos
sociais. Ela faz parte do cotidiano da população e tem uma grande visibilidade
na mídia.
UNIDADE II – TABELAS E GRÁFICOS
Na Unidade II, aprendemos a
construir tabelas e gráficos estatísticos para a organização e tabulação dos
dados coletados.
1) Definição
de tabela de freqüência - É um quadro que resume um conjunto de dados
“tabulados” dispostos segundo linhas e colunas de maneira sistemática.
As tabelas ou
distribuições de frequência são usadas para sintetizar valores obtidos por meio
de coleta de dados. Podemos construir distribuições de frequência
para variáveis quantitativas ou qualitativas.
Uma distribuição
de frequência é chamada de distribuição
de frequência variável discreta quando
estamos trabalhando com variáveis
qualitativas ou quantitativas discretas.
Uma
distribuição de frequência é chamada de
distribuição de frequência variável contínua quando estamos trabalhando com quantitativas contínuas ou discretas
e agrupamos os dados por faixas de valores.
Distribuição de
freqüência variável discreta - Uma tabela ou distribuição de frequência
variável discreta deve conter 4 colunas distribuídas da seguinte forma:
Vejamos um exemplo
de como construir uma distribuição de
frequência variável discreta.
A sequência abaixo representa as notas
de 30 alunos em uma prova de Estatística.
Obtenha a
distribuição de frequência variável discreta.
Solução:
1) Primeiro vamos
transformar os dados brutos em rol e vamos pintar cada uma das notas
com cores
diferentes para facilitar a contagem das frequências absolutas.
2) Vamos
montar agora a tabela de frequência variável discreta
Resposta: Após o resumo das notas
na tabela de frequência variável discreta conseguirmos verificar que
a nota de Estatística mais freqüente foi a nota 4 com 43,33% seguida da nota 3
que aparece com uma porcentagem de 26,67%. Como a nota máxima era 5 podemos
dizer que o desempenho da sala nesta disciplina foi muito bom.
Distribuição de
freqüência variável continua
Uma tabela ou
distribuição de frequência variável contínua é utilizada quando, na sequência
numérica em estudo há um grande número de elementos distintos. Neste caso uma distribuição
de frequência variável discreta não
seria aconselhável, pois não faria a redução conveniente dos dados. Nesta
situação é conveniente agrupar os dados
por faixas de valores, o que chamamos de distribuição de frequência
variável contínua.
Uma tabela ou
distribuição de frequência variável contínua deve conter 4 colunas distribuídas
da seguinte forma:
Para construção
dessa distribuição devemos ter conhecimento de alguns conceitos Vamos usar para
isso um exemplo para podermos indicar adequadamente cada um dos conceitos que
iremos definir.
Definição de gráfico
GRÁFICOS
São representações visuais dos
dados estatísticos, eles servem na interpretação de dados para tomadas de
decisão.
Diferenças entre gráficos de
informação e gráfico de análise
Gráficos de informação
São gráficos destinados principalmente ao
público em geral, objetivando proporcionar uma visualização rápida e clara. São
gráficos tipicamente expositivos, dispensando comentários explicativos adicionais.
As legendas podem ser omitidas, desde que as informações desejadas estejam
presentes.
Gráficos de análise
São gráficos que se prestam melhor ao trabalho
estatístico, fornecendo elementos úteis à fase de análise dos dados, sem deixar
de ser também informativos. Os gráficos de análise frequentemente vêm
acompanhados de uma tabela estatística. Inclui-se, muitas vezes um texto
explicativo, chamando a atenção do leitor para os pontos principais revelados
pelo gráfico. Contudo, os elementos simplicidade, clareza e veracidade devem
ser considerados quando da elaboração de um gráfico.
3) Classificação dos gráficos
Gráficos em barras horizontais Gráficos em barras verticais (colunas) Gráficos
em linhas ou lineares Gráficos em setores Estereogramas Pictogramas Histograma
CLASSIFICAÇÃO DOS GRÁFICOS
Os gráficos usados na representação de dados
estatísticos podem ser classificados de diversas formas, veremos a seguir.
Gráficos em barras horizontais
É semelhante ao gráfico em colunas,
porém os retângulos são dispostos horizontalmente.
Gráficos em barras verticais
(colunas)
Quando as legendas não são breves
usam-se de preferência os gráficos em barras horizontais. Nesses gráficos os
retângulos têm a mesma base e as alturas são proporcionais aos respectivos
dados.
Gráficos em linhas ou lineares
São
frequentemente usados para
representação de dados ou séries cronológicas
que tem um grande número de períodos de tempo. As linhas são mais eficientes do
que as colunas, quando existem intensas flutuações nas séries ou quando há
necessidade de se representarem várias séries em um mesmo gráfico. Quando
representamos, em um mesmo sistema de coordenadas, a variação de dois
fenômenos, a parte interna da figura formada pelos gráficos desses fenômenos é
denominada de área de excesso.
Gráficos em setores
Este gráfico é construído com base
em um círculo, e é empregado sempre que desejamos ressaltar a participação do
dado no total. O total é representado pelo círculo, que fica dividido em tantos
setores quantas são as partes. Os setores são tais que suas áreas são respectivamente
proporcionais as requências relativas da
série em estudo. O gráfico em setores só deve ser empregado quando há, no
máximo, 7 (sete) dados.
Estereogramas
São gráficos geométricos dispostos
em três dimensões, pois representam volume. São usados nas representações
gráficas das tabelas de dupla entrada.
Pictogramas
São construídos a partir de figuras
representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem
de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva.
Os símbolos devem ser autoexplicativos. A desvantagem dos pictogramas é que
apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos. Veja
o exemplo abaixo:
Cartogramas: São ilustrações
relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar
os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.
Histograma
É formado por um conjunto de
retângulos justapostos, cujas bases se localizam sobre o eixo horizontal, de tal
modo que seus pontos médios coincidam com os pontos médios dos intervalos de
classe. A área de um histograma é proporcional à soma das frequências simples ou absolutas. É utilizado
para distribuições de frequência variável contínua.
4) Construção de gráficos Gráficos
de barras Gráficos de setores Histograma
Vamos aprender a construir gráficos
de barras, de setores e histograma, por serem os mais utilizados em
estatística. Cada distribuição de frequência gera um gráfico.
Gráficos de barras
É utilizado para representar
distribuições de frequência variável discreta. Ele é representado por um
conjunto de hastes (retângulos) verticais separados entre si, em um sistema de
coordenadas cartesianas que tem por base os valores ou realizações da variável
em estudo e por altura as porcentagens correspondentes.
Vejamos um exemplo: Dada a
distribuição de frequência variável discreta que representa as notas de
uma turma em Estatística construa o gráfico de barras
Solução: Para construir o gráfico
usamos a coluna da variável (notas) e a coluna das porcentagens. Vamos
construir o eixo xy (plano cartesiano). Sobre o eixo x iremos representar cada
uma das notas e sobre o eixo y cada uma das porcentagens referente a cada nota.
O Excell resolva fácil esse problema, se tiver dificuldades consulte um
instrutor no espaço Webclass ou nos laboratórios de informática.
Resposta: Concluímos ao observar o
gráfico que a nota mais frequente nessa turma foi a nota 4, seguido da nota 3.
Podemos dizer que a turma está de parabéns, pois a maioria dos alunos (70%)
tiveram notas boas, uma vez que a prova valia 5.
Gráfico de Setores
É utilizado para representar
distribuições de frequência variável
discreta. O gráfico de setores é construído sobre uma circunferência. Cada
setor ou parte que essa circunferência fica dividida é proporcional as frequências
relativas da variável em estudo.
Cálculo do setor circular: setor =
fri x 360º
Vejamos um exemplo: Dada a distribuição
de frequência variável discreta que representa o gênero dos
funcionários de uma empresa construa o
gráfico de setores.
Sabemos que o setor referente e
masculino será maior que o setor referente a feminino, vamos construir o
gráfico, usando o Excell.
Resposta: Observando o gráfico
podemos concluir que nessa empresa há mais homens do que mulheres.
Histograma
É utilizado para representar distribuição
de frequência variável continua. O
histograma é um conjunto de retângulos verticais e justapostos (colados),
representado em um sistema de coordenadas cartesianas. As bases são os
intervalos de classe da variável em estudo e as alturas as porcentagens
correspondentes.
Vejamos um exemplo: A distribuição
abaixo representa o peso de 40 mulheres. Construa o respectivo histograma e
tire suas conclusões.
Conclusão: Concluímos ao observar
gráfico que 45% das mulheres investigadas tem pesos entre 55 |- 59 quilos, 30%
das mulheres tem pesos entre 51 |- 55 e 25% das mulheres tem pesos entre 59 |-
63 Kg.
UNIDADE III – MEDIDAS DE POSIÇÃO
A Unidade III, conceituamos as
medidas de posição, e aprendemos a calculá-las e interpretá-las
1.
Medidas de posição
• Medidas de
tendência central
MEDIDAS DE
TENDÊNCIA CENTRAL
Como já vimos anteriormente as Medidas de
Tendência Central recebem este nome por posicionar-se no centro da variável em
estudo. As principais são: a média aritmética, a moda e a mediana.
Média
Aritmética (x)
A média aritmética é representada pelo
símbolo x
. É uma medida bastante utilizada seja na vida
prática das pessoas como na mídia em geral, porém é muito influenciada por valores
extremos, ou seja valores muito altos ou muito baixos. Podemos querer calcular a média de dados
estatísticos não-agrupados, agrupados em distribuições de frequência variável discreta
ou distribuições de frequência variável contínua. Cada uma dessas situações
deve ser tratada de forma diferenciada, vejamos:
Dados
Não-Agrupados
Para calcular a média aritmética, de dados não-agrupados, usamos a seguinte
fórmula.
Dados Agrupados
Para calcularmos
média aritmética de dados agrupados usaremos a seguinte a formula da média
aritmética ponderada.
a) Cálculo da
Média Aritmética para a Variável Discreta
- dados agrupados sem faixas de
valores
Exemplo 1: Foram observadas 34 famílias e anotado o “número de filhos do sexo masculino” que cada
uma delas têm em uma distribuição de frequência variável discreta. Determine a
média aritmética.
As frequências
(fi) são números indicadores da intensidade de cada valor da variável, elas funcionam
como fatores de ponderação.
b) Cálculo da
Média Aritmética para Variável Continua
- dados agrupados com faixas de valores:
Exemplo 1: Calcular a estatura média de bebês em uma
certa comunidade conforme a tabela:
Moda (mo)
É o valor que ocorre com maior frequência em
uma sequência ou série de valores. Por exemplo, o salário mais comum em uma
fábrica é chamado de salário modal, isto é, o salário recebido pelo maior
número de empregado
Uma sequência
pode ser classificada de acordo com o número de modas que possui em:
Nenhuma moda -
amodal
Uma moda -
unimodal ou modal
Duas Modas -
bimodal
Mais de duas
modas - polimonal
li(mo) = limite
inferior da classe modal.
fi(mo)=
freqüência da classe modal.
fi(ant) =
freqüência da classe anterior à classe modal.
fi(post)=
freqüência da classe posterior à classe modal.
h= amplitude do
intervalo de classe.
Mediana (md)
Para a mediana usaremos o símbolo “md”. Define-se mediana como sendo o valor real
que separa o rol (dados já organizados) em duas partes deixando à sua direita o
mesmo número de elementos que à sua esquerda. Por exemplo: Dada a série de
valores X: 5, 2, 6, 13, 9, 15, 10,
determine a mediana.
De acordo com a definição de mediana, o
primeiro passo a ser dado é o da ordenação (crescente ou decrescente) dos
valores. Ordenando temos:
O valor que
divide a série acima em duas partes iguais é o número 9, logo, a mediana dessa
sequência é 9. Podemos dizer que 50% dos valores da sequência X são menores que
9 e 50% dos valores maiores do que 9.
Método prático
para o cálculo da Mediana:
Para calcular a mediana devemos considerar
duas situações: se o número de elementos da sequência é par ou ímpar
Se a série dada tiver número ímpar
de termos, o valor mediano será o termo de ordem dado feita fórmula:
Por exemplo:
Calcule a mediana da série Z: 0, 0, 1, 1, 2, 2, 3, 4, 5. Observe que neste caso
a sequência já está ordenada e temos nove elementos, portanto n = 9. Fazendo o
cálculo da posição do elemento:
Identificamos
com este cálculo a posição, ou seja, o endereço da mediana. A mediana é o 5ª
elemento da sequência.
Resposta: A
mediana será o termo que ocupa a 5ª posição, ou seja, a mediana é 2. Dizemos que
50% dos valores da sequência Z são menores do que 2 e 50% maiores ou iguais a
2.
Vejamos um
exemplo: Determine a mediana da sequência X: 7, 21, 13, 15, 10, 8, 9, 13 Solução:
Ordenar X: 7, 8, 9, 10, 13, 13, 15, 21, temos n = 8
A mediana é um número, porém neste caso temos dois candidatos. Sempre que aparecer esta situação, para calcular a mediana usaremos a media aritmética entre eles.
Lembram-se dessa fórmula:
Resposta: A mediana da sequência X é 11,5. Podemos dizer que 50% dos valores dessa sequência são menores do que 11,5 e 50% maiores do que 11,5.
Obs: Quando o número de elementos da série estatística for ímpar, haverá coincidência da mediana com um dos elementos da série.
Quando o número de elementos da série estatística for par, nunca haverá coincidência da mediana com um dos elementos da série. A mediana será sempre a média aritmética dos dois elementos centrais da série.
A mediana depende da posição do elemento na série ordenada. A media aritmética
depende dos valores dos elementos. Essa é uma da diferença marcante entre mediana e
média. A média se deixa influenciar, e muito, pelos valores extremos.
a) Calculo da Mediana na Variável Discreta (sem intervalos de classe)
Neste caso os dados já estão ordenados e agrupados em uma tabela de frequência. Vejamos um exemplo: Determinar a mediana da série, que representa as notas de alunos na disciplina de Língua Portuguesa.
Vamos resolver este problema. Nesta situação para facilitar nossos cálculos, abriremos ao lado da coluna das frequências (fi) uma outra coluna que chamaremos de f(ac), ou seja, frequência acumulada. Nesta coluna iremos acumular em cada linha as frequências absolutas (fi) da seguinte forma:
Resposta: A nota mediana de Língua Portuguesa é 8. Podemos dizer que 50% das notas são
menores ou iguais a 8 e 50% maiores ou iguais a 8.
Exemplo 2: Determinar a mediana da série abaixo que representa as notas de 32 alunos na
disciplina de Geografia.
Pronto, descobrimos que a nota mediana de Geografia é de 2,5, ou seja, 50% dos alunos tiraram notas menores ou iguais a 2,5 e 50% tiraram notas maiores ou iguais a 2,5.
b) Calculo da Mediana da Variável Contínua (com intervalos de classe)
Neste caso, é preciso seguir as etapas:
1ª Etapa: Calculamos a posição da mediana, considerando se o numero de elementos da serie
é par ou ímpar.
2ª Etapa: Para identificarmos o intervalo de classe onde se encontra a mediana
determinamos as frequências acumuladas “f(ac)”.
3ª Etapa: Calculamos a mediana “md” estimada pela seguinte fórmula:.
Agora vamos aprender com mais um exemplo. Dada a tabela abaixo, que representa as estaturas de 40 pessoas, calcule o valor da mediana:
Vamos seguir as etapas descritas anteriormente.
1ª Etapa: Calculamos a posição da mediana, considerando se o número de elementos da serie é par ou ímpar.
Esta série tem 40 elementos, portanto é par.
Descobrimos que a mediana está na posição 20ª e 21ª, agora temos que identificá-las na tabela de frequência.
2ª Etapa: Identificamos o intervalo de classe onde se encontra a mediana e determinamos as frequências acumuladas “f(ac)”.
Resposta: A mediana estimada das estaturas é igual a 60,55 cm. Significa que 50% das pessoas observadas tem estaturas inferiores a 60,55 cm e 50% estaturas superiores a 60,55 cm.
Principais medidas separatrizes
•
Quartil
• Quintil
• Decil
• Percentil
São números que dividem a sequência
ordenada de dados em partes que contêm a mesma quantidade de elementos da
série.
Desta forma, a mediana que divide a
sequência ordenada em dois grupos, cada um deles contendo 50% dos valores da
sequência, é também uma medida separatriz.
Além da mediana, as outras medidas
separatrizes são: quartis, quintis, decis e percentis.
Quartis
Ao dividir a série ordenada em quatro
partes, cada uma ficará com seus 25% de seus elementos.
Os elementos que separam estes grupos
são chamados de quartis.
Assim, o primeiro quartil, que indicado
por Q1, separa a sequência ordenada deixando 25% de seus valores à
esquerda e 75% de seus valores à direita.
O segundo quartil, indicado por Q2,
separa a sequência ordenada deixando 50% de seus valores à esquerda e 50% de
seus valores à direita. O Q2 é a Mediana da série.
O terceiro quartil Q3 obedece
a mesma regra dos anteriores.
Quintis
Ao dividir a série ordenada em cinco
partes, cada uma ficará com seus 20% de seus elementos.
Os elementos que separam estes grupos
são chamados de quintis.
Assim, o primeiro quintil, indicado por
K1, separa a sequência ordenada deixando 20% de seus valores à
esquerda e 80% de seus valores à direita.
De modo análogo são definidos os outros
quintis.
Decis
Ao dividir a série ordenada em dez
partes, cada uma ficará com seus 10% de seus elementos.
Os elementos que separam estes grupos
são chamados de decis.
Assim, o primeiro decil, indicado por D1,
separa a sequência ordenada deixando 10% de seus valores à esquerda e 90% de
seus valores à direita.
De modo análogo são definidos os outros
decis.
Percentis
Ao dividir a série ordenada em cem
partes, cada uma ficará com 1% de seus elementos.
Os elementos que separam estes grupos
são chamados de centis ou percentis.
Assim, o primeiro percentil, indicado
por P1, separa a sequência ordenada deixando 1% de seus valores à
esquerda e 99% de seus valores à direita.
De modo análogo são definidos os outros
percentis.
Verifica-se que os quartis, quintis e
decis são múltiplos dos percentis, então basta estabelecer a fórmula de cálculo
de percentis. Todas as outras medidas podem ser identificadas como percentis.
UNIDADE IV MEDIDAS DE DISPERSÃO OU
VARIAÇÃO
Na Unidade IV, conceituamos as
medidas de dispersão e aprendemos como calcular e interpretar o desvio-padrão
1. Medidas de dispersão Variância
Desvio-padrão
As medidas de variação ou dispersão, avaliam a dispersão ou a variabilidade da sequência numérica em análise, são medidas que fornecem informações complementares à informação da média aritmética. As principais medidas de dispersão são: a variância e o desvio-padrão.
Usaremos as letras s2 para denotar a variância de uma amostra e s para denotar o seu desvio-padrão.
Desvio Padrão
Em Probabilidade e Estatística,
o desvio padrão é a medida mais comum da dispersão estatística
(representado pelo símbolo sigma, σ). Ele mostra o quanto de
variação ou "dispersão" existe em relação à média (ou valor esperado).
Um baixo desvio padrão indica que os dados tendem a estar
próximos da média; um desvio padrão alto indica que os dados estão espalhados
por uma gama de valores.
O desvio padrão define-se como a raiz quadrada da variância.
É definido desta forma de maneira a dar-nos uma medida da dispersão que:
1. Seja um número
não-negativo;
2. Use a mesma unidade
de medida dos dados fornecidos inicialmente.
Faz-se uma distinção entre o desvio
padrão σ (sigma) do total de uma população ou de uma variável
aleatória, e o desvio padrão de um subconjunto em amostra.
Variância
Na teoria da probabilidade e na estatística, a variância de
uma variável aleatória ou processo estocástico é uma medida da sua dispersão estatística,
indicando "o quão longe" em geral os seus valores se encontram do valor esperado.
2. Cálculo da variância e do desvio-padrão
Dados brutos Variável discreta Variável contínua
Cálculo da Variância e Desvio
Padrão
Para calcular a variância e o
desvio-padrão vamos analisar três casos:
i)
Quando os dados ainda não foram agrupados em tabelas de frequência, ou
seja, estão na forma de dados brutos ou rol;
ii)
Quando os dados estão agrupados em distribuições de frequência variável
discreta
e
iii) Quando os dados estão agrupados em
distribuições de frequência variável contínua.
Dados brutos ou rol
Para podermos calcular a variância
e o desvio padrão de dados brutos vamos usar as fórmulas que seguem:
Distribuição de frequência variável
discreta
Para calcular a variância e o
desvio-padrão de uma distribuição de frequência variável discreta vamos usar as
fórmulas a seguir:
Cálculo da variância e do desvio-padrão da distribuição de frequência variável continua
Para calcular a variância e o desvio-padrão de variáveis continuas devemos proceder como para as variáveis discretas, tomando somente o cuidado de substituir o xi pelos pontos médios de cada classe, uma vez que a variável está agrupada com intervalos de classe.
Uma característica importante da distribuição normal é que, quanto maior a amostragem, mais uniformemente as ocorrências se distribuem à medida que se afastam da média central.
A medida desta uniformidade é o "desvio padrão", um valor que quantifica a dispersão dos eventos sob distribuição normal, ou seja, a média das diferenças entre o valor de cada evento e a média central, conforme a definição:
A medida desta uniformidade é o "desvio padrão", um valor que quantifica a dispersão dos eventos sob distribuição normal, ou seja, a média das diferenças entre o valor de cada evento e a média central, conforme a definição:
Em uma distribuição normal perfeita, 68,26% das ocorrências se concentrarão na área do gráfico demarcada por um desvio padrão à direita e um desvio padrão à esquerda da linha média, conforme a figura 3:
Quando demarcamos dois desvios padrão, para a direita e a esquerda da média, abrangemos 95,44% das ocorrências e 99,72% quando demarcamos três.
Fazendo previsões
Esta particularidade torna as distribuições normais previsíveis, ou seja, se pudermos levantar seu desvio padrão poderemos fazer previsões sobre os eventos representados dentro das probabilidades definidas.
Quanto maior o desvio padrão, maior a dispersão e mais afastados da média estarão os eventos extremos.
Quanto maior o desvio padrão, maior a dispersão e mais afastados da média estarão os eventos extremos.