TEMA DE APRENDIZAGEM

Medidas De Posição E Dispersão

MINHAS METAS

Olá estudante,

Seja bem-vindo(a) ao tema Medidas De Posição E Dispersão! Este conteúdo será fundamental para sua aprendizagem e para sua futura profissão. Por meio dela, você terá oportunidade de entender como ocorre a análise dos dados oriundos de uma pesquisa para que possa analisar situações quanto à frequência, à incidência, às ocorrências, entre outras variáveis imprescindíveis para futura atuação profissional. Você aprenderá a trabalhar com as medidas de posição, separatrizes e variabilidade. Vamos lá?
Ao final deste tema de aprendizagem você será capaz de:

Entender como ocorre a análise dos dados oriundos de uma pesquisa para que possa analisar situações quanto à frequência, às ocorrências, entre outras variáveis imprescindíveis para futura atuação profissional.
Trabalhar com as medidas de posição, separatrizes e variabilidade.

Inicie sua jornada

Para que possamos dar início às nossas reflexões, vou nos transportar para a primeira vez em que entrei em uma escola como professora da disciplina Estatística. Naquele momento, eu tinha várias expectativas quanto à minha atuação como docente. Aquele ambiente inspirava o conhecimento e o meu desejo de ensinar.

No entanto, já em sala de aula, quando fiz a primeira explicação/apresentação a respeito do que se tratava a disciplina de cálculo, explicitei que, também, trabalhamos com a interpretação de dados e informações e notei que isso foi uma surpresa para os estudantes daquela turma. Na aula seguinte, fiz uma revisão de conteúdos de Matemática Básica, como fração, multiplicação e expressão numérica, quando percebi a necessidade de mais aulas relembrando este conteúdo com meus alunos.

Então, para ter um parâmetro de como estava a turma, fiz um teste, sem valer nota, mas para ter um diagnóstico real de como poderia trabalhar. Depois que fiz as correções dos testes, calculei a média, a variância e o desvio padrão daquela turma e entendi que havia muita dispersão , ou seja, parte da turma necessitava de uma atenção especial em cálculos básicos de matemática, outra parte era intermediária, e outra parte tinha gabaritado o teste. Com essa turma heterogênea, era preciso cuidado e atenção, e isso me desafiava nesta primeira experiência como professora.

Com este relato de minha história, desejo que você se atente aos conteúdos que desbravaremos e compreender juntos, que tratam de formas de se calcular as medidas de posição e dispersão e sobre como perceber o quanto estas são importantes em nossa tomada de decisões.

Desenvolva seu potencial

Você percebeu que, como professora da disciplina Estatística, utilizei medidas de dispersão para mensurar o conhecimento prévio da turma em Matemática Básica e, com base nos resultados, fui traçando um planejamento pedagógico pensando na melhor maneira do aprendizado da minha turma. Agora que entendemos que a estatística pode nos ajudar a construir elementos para tomada de decisões, você, também, pode se apropriar destes preceitos para a tomada de decisão em sua trajetória profissional e verá que essas medidas ajudarão você a interpretar os resultados de que precisa em um conjunto de dados.

Eu indico

Portanto, peço que faça a leitura do artigo intitulado “Medidas de dispersão: os valores estão próximos entre si ou variam muito?” Nesse artigo, você terá uma explicação das medidas de dispersão e o que os resultados apresentam entre si.

Depois da leitura do artigo anterior, vamos pôr a mão na massa? Trabalharemos, agora, com dados coletados em uma turma. Sugiro que levante as notas dos seus colegas de turma, no primeiro, no segundo, no terceiro e no quarto módulo. Em seguida, determine a média para cada aluno(a), e analise o desempenho de sua turma . Construa esta organização e faça esta análise, e você já estará utilizando mais uma técnica apresentada pela Bioestatística. Caso prefira, pode extrapolar este contexto de nosso exemplo para outras áreas da sua vida, como com as contas de luz, água ou internet, ao longo do último ano.

Sendo assim, provoco você a fazer uma autoanálise sobre a sua aprendizagem de tudo que foi explicado até agora, pois este processo mostrará que estas medidas o ajudarão a interpretar os resultados de que precisa em um conjunto de dados. O que você encontrou até aqui? Todas estas informações auxiliarão você? Diante disso, convido você, acadêmico, a fazer suas anotações em um Diário de Bordo. Construa uma tabela à mão com esses dados, a fim de anotar suas primeiras impressões até o momento.

Neste momento, caro(a) estudante, estudaremos as medidas de posição, as separatrizes e a dispersão. As medidas de tendência central possibilitam representar um conjunto de dados com apenas um número (MARTINEZ, 2015). As medidas de posição mais utilizadas e as que estudaremos são: a média, a moda e a mediana.

Cada uma dessas medidas envolve fórmulas e aplicações diferentes, tornando a Bioestatística ainda mais fascinante. “As medidas de tendência central só podem ser calculadas para variáveis quantitativas”.

- PARENTI; SILVA; SILVEIRA, 2017, p. 116

A medida de posição média é a medida de tendência central mais conhecida e mais importante para um conjunto de valores. Tenho certeza de que você já a utilizou no seu dia a dia, pois é bem simples de ser calculada. Para o cálculo da média, basta somar todos os valores e, em seguida, dividir pelo total de elementos. A média amostral é representada por um x com uma barra em cima ( X ), e a média populacional pela letra grega μ (lê-se mi). Mesmo sendo representadas de maneira diferente, a forma de calcular é a mesma. Para calcularmos a média, quando temos dados desagrupados, ou seja, sem estarem em tabelas, podendo ser brutos ou em rol, é dada por:

= XIN
Em que: μ = Média Populacional Σ = Somatória Xi = Valor de cada elemento N = Total da População

X= XIN
Em que: X = Média Amostral Σ = Somatória Xi = Valor de cada elemento n = Total da Amostra

VOCÊ SABE RESPONDER?

Como você pode observar, o cálculo da média é o mesmo tanto para a população quanto para a amostra. Aposto que, neste momento, você está se questionando: mas como funciona na prática? Sempre que não for mencionado que os dados são populacionais, você pode considerar uma amostra, e isso acontece porque, geralmente, o trabalho com amostras tem um custo e um tempo menor do que o trabalho com população. Você pode observar que, na área das Ciências Biológicas e da Saúde, o uso de amostras é recorrente.

Para compreender melhor o que eu desejo explicar para você aqui, o cálculo da média, vejamos um exemplo. As idades (em anos) de oito pessoas que estão apresentadas, a seguir:

38, 40, 49, 67, 33, 57, 54 e 64

Pensando Juntos

A média amostral, denotada por x (lê-se “xis barra”), é dada por:
X= XIN
= XIN= x1+x2+x3....xnn
Assim:
X=38+40+49+67+33+57+54+648
X=4028 + 50,25

Você pode observar que a média é apresentada na mesma unidade de medida da variável analisada. E como interpretamos uma média de 50, 25 anos? Em primeiro lugar, tendo a média como uma medida de tendência central, podemos afirmar que as idades das oito pessoas de nossa amostra estão em torno de 50, 25 anos. A Figura 2 ajuda-nos a visualizar a média e os dados apresentados.

Figura 2 - Apresentação dos dados e da média

Fonte: a autora.

Dessa forma, lembre-se de que a média é uma medida-resumo, isto é, ela visa sintetizar em um único valor todas as nossas observações amostrais. Em outras palavras, afirmarmos que a idade de 50, 25 anos é um valor que tem por intuito representar as idades de todas as oito pessoas analisadas. No entanto você pode observar que a média é um resumo incompleto de nosso conjunto de dados uma vez que ela não informa o tamanho da dispersão de nossos dados a seu redor. Observe que, com a média de 50, 25 anos, temos pessoas com 33 anos, com 48 e com 67. Para explicar toda esta dispersão, existe o desvio padrão, que discutiremos um pouco mais à frente.

Aprofundando

Supondo que, agora, temos uma amostra composta por oito mulheres, e a variável que nos interessa é o número de filhos, para isso, temos:
1, 1, 1, 2, 2, 3, 3, e 4
A variável analisada é de natureza quantitativa discreta. A média amostral é:
X= XIN
X=1+1+1+2+2+3+3+48
A=178
X=2,125
X= XiN

Se o número de filhos é uma variável discreta, e não temos casas decimais, seria possível ter uma média de 2,125 filhos? Ainda que a variável estudada não admita casas decimais, a sua média pode sim ter casas decimais. Entretanto, neste exemplo apresentado, basta uma casa decimal para a média, aí podemos utilizar a regra de arredondamento e dizer que as famílias têm, em média, 2,1 filhos. Também podemos ter interesse em calcular a média, em dados qualitativos apresentados em tabelas. Vejamos o exemplo, na Tabela 1, a seguir:

Tabela 1 - Média das estaturas (em cm) de 30 adolescentes, conforme a classificação de seus pesos

Média das estaturas conforme a classificação de
seus pesos

Fonte: a autora.

Para calcular a média neste caso, trabalharemos com a média ponderada, dada pela equação:
X= XI.fin
Em que:
X = média
Xi = cada um dos valores (ou ponto médio)
n = número total de elementos (ou somatória das frequências)
Temos:
X= XI.fin
X=(6.145,5) + (14.148,8)+(10+149,3)30
X=873+2.083,32+1+49330
X= 4.449,3230
X=148,31

Em vez de calcular dessa maneira, para facilitar, você pode, dentro da sua tabela, criar uma coluna complementar e chamá-la de xi.fi , colocar os resultados em cada classe da multiplicação da frequência pelo valor da variável e, depois, somar com o total na Tabela 2. Vejamos a seguir:

Tabela 2 - Média das estaturas (em cm) de 30 adolescentes, conforme a classificação de seus pesos com coluna complementar

Fonte: a autora.

Zoom no Conhecimento

Agora, com o resultado da somatória das frequências pela variável, utilizamos a mesma equação. Veja como fica:

X=X=x .fiin

X=4.449,3230

X = 148,31

Você, também, poderá encontrar situações, no seu cotidiano, já atuando como profissional, em que você precisará calcular a média de idade de seus pacientes, ou, ainda, calcular médias de seus alunos utilizando os dados quantitativos. Vejamos um exemplo hipotético em que analisaremos as notas de uma turma do curso de Biomedicina, na Tabela 3 a seguir:

Tabela 3 - Notas de 30 alunos do Curso de Biomedicina

Fonte: o autor.

Para que o professor saiba a média em questão, ele realizará uma análise simples, multiplicará a nota (variável que está sendo estudada) pelo número de alunos, em seguida dividirá pelo total da turma, que, neste caso, é de 30 alunos . Utilizando a equação da média, temos:

X=x .fiin

X=56+96+54+4030

X= 24630

X=8,2

Outra opção para calcular, como vimos anteriormente, é criar a coluna complementar, ficando, desta forma, na Tabela 4:

Tabela 4 - Notas de 30 alunos do Curso de Biomedicina

Notas de 30 alunos do Curso de Biomedicina image 2

Fonte: a autora.

Pensando Juntos

Resolvendo a média, temos:

X=xi .fin

X=24630

X=8,2

E se tivermos uma tabela de frequências com intervalo de classes, como calculamos a média? Utilizaremos a mesma equação, mas precisaremos calcular o ponto médio. Vejamos um exemplo: as notas dos alunos do curso de Biomedicina estão apresentadas na Tabela 5 a seguir.

Tabela 5 - Distribuição de frequências referente às notas de alunos do Curso de Biomedicina (com intervalo de classes)

Fonte: a autora.

Na Tabela 6, temos as notas dos alunos do curso para calcularmos a média. A fim de facilitar, inseriremos uma coluna complementar, determinaremos o ponto médio primeiro, utilizando a equação a seguir:

Xi=(Li+Ls)2

Em que:

Xi = Ponto médio

Li = Limite inferior do intervalo de classe (independente da notação)

Ls = Limite superior do intervalo de classe (independente da notação)

Agora, com a coluna complementar na tabela, determinaremos o ponto médio de cada classe, na Tabela 6.

Tabela 6 - Distribuição de frequências referente às notas de alunos do Curso de Biomedicina (com intervalo de classes)

Fonte: a autora.

Agora que temos o ponto médio, basta inserir uma coluna complementar “xi.fi” e utilizar a equação da média, que já trabalhamos, anteriormente. Reescrevendo, na Tabela 7, temos:

Tabela 7 - Distribuição de frequências referente às notas de alunos do Curso de Biomedicina (com intervalo de classes)

Fonte: a autora.

Aprofundando

Determinando a média, temos:

X=xi .fin

X=203,430

X=6,78

A média da turma é 6,78, arredondando temos que a média da turma de Biomedicina é de 6,8.

Fonte: Parenti, Silva e Silveira (2017, p. 120).

A medida de tendência central mais conhecida e mais utilizada é a média, mas não é sempre que ela é a mais apropriada para representar os dados, às vezes, a mediana é mais adequada para representar um conjunto de dados. Isso ocorre sempre que a variabilidade dos dados for alta, pois a média é afetada por valores extremos, e a mediana não, ela apenas leva em consideração os valores centrais.

Outra medida de posição importante é a moda . Você deve ter ouvido falar da expressão: “música que está na moda”, “roupa que está na moda”, isso significa que tem muita frequência, muitas pessoas ouvindo a mesma música, muitas pessoas usando mesmo estilo de roupa. Aqui na Bioestatística, esse conceito é bem válido. Assim, para Martinez (2015), a moda é a observação que ocorre com maior frequência no conjunto de dados, ou seja, o valor que mais se repete. Imagine que em uma loja de calçados femininos foram vendidos 20 pares de sapatos em um único dia. Os pares tinham estas numerações:

A numeração que aparece com mais frequência é o número 36. Significa que é uma informação muito importante ao gerente da loja, pois indica que ele não pode deixar de ter calçados 36 em seu estoque, porque vendem com mais frequência.

É importante não confundir moda com maioria. A moda é a observação mais frequente, mas isso não implica, necessariamente, que a moda corresponde à maioria das observações. (E. Z. Martines).Em outro exemplo, suponha que, em uma turma de 1º ano de Nutrição, as idades dos 20 alunos (em anos completos) são:

Podemos descrever, adequadamente, as idades destes alunos dizendo que a idade mais frequente, ou moda, é 18 anos. No entanto, em alguns casos, a moda pode não ser a medida mais apropriada para caracterizar os dados. Como os valores a seguir são os níveis séricos de triglicérides (em mg/dl) em uma amostra de sete pacientes:

189, 72, 109, 140, 140, 140, 135
A moda, neste exemplo, seria 140 mg/dl, sendo o valor mais frequente. Mas será que a moda é a medida de posição que melhor caracteriza esses dados? Talvez a média ou a mediana (que veremos a seguir) sejam mais úteis para esta finalidade. Em algumas situações, a moda pode não ser única. Por exemplo, o tempo de aleitamento materno (em meses) de 8 crianças usuárias de um serviço de saúde:

1, 2, 3, 3, 4, 6, 6
Neste exemplo, temos dois valores mais frequentes, 3 e 6 meses. Podemos dizer que se trata de uma série bimodal, ou seja, dois valores de moda. Novamente, a média ou a mediana podem ser mais úteis para descrever os dados desse exemplo. Podemos não ter moda em um conjunto de dados, caso nenhum número se repita mais vezes do que outro. Quando isso acontece, chamamos a distribuição de amodal. Se tivermos mais do que duas modas, teremos uma distribuição multimodal (PARENTI; SILVA; SILVEIRA, 2017).

Em alguns casos podemos ter interesse em saber a moda, mas os dados estão apresentados em tabela, como fazer? Bem simples, basta olharmos os dados e a coluna frequência, assim, vamos encontrar a classe modal, para então sabermos a moda. Observe os dados a seguir, na Tabela 8.

Tabela 8 - Notas de alunos do Curso de Nutrição

Fonte: a autora

Para determinar a moda em tabelas, primeiramente, procuraremos a classe modal . Para isso, basta observar na coluna que tem a maior frequência. Em nosso exemplo, a segunda classe tem doze alunos, que corresponde ao valor que aparece com mais frequência, portanto, esta é a classe modal.

Em tabelas de frequências, também, podemos ter mais do que uma moda. Analise a seguir, na Tabela 9.

Tabela 9 - Notas de alunos do Curso de Nutrição

Notas de alunos do Curso de Nutrição img 2

Fonte: a autora.

Zoom no Conhecimento

Neste caso, as notas que aparecem com maior frequência são 8 e 10, temos uma série bimodal, ou seja, com duas modas. E quando temos dados em tabelas de frequências com intervalo de classes, como fica? Primeiro passo é localizar a classe modal, ou seja, a classe que tem a maior frequência e, em seguida, utilizar a equação a seguir:

Mo=Li+h.(Fi-Fi-1)(Fi-Fi-1)+(Fi-Fi-1))

Em que:

Mo = Moda

Li = Limite da classe inferior (na classe modal)

h = Amplitude do intervalo (distância entre Li e Ls)

Fi = Frequência da classe

Fi−1 = Frequência da classe anterior

Fi+1 = Frequência da classe posterior

Para entender melhor, vejamos o exemplo na Tabela 10.

Tabela 10 - Distribuição de frequências referente às notas de alunos do Curso de Nutrição (com intervalo de classes)

Fonte: a autora.

Aprofundando

Determine a moda. Para calcular a moda, procuraremos, na tabela, na coluna frequências, a maior frequência para indicar a classe modal. Podemos observar que a moda está na terceira classe da tabela, mas qual a moda? Determinaremos a seguir:

Encontramos que a nota que representa a moda é igual a 6,7; mas os dados não foram dados em rol, com esta equação, encontramos o valor mais aproximado, observem que este valor está dentro dos valores estabelecidos nos limites inferiores e superiores. Para Parenti, Silva e Silveira (2017), a mediana é definida como sendo o valor central da distribuição dos dados ordenados, e este divide a distribuição ao meio, sendo que metade dos valores será menor ou igual à mediana, e a outra metade será maior ou igual à mediana. Até o momento, quando calculávamos a média e a moda, fazíamos, diretamente, sem ter que colocar os dados em rol, mas, para calcular a mediana, obrigatoriamente, devemos colocar os dados em rol. Supondo que temos as idades de cinco alunos do curso de Nutrição, que são dadas a seguir: 25 22 18 23 24

Encontre a mediana entre as idades dos alunos. Sabemos que a mediana divide o conjunto de dados em duas partes iguais, não seria correto fazer simplesmente assim:

Dessa forma está errada, pois a idade de 18 anos não é o que divide o conjunto de dados em rol, pois, na mediana, estes dados devem ser ordenados, portanto:

Agora, temos a mediana, que é igual à idade de 23 anos.

Vejamos outro exemplo: idades (em anos) de sete pessoas estão apresentadas a seguir:

38, 40, 49, 67, 33, 57, 54

Primeiro passo: colocar os dados em rol:

33, 38, 40, 49, 54, 57, 67

Encontrando a mediana, temos:

33, 38, 40, 49 , 54, 57, 67

Mediana igual a 49. Agora, representaremos, na Figura 3, para que você consiga analisar os valores antes e depois da mediana.

Figura 3 - Representação na mediana / Fonte: o autor.

Zoom no Conhecimento

Se substituirmos a maior idade de 67 para 75 anos, o que aconteceria com a mediana? Seu valor se modificaria? O número do meio continuaria sendo 49 anos. Esta é uma característica importante da mediana: ela não é sensível a valores atípicos de nosso conjunto de dados, e entendemos por valor atípico um número bastante grande ou pequeno em relação aos demais.

No cálculo da mediana, temos duas situações quando temos o conjunto de dados com números pares e ímpares. Quando tivermos um número ímpar de elementos, a mediana será exatamente o valor central. Também pode ser calculado pela equação a seguir:

Em que: P = posição do elemento que está à mediana n = número de elementos Por exemplo: Notas de sete alunos do curso de Nutrição:

7,0 6,0 5,0 5,5 9,0 8,0 9,0

Colocando os dados em rol:

5,0 5,5 6,0 7,0 8,0 9,0 9,0

Utilizando a equação, temos:

O ‘p’ encontrado igual a 4, não é a mediana, mas sim o valor que ocupa a posição mediana, ou seja, com os dados em rol, a mediana ocupa a 4ª posição :

Podemos visualizar que a mediana é a nota 7,0, que ocupa a 4ª posição.
Quando tivermos um número par de elementos, a mediana será uma média simples entre os elementos que ocupam a posição central o valor central. Pode ser calculado por:

Em que:
P = posição do elemento que está à mediana
n = número de elementos
Por exemplo: Notas de oito alunos do curso de Nutrição:
7,0 6,0 5,0 5,5 9,0 8,0 9,0 7,5
Colocando os dados em rol:
5,0 5,5 6,0 7,0 7,5 8,0 9,0 9,0

Utilizando a equação, temos:

Temos:

Agora, tiraremos uma média simples entre o elemento que está na quarta e na quinta posição:

Muitas vezes, podemos ter o interesse em calcular a mediana em dados agrupados em tabelas, para isso, precisaremos que nossa Tabela 11 tenha a coluna frequência acumulada (FAC).

Tabela 11 - Notas de 30 alunos do Curso de Nutrição

Pensando Juntos

Para encontrar a mediana, como os dados já se encontram agrupados em uma tabela de frequências, por meio da coluna frequência acumulada, vamos localizar o elemento que ocupa a posição mediana, como nosso conjunto de dados é par, temos:

Agora com na coluna FAC, vamos localizar os elementos que ocupam a 15ª e a 16ª posição. Veja na tabela 12, a seguir:

Tabela 12 - Notas de 30 alunos do Curso de Nutrição

Fonte: o autor.

Para este caso, o elemento que ocupa a 15ª e 16ª posição está na segunda classe é a nota 8,0, portanto, a nota mediana desta turma é 8,0. E se tivesse uma nota em uma classe, e outra na classe posterior? Simples, bastaria tirar a média simples entre as duas notas.

Também podemos ter interesse em calcular a mediana em uma distribuição de frequências com intervalo de classes . Para determinar a mediana, utilizamos a seguinte equação:

Em que:
Md = Mediana
Li = Limite da classe inferior (na classe mediana)
h = Amplitude do intervalo (distância entre Li e Ls)
n = número de elementos
Fi = Frequência da classe
Fac−1= Frequência acumulada da classe anterior

Agora, entenderá como calcular a mediana em dados agrupados em uma distribuição de frequências com intervalo de classes. Observe na Tabela 13 a seguir.

Tabela 13 - Distribuição de frequências referente às notas de alunos do Curso de Nutrição (com intervalo de classes)

Para resolvermos, temos primeiro que encontrar a posição mediana na coluna FAC. Como nosso conjunto de dados é par, temos:

Aprofundando

Podemos observar, na tabela, que os dados estão na 3ª classe. Trabalharemos com estes dados e substituiremos na equação da mediana.

Temos que a nota mediana da turma é igual a 6,8.

Compilaremos tudo que aprendemos em uma aplicação: Em uma maternidade, a enfermeira está anotando os pesos dos recém-nascidos na manhã de um domingo, quando cinco bebês nasceram. Os dados são (em kg):

3,850 4,210 3,950 4,300 3,850

Vamos calcular as medidas de tendência central para estes dados:

Em média, os bebês daquela manhã de domingo pesavam 4,032 kg.

valor que mais se repete, portanto é 3,850 kg. Assim: O valor mais frequente para o peso dos recém-nascidos naquela maternidade é de 3,850 kg.

colocar os dados em rol:
3,850 3,850 3,950 4,210 4,300

A mediana será o terceiro elemento do conjunto de dados ordenados. Portanto, 3,950. Assim: metade das crianças nascidas na maternidade pesava menos de 3,950kg, e a outra metade pesava mais do que 3,950 kg.

A medida de tendência central mais conhecida e mais utilizada é a média, mas não é sempre que ela é a mais apropriada para representar os dados, às vezes, a mediana é mais adequada para representar um conjunto de dados. Isso ocorre sempre que a variabilidade dos dados for alta, pois a média é afetada por valores extremos, e a mediana não, ela, apenas, leva em consideração os valores centrais.

- Parenti, Silva e Silveira (2017).

Figura 4 - Representação dos quartis / Fonte: o autor.

Outras medidas que você pode utilizar são as separatrizes que dividirão as séries em partes iguais, e as principais são: mediana (que já estudamos), quartis, decis e percentis. Os quartis dividem uma série de dados em quatro partes iguais, assim, temos: 1º quartil, 2º quartil e 3º quartil (CRESPO, 2009). Esta representação encontra-se na Figura 4, a seguir.

Assim, como pode observar na Figura 5, segundo Crespo (2009) temos os três quartis:

Figura 5 - Três Quartis / Fonte: Crespo (2009).

Para calcular, é bem simples, basta organizar a série de dados em rol, e utilizar as equações a seguir:
1º Quartil (Q1): P=0,25.(n+1)
2º Quartil (Q2): P=0,50(n+1)
3º Quartil (Q3): P=0,75(n+1)

Por exemplo, calcularemos Q1, Q2 e Q3 para um grupo que tem idades de oito pessoas:
38, 40, 49, 67, 33, 57, 54 e 64
Primeiro passo: colocar os dados em rol.
33, 38, 40, 49, 54, 57, 64, 67

Neste caso, o Q1, será uma média simples entre 2º e 3º elemento:

Neste caso, o Q2, será uma média simples entre 4º e 5º elemento:

Neste caso, o Q3 será uma média simples entre 6º e 7º elemento:

Zoom no Conhecimento

Outra medida separatriz é o decil. Este divide uma série em dez partes iguais (CRESPO, 2009). As equações para calcular estão apresentadas a seguir:
1º Decil (D1): P=0,10 (n+1)
2º Decil (Q2): P=0,20 (n+1)
3º Decil (Q3): P=0,30 (n+1)
4º Decil (Q4): P=0,40 (n+1)
5º Decil (Q5): P=0,50 (n+1)
6º Decil (Q6): P=0,60 (n+1)
7º Decil (Q7): P=0,70 (n+1)
8º Decil (Q8): P=0,80 (n+1)
9º Decil (Q9): P=0,90 (n+1)

Por exemplo: calcular D3 e D4 e para um grupo que tem idades de oito pessoas:
38, 40, 49, 67, 33, 57, 54 e 64
Primeiro passo: colocar os dados em rol.
33, 38, 40, 49, 54, 57, 64, 67

3º Decil (D3): P=0,30(n+1)
P=0,30.(8+1)
P=0,30.(9)
P= 2,7

O 3º decil será o elemento que ocupa a posição 2,7, arredondando para 3º, assim, nosso terceiro decil é igual a 40.

4º Quartil (Q4):
P= 040.( n+1)
P=0,40.(8+1)
P=0,40.(9)
P=3,6

O 4º decil será o elemento que ocupa a posição 3,6, arredondando para 4º, assim, nosso quarto decil é igual a 49. Como percentil, temos como definição: os noventa e nove valores que separarão uma série de dados em cem partes iguais (CRESPO, 2009). Pode ser calculado por meio das equações a seguir:

5º Percentil (P5): P=0,05(n+1)
25º Percentil (P25): P=0,25(n+1)
50º Percentil (P50): P=0,50(n+1)
75º Percentil (P75): P=0,75(n+1)
90º Percentil (P90): P=0,90(n+1)

Aprofundando

Por exemplo: calcular P50 e P75 e para um grupo que tem idades de oito pessoas:
38, 40, 49, 67, 33, 57, 54 e 64
Primeiro passo: colocar os dados em rol.
33, 38, 40, 49, 54, 57, 64, 67
50º Percentil (P50): P=0,50.(n+1)
P=0,50.( n+1)
P=0,50.( n+1)
P= 0,50.( 8+1)
P= 0,50.(9)
P=4,5

Portanto, o P50 é igual ao elemento que está na 4,5ª posição, portanto uma média simples entre 49 e 54:

75º Percentil (P75): P=0,75.( n+1)
P=0,75.( n+1)
P=0,75.(8+1)
P=0,75.(9)
P=6,75

Portanto, o P75 é igual ao elemento que está na 6,75ª posição, portanto uma média simples entre 57 e 64:

Além das medidas separatrizes, temos as medidas de dispersão, que são importantes no processo decisório. Com as medidas de dispersão e variabilidade, é possível entender a homogeneidade ou a heterogeneidade dos dados (PARENTI; SILVA; SILVEIRA, 2017). As medidas de dispersão são avaliadas em conjunto com as medidas de tendência central. Com as medidas de dispersão, podemos analisar como os dados estão se comportando em torno da média, da moda e da mediana. É importante salientar que, apesar de dois conjuntos de dados terem a mesma média, eles podem não ter o mesmo comportamento e a mesma variabilidade, para isso, é importante analisar os dados e fazer estas comparações para entender o comportamento dos dados.

Não podemos interpretar as medidas de tendência central isoladamente. Para verificar se as medidas de variabilidade representam bem os dados, precisamos calcular e analisar as medi- das de variabilidade.

- E. Z. Martinez

Vejamos outro exemplo. Seja a estatura (em cm) observada em duas amostras de adolescentes saudáveis, denotaremos essas amostras por A e B.

As estaturas dos adolescentes da amostra A são: 149 156 157 158 159 160 161 164
As estaturas dos adolescentes da amostra B são: 132 138 152 157 160 171 176 178

Ao calcular a média da amostra A e B, ambas são 158 cm. As medianas de ambas as amostras (A e B) são iguais a 158,5. Assim, as amostras A e B possuem médias e medianas idênticas. Mas o fato de as amostras A e B possuírem medidas de posição iguais (média e mediana) permite-nos afirmar que adolescentes das amostras A e B são semelhantes em relação à estatura? Vejamos a Figura 6 que apresenta o grupo A e B.

Figura 6 - Grupo A e B / Fonte: o autor.

Na Figura 6, podemos observar as dispersões destas observações. Percebemos que, embora as medidas de locação sejam iguais, as amostras têm diferença quanto à dispersão dos dados. Na amostra A, as observações possuem uma dispersão menor em relação à média de 158 cm, já na amostra B, as observações encontram-se mais dispersas em relação a mesma média amostral. Se dissermos somente que a média das estaturas é de 158 cm, estaremos dizendo que nossas observações amostrais flutuam em torno de 158 cm, mas não temos informação do tamanho da dispersão dos dados em relação a essa média.

Com isso, podemos evidenciar que as medidas de posição (média, moda e mediana), muitas vezes, dão um resumo incompleto do comportamento de nossos dados uma vez que elas não nos dizem nada a respeito da dispersão dos dados. Assim, torna-se tão importante a apresentação de medidas de variabilidade dos dados.

Vamos conhecer estas medidas de dispersão? Iniciamos pela Amplitude total, de acordo com Martinez (2015), a amplitude é dada pela distância entre o maior valor do conjunto de dados pelo menor valor do conjunto de dados. Assim, a amplitude total só leva em consideração os extremos, não chega a comparar os valores da distribuição com a média destes dados.

Zoom no Conhecimento

É calculada pela equação a seguir:
AT=Xmáx-Xmín
Em que:
AT = Amplitude total
Xmáx = Maior valor do conjunto de dados
Xmín = Menor valor do conjunto de dados

Por exemplo, temos oito pessoas cujas idades são apresentadas a seguir:
38, 40, 49, 67, 33, 57, 54 e 64

A pessoa mais velha tem 64 anos, e a mais nova, 33 anos. A amplitude vamostral é, portanto:
AT=Xmáx-Xmín
AT = 64-33
AT=31

Podemos interpretar a AT como sendo a maior diferença que é possível encontrar entre duas quaisquer observações de nossa amostra (MARTINEZ, 2015). Assim, a AT deve ser utilizada com certa cautela para descrever a amplitude de nossos dados, dado que ela é, fortemente, influenciada por valores atípicos, sendo não recomendado seu uso sozinha para interpretação de variabilidade dos dados.

Outra medida de dispersão é a variância, calculada com todos os dados da série e comparada cada um deles com a média. A variância mede a distância de cada um dos valores em relação à média (MARTINEZ, 2015). Por uma questão matemática, precisamos elevar ao quadrado cada uma dessas distâncias para podermos eliminar o sinal. Depois disso, fazemos a média dos quadrados destas diferenças. Lembre-se de que não teremos variância negativa, certo?

Caso a variância esteja sendo calculada para os dados de uma população, representaremos este valor pela letra grega sigma ao quadrado σ2. Em vez de dividirmos por n-1, dividimos o somatório por N, sendo que n é o número de elementos da amostra, e N é o número de elementos da população. A variância populacional e amostral é calculada por:

Em que:
s2 = Variância Populacional
Xi = Cada valor/elemento
μ = média populacional
N = Número de elementos
Σ = Somatória

Em que:
S2 = Variância Amostral
Xi = Cada valor/elemento
X = média amostral
n −1= Número de elementos (menos 1)
Σ = Somatória

Como você pode observar, a única diferença na prática do cálculo da variância populacional e amostral é que, na variância amostral, tiraremos um elemento na hora de fazer a divisão. É válido lembrar que, na maioria das situações, utilizamos amostras, por questão de custo, da forma de coletar, entre outros. Entenderá na prática.

Temos oito pessoas cujas idades são apresentadas a seguir:
38, 40, 49, 67, 33, 57, 54 e 64

Determinaremos a variância amostral. Lembrando que precisaremos da média para calcular a variância.

Agora que relembramos a média, calcularemos a variância amostral, substituindo os valores na equação:

Aprofundando

Como você pode observar, a variância calcula a soma dos quadrados das distâncias em relação à média. Como elevamos todos os termos ao quadrado, a nossa unidade de medida também fica alterada. Se, por exemplo, estivermos calculando a variância da altura de alunos do curso de Ciências Biológicas, e a medida está em cm, todos os elementos determinados estarão em cm2. Sendo assim, nós não podemos comparar a variância, diretamente, com a média ou com outras medidas, pois precisaremos extrair a raiz da variância, e a isso denominamos desvio padrão.

Como desvio padrão é a raiz quadrada da variância, calculamos pela equação a seguir:

Em que:
s = desvio padrão Populacional
s2 = variância populacional
Desvio padrão amostral

Em que:
S = desvio padrão amostral
S2= variância amostral
Determinando o desvio padrão, do exercício anterior, temos:

A variabilidade entre as idades do grupo analisado é de 12,44 anos.

Se quisermos comparar a variabilidade de duas ou mais amostras (ou populações), para Parenti, Silva e Silveira (2017), podemos fazer esta comparação somente com o uso do desvio padrão. Mas podemos comparar utilizando o coeficiente de variação, que nos dará em percentual a variabilidade dos dados, determinado por:

Em que:
CV% = Coeficiente de variação
σ = desvio padrão populacional
μ = média populacional
Coeficiente de variação (amostral):

CV% = Coeficiente de variação
S = desvio padrão amostral
X = média amostral
Determinando o CV% amostral do exercício anterior, temos:

Zoom no Conhecimento

Quando utilizado o coeficiente de variação, sempre que quisermos descobrir qual grupo de dados é mais homogêneo, ou seja, que tem menor variabilidade em torno da média, optaremos pelo grupo que tiver o menor percentual do coeficiente de variação, pois, se o CV(%) for muito elevado, pode ser que a média não seja melhor medida para representar os dados, devido à variabilidade em torno dela (MARTINEZ, 2015).

Supondo que, no curso de Ciências Biológicas, a média da turma A, na disciplina de Bioestatística, é 6,5, e o desvio padrão 1,2, e, na turma B, a média é de 6,8, e o desvio padrão é de 2,0, qual das duas turmas tem menor variabilidade dos dados? Determine, por meio do Coeficiente de variação. Para resolução, basta observar que já temos a média calculada e o desvio padrão também, é, simplesmente, calcularmos o CV (%).

Para turma A, temos:

Já para turma B, temos:

Portanto, a turma que tem uma variabilidade menor é a turma A, em que o CV foi de 18,46%.

Observe um resumo dos cinco passos para o Cálculo do Coeficiente de Variação. Seguindo este passo a passo, temos o exemplo na Figura 7.

Figura 7 - Passos para cálculo do coeficiente de variação / Fonte: o autor.

Também podemos ter interesse em calcular: variância, desvio padrão, em dados que aparecem em tabelas de frequências. Vejamos a seguir:

a) Cálculo das medidas de variabilidade em tabelas de frequências sem intervalo de classes: as notas de 30 alunos do curso de Ciências Biológicas estão apresentadas na distribuição de frequências a seguir:

Tabela 14 - Notas de 30 alunos do Curso de Ciências Biológicas

Fonte: o autor.

Aprofundando

O primeiro passo é sabermos a média, antes de calcular a variância amostral, para isso, temos:

Agora que já sabemos a média, utilizaremos a equação a seguir:

Em que:
S2 = Variância Amostral
Xi = Cada valor/elemento
X = média amostral
n −1= Número de elementos (menos 1)
Σ = Somatória
Fi = frequência

Para facilitar nosso cálculo, abriremos uma coluna a mais em nossa distribuição de frequência e inseriremos o numerador da equação da variância, conforme Tabela 15.

Tabela 15 - Notas de 30 alunos do Curso de Ciências Biológicas

Com os dados da somatória de (). XX fi i − 2, substituiremos na equação:

Agora que temos o resultado e substituindo o valor “28,3” encontrado na tabela, por meio da coluna (). XX fi i − 2, temos:

Com o resultado da variância, conseguimos calcular o desvio padrão:

Podemos calcular o coeficiente de variação:

b) Cálculo das medidas de variabilidade em tabelas de frequências com intervalo de classes:
As notas dos alunos de uma turma de Ciências Biológicas estão apresentadas na tabela a seguir. Determine o CV.

Tabela 16 - Distribuição de frequências referente às notas de alunos do Curso de Ciências Biológicas (com intervalo de classes)

Para isso, calcularemos na sequência:
Média amostral.
Variância amostral.
Desvio padrão amoral.
Coeficiente de variação.

Iniciaremos calculando a variância amostral. Assim, para o seu cálculo, a equação utilizada para tabelas sem ou com intervalo de classes, é a mesma que acabamos de ver. A única diferença na prática é que: em uma distribuição de frequências com intervalo de classes, nosso “Xi” será o ponto médio, e não simplesmente a variável estudada. Lembre-se de que o ponto médio é fundamental para se calcular a média desse tipo de distribuição de frequência.

Calculando a média amostral, temos:

Tabela 17 - Distribuição de frequências referente às notas de alunos do Curso de Ciências Biológicas (com intervalo de classes)

Fonte: o autor.

Zoom no Conhecimento

Determinando a média, temos:

Arredondando, temos que a média da turma de Ciências Biológicas é de 6,8. Com o resultado da média, vamos reescrever a tabela, para determinar a variância amostral, para utilizar a equação a seguir:

Com a tabela ajustada, temos:

Tabela 18 - Distribuição de frequências referente às notas de alunos do curso de Ciências Biológicas (com intervalo de classes)

Agora que calculamos a variância na tabela, é só substituir na equação:

Substituindo, na equação, pelos valores encontrados na Tabela 18, temos:

Logo após, determinaremos o desvio padrão:

Agora, com o desvio padrão, podemos calcular o CV(%):

Eu indico

Você sabia que um profissional da área de Biológicas ou da Saúde, também, pode ser um pesquisador? Pode pesquisar na área de meio ambiente, saúde, laboratorial, e é vasto o campo para esse profissional. Nossa Roda de Conversa trará como as medidas de posição e dispersão podem ajudar na interpretação de resultados em uma pesquisa. O vídeo estará disponível no seu ambiente virtual de aprendizagem.

No caso desta turma, com um coeficiente de variação de 86,71%, podemos concluir que há uma dispersão muito grande das notas, e que a média pode não ser a medida ideal para interpretar estes dados. Mas quando olhamos para os dados com mais cautela, temos alunos que tiraram 3,0; 4,0; 5,0; 10. E o que isso quer dizer? Como conclusão, temos que essa turma apresenta uma grande dispersão no quesito nota, porque o resultado encontrado de 86,71% é superior a 50%. Isso quer dizer que existem alunos que estão indo bem na disciplina, mas também existem alunos que não estão aprendendo.

VOCÊ SABE RESPONDER?

Assim, podemos refletir: com tanta dispersão, o que posso melhorar para que todos tenham um aprendizado? As medidas de dispersão podem ajudar neste caminho. Agora que temos os dados em mãos, podemos trabalhar para melhorar a maneira de ensinar nesta turma.

Eu indico

Você sabia que a área da Biologia, além das questões ambientais, educacionais, engloba a área da saúde? Assim, você pode consultar periódicos com aplicação da Bioestatística, e convido a fazer as leituras dos artigos a seguir. Clique aqui para ler.

Novos desafios

Estudante, finalizamos compreendendo o processo pelo qual as medidas de posição, as separatrizes e a dispersão podem ajudar a trabalhar melhor com os dados e auxiliar no processo decisório. Como educadores e profissionais da saúde, temos que ter a consciência da importância da Bioestatística, pois, como vimos, ela traz a preocupação de entender como os dados podem trazer indicativos para um professor em sala de aula.

A partir das medidas de posição, você conseguirá trabalhar com seus dados, entendendo o com portamento dos mesmos, e com as medidas de dispersão, como você percebeu, conseguimos entender se a média é representativa, ou não, para o conjunto de dados. Dentro da Bioestatística, você poderá observar os resultados de sua pesquisa sendo uma ferramenta, essencial para a tomada de decisões, e que estará presente no seu futuro profissional.

Espero que tenha tirado máximo proveito desse conteúdo.

REFERÊNCIAS

BASTOS, J. L. D.; DUQUIA, R. P. Medidas de dispersão: os valores estão próximos entre si ou variam muito? Notas de Epidemiologia e Estatística. Scientia Medica, Porto Alegre, v. 17, n. 1, p. 40-44, jan./ mar., 2007. Disponível em: https://webcache.googleusercontent.com/search?q=cache:pxyqpAQBmGY

J:https://revistaseletronicas.pucrs.br/ojs/index.php/scientiamedica/article/download/1650/1845/+&cd=2&hl=pt-BR&ct=clnk≷=br. Acesso em: 17 maio 2021.

CRESPO, A. A. Estatística. 19. ed. São Paulo: Atlas, 2009.

INEP. Sinopse Estatística da Educação Básica 2019. Brasília: Inep, 2020. Disponível em: http://portal. inep.gov.br/sinopses-estatisticas-da-educacao-basica. Acesso em: 18 maio 2021.

MARTINEZ, E. Z. Bioestatística para os cursos de graduação da área da saúde. São Paulo: Blücher, 2015. Disponível em: https://pt.slideshare.net/bookcadastro/9788521209027. Acesso em: 18 maio 2021.

PARENTI, T. M. S.; SILVA, J. S. F. da.; SILVEIRA, J. Bioestatística. Porto Alegre: SAGAH, 2017.

RODRIGUES, C. F. S.; LIMA, F. J. C. de.; BARBOSA, F. T. Importância do uso adequado da estatística básica nas pesquisas clínicas. Artigo de Revisão. Revista Brasileira de Anestesiologia, n. 67 v. 6, p. 619-625, 2017. Disponível em: https://www.scielo.br/pdf/rba/v67n6/pt_0034-7094-rba-67-06-0619. pdf. Acesso em: 18 maio 2021.