
Uma das tarefas que é considerada das mais difíceis para a maioria dos alunos no momento da investigação, prende-se com a análise quantitativa de dados estatísticos, principalmente as que não dizem respeito a medidas de tendência central e de dispersão.
Para a realização desta tarefa, foi-nos proposto um desafio, onde nos era solicitado o uso de algumas técnicas de estatística inferencial, tendo em vista a exploração de possíveis hipóteses de relações entre as respostas obtidas de um questionário aplicado por uma investigadora. De facto, é na leitura mais profunda dos dados recolhidos, recorrendo à inferência estatística, que podemos generalizar algumas conclusões para a população que estamos a estudar, já que a estatística descritiva apenas nos permite a caracterização da amostra.
Assim, o primeiro passo a tomar, após a recolha dos dados, é a construção da base de dados com a qual vamos trabalhar. Um dos programas mais usados para a análise estatística é o SPSS (Statistical Package for the Social Sciences) e seria com base neste programa que iriam ser introduzidos os dados recolhidos pela investigadora. Primeiro seria feita a codificação das diferentes perguntas (variáveis) do questionário, de modo a colocar na folha do “variable view” cada uma das variáveis e as suas respectivas características. Depois seleccionaria a folha “data view” para introduzir os dados relativos a cada sujeito, ou então importaria esses mesmos dados, caso eles já estivessem numa folha de excel, de preferência onde constassem o mesmo nome das variáveis, de forma a facilitar todo o processo de importação.
O segundo passo seria no sentido de dar resposta aos três desafios colocados para a segunda fase do tema 4.
Problema 1 – Relação entre a variável “utilização do computador (diária e quase diária)” e as variáveis “utilização do computador para escrever textos” e a “utilização do computador em ambientes virtuais de aprendizagem”.
Para este primeiro problema, a primeira tarefa a realizar será “congelar” todos os indivíduos que não tenham respondido na pergunta 28 aos seguintes pontos: 1) uso diário; 2) uso quase diário. Assim, a análise irá incidir em 169 dos participantes do estudo (74 que usam todos os dias e 95 que usam quase todos os dias), no que se refere a duas variáveis, o que implica o uso do mesmo teste para cada uma dessas variáveis.
As perguntas a colocar, para cada uma das variáveis seriam as seguintes:
1. A proporção de indivíduos que usa o computador diariamente dá maior uso à escrita textos no computador do que aqueles que usam quase todos os dias?
a. H0:p(todos dias) = p(quase todos dias); H1:p(todos dias) > p(quase todos dias)
2. A proporção de indivíduos que usa o computador diariamente dá maior uso a ambientes virtuais de aprendizagem do que aqueles que usam quase todos os dias?
a. H0:p(todos dias) = p(quase todos dias); H1:p(todos dias) > p(quase todos dias)
Uma vez que estamos na presença de tabelas de contigência (neste caso 2x2), poderíamos usar o teste do Qui-quadrado se fossem cumpridas as seguintes condições:
· N ≥ 20;
· Todos os valores esperados (E i ) Superiores a 1;
· Pelo menos 80% E i ≥5.
1. A proporção de indivíduos que usa o computador diariamente dá maior uso à escrita textos no computador do que aqueles que usam quase todos os dias?
a. H0:p(todos dias) = p(quase todos dias); H1:p(todos dias) > p(quase todos dias)
2. A proporção de indivíduos que usa o computador diariamente dá maior uso a ambientes virtuais de aprendizagem do que aqueles que usam quase todos os dias?
a. H0:p(todos dias) = p(quase todos dias); H1:p(todos dias) > p(quase todos dias)
Uma vez que estamos na presença de tabelas de contigência (neste caso 2x2), poderíamos usar o teste do Qui-quadrado se fossem cumpridas as seguintes condições:
· N ≥ 20;
· Todos os valores esperados (E i ) Superiores a 1;
· Pelo menos 80% E i ≥5.
Caso não houvesse cumprimento dos pressupostos, e como estamos na presença de tabelas 2X2, em alternativa poder-se-ia usar o teste não paramétrico de Fisher.
Relativamente aos resultados o valor para rejeitar H0 tem que ter um p-value inferior a 0,05, de modo a podermos afirmar que a associação encontrada entre as duas variáveis é significativa. Contudo, para que possamos ter um olhar mais crítico, seria interessante ter um gráfico de barras na ajuda da interpretação dos resultados, de forma a podermos verificar, mesmo não havendo resultados significativos, se essa associação poderia ser considerada razoável ou não.
Problema 2 – Analisar se existem diferenças significativas entre os professores que nunca utilizaram computadores com os alunos e os que já utilizaram, no que se refere à opinião que estes têm relativamente a 4 variáveis.
Neste segundo problema, antes de se proceder à análise estatística, tem que se agrupar todos os professores que responderam na questão 73 outra resposta que não seja “nunca utilizaram o computador com os alunos”, ou seja, nesse agrupamento iríamos colocar todos os professores que tivessem respondido “algumas vezes por ano”, “algumas vezes por mês” e “algumas vezes por semana”. Para além disso temos que “congelar” as respostas dos 5 professores que não responderam a esta questão. Ficamos assim com duas amostras independentes.
Um outro aspecto a referir, prende-se com o facto das variáveis que vão ser analisadas estarem formuladas de forma semelhante à de uma escala do tipo Likert. Nas Ciências Sociais há uma grande discussão sobre como podemos definir este tipo de dados: qualitativos ou quantitativos? Para os estatísticos mais ortodoxos este tipo de escala tem que ser enquadrada como variável qualitativa, mas é comum e aceitável nas Ciências Sociais considerar-se este tipo de dados como variáveis quantitativas. De facto este aspecto é essencial porque é a partir deste pressuposto inicial que se define o uso de testes paramétricos ou não paramétricos. Assumindo então que as variáveis analisadas são quantitativas, podemos usar, à partida, um teste paramétrico. Contudo, há outros pressupostos que temos que ter em conta:
· Variável dependente quantitativa;
· Amostras independentes;
· Variável Dependente ~ N(μ,σ);
· σ1 = σ2 (variâncias homogéneas).
· Variável dependente quantitativa;
· Amostras independentes;
· Variável Dependente ~ N(μ,σ);
· σ1 = σ2 (variâncias homogéneas).
Um outro aspecto a ter em conta diz respeito ao facto da variável ter uma distribuição normal. Mesmo não tendo aplicado um teste para analisar este aspecto, como por exemplo o do Kolmogorov-Smirnov, a nossa amostra têm um número elevado de participantes (>50), o que nos leva a crer que esta seguirá uma distribuição normal. Quanto à homogeneidade, na aplicação do teste estatístico para verificar se existem diferenças significativas, no SPSS o teste da homogeneidade é feito em simultâneo, o que nos permite olhar para os resultados da linha correcta, de modo a interpretar esses dados.
Deste modo, o teste a aplicar será o t-student. E as perguntas a colocar serão as seguintes:
1. O constrangimento no uso das TIC frente aos alunos é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou)
2. A exigência de novas competências por parte dos professores para o uso das TIC é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou)
3. Os professores que consideram que conteúdos da internet não se adequam à disciplina é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou)
4. Os professores que consideram que as TIC não melhoram a aprendizagem é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou).
1. O constrangimento no uso das TIC frente aos alunos é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou)
2. A exigência de novas competências por parte dos professores para o uso das TIC é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou)
3. Os professores que consideram que conteúdos da internet não se adequam à disciplina é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou)
4. Os professores que consideram que as TIC não melhoram a aprendizagem é igual para quem nunca usou o computador com os alunos e quem já usou
a. H0:μ(nunca usou) = μ(já usou); H1:μ(nunca usou) ≠ μ(já usou).
Uma vez definidas as hipóteses, avançamos para a aplicação do teste. Antes de darmos a indicação para a obtenção do output, define-se o intervalo de confiança a usar. É habitual, neste tipo de testes, o uso de um intervalo de 95%, o que nos leva à existência de uma probabilidade de erro reduzida (5%). Mais uma vez, usamos como nível de significância o α=0,05, o que significa que se o p-value for inferior a esse valor rejeitamos H0 e aceitamos H1, referindo que há diferenças significativas na opinião de quem nunca usou e quem já usou computadores com os alunos. Contudo, se tivermos um resultado 0,10 < p-value ≤ 0,05, podemos afirmar que há uma tendência para que haja diferenças na opinião.
Para melhor interpretação dos resultados, isto é, para referirmos que quem já usou computadores com alunos tem uma posição mais favorável ou desfavorável do que quem nunca usou, temos que recorrer à análise das médias obtidas para cada variável em cada um dos grupos, ou então, de modo a termos uma leitura mais facilitada, o uso de gráficos de médias, que nos permitem uma análise mais imediata dos resultados.
Ainda relativamente a este problema, se não fossem garantidos os pressupostos é necessário usar o teste não paramétrico equivalente ao t¬-student, que neste caso é o Wilcoxon-Mann-Whitney. Por outro lado, se quisessemos analisar na variável independente, cada um dos pontos relativos aos que já usaram computador com os alunos (algumas vezes por ano, algumas vezes por mês, algumas vezes por semana), teríamos que recorrer ao teste ANOVA de medições repetidas. Contudo, julgamos que esta análise seria desadequada devido à discrepância do número de sujeitos que fariam parte de cada amostra:
• algumas vezes por semana – 8,
• algumas vezes por mês – 32,
• algumas vezes por ano – 96,
• nunca usaram – 99.
• algumas vezes por semana – 8,
• algumas vezes por mês – 32,
• algumas vezes por ano – 96,
• nunca usaram – 99.
Problema 3 – Colocação de outras hipóteses.
Para esta última tarefa, a única variável independente que surgiu de imediato, como possível dado para a colocação de hipóteses, esteve relacionado com a idade. Dentro desta variável, poderíamos optar pela reformulação de classes. Assim, teríamos duas hipóteses para a definição de classes, com base no número de inquiridos:
• 1 – 26 aos 35; 2 – 36 aos 45; 3 – 46 aos 55 (retiraram-se as outras duas classes por terem um número reduzido de inquiridos);
• 1 – 18 aos 35; 36 aos 45; 3 – Maiores de 46.
A partir desta definição poderíamos avançar para análises de inferência estatística onde o nosso objectivo fosse no sentido de encontrarmos associações, como analisamos no problema 1. Um possível exemplo a analisar podería estar relacionado com as questões colocadas nos pontos 21 (proporção do uso de ambientes virtuais de aprendizagem) e 26 (proporção do uso de software educativo para inglês).
Nestes dois exemplos teríamos como hipótese: H0: p(idade1) = p(idade2) = p(idade3); H1: Existe pelo menos uma classe de idade que tem uma proporção diferente. O teste a usar seria o do Qui-quadrado caso tivessemos cumprido as exigências anteriormente descritas, ou então o de Fisher caso isso não acontecesse (actualmente já se pode usar no SPSS tabelas que vão para além do 2x2).
Uma outra hipótese seria a análise dos três tipos de formação mais frequente referidos pelos inquiridos (auto-formação; formação com o apoio de pessoas próximas; formação na escola) e algumas das questões relacionadas com o ponto “As TIC na prática lectiva” (da questão 96 à 112). Neste caso seria necessário fazer uma análise de variância multivariada.
Este quadro surge já depois da cadeira de investigação qualitativa e na sequência de um comentário deixado no blog:

Retirado do 3º curso de Estatística Aplicada às Ciências Sociais e Humanas com o apoio do SPSS, Professor Doutor João Maroco
Recursos usados:
Maroco, J. (2003). Análise estatística com utilização do SPSS. Lisboa: Edições Sílabo.
2 comentários:
Pedro,
Em primeiro lugar parabens pelo Blog que pode ser uma boa contribuição para a disseminação das questões associadas à investigação.
Vejo contudo, que neste seu blog, utiliza um slide de minha autoria que utilzo nas mimhas aulas, sem sequer indicar a fonte de onde foi buscar esse "slide".
Teria sido cordial da sua parte identificar a origem e dar crédito ao trabalho de um colega. Naturalmente, não o impederia de usar os materiais que crio e distribuio aos meus alunos.
O meio académico onde nos encontramos agradeceria o bom tom.
João Maroco
Cara Professor João Maroco,
é com muito prazer que tenho um comentário seu no meu blog! :-D Como nesta mensagem que comentou tinha colocado uma anotação bibliográfica de um dos seu trabalho, julguei, na altura, que não fosse necessário colocar mais indicações.
Como a ética é um dos aspectos essenciais na conduta de qualquer investigador/estudioso, farei de imediato a referência ao seu slide, como parte do seu curso de spss.
Espero que esteja tudo bem consigo.
Com os meus melhores cumprimentos,
Pedro Cabral
Enviar um comentário