eu
João Vasconcelos Costa
Espaço de conversa de um epicurista ou, pretensiosamente, a sabedoria (?) de/dos 60s. Açoriano, muitos anos investigador científico, depois professor universitário, passando por diretor de uma instituição de investigação e ensino, tudo isto com algum trabalho feito de estudo da educação superior. Hoje, novamente com responsabilidades de direção universitária. Albergando aqui a perplexidade angustiada da falta de perspetivas de concretização de ideais nunca realizados. Também, mais prosaicamente, o gosto de bem comer. E peripatético, que isto de ficar sentado é coisa de velhos.
 

Provas de escolha mÚltipla

João Vasconcelos Costa

Há dias, escrevi um apontamento sobre os resultados do meu último exame, sob a forma de prova de escolha múltipla (PEM). Um leitor, interessado, pediu-me informações sobre a técnica de PEM e referências bibliográficas. Estas, não pude fornecer. Li muito sobre isto, mas em livros da biblioteca do meu velho instituto. Tomei foi muitas notas, sempre acrescentadas por estudos posteriores e pela minha própria experiência pessoal e aplicação de algumas regras estatísticas básicas. Respondi ao meu leitor e fiquei a pensar se não valeria a pena escrever sobre isto, apesar de não ser perito em docimologia.

Há muitos anos, ainda estudante, comprei um excelente livro de nefrologia. O que mais me encantou foi um grande capítulo final, de PEM. Desde então, passando a professor, fiquei adepto da metodologia PEM e sempre a usei. É objectiva, permite avaliar capacidades diversas, desde a simples informação à compreensão das teorias, modelos e mecanismos, até mesmo à resolução de problemas. Permite cobrir, em tempo compatível com um exame, praticamente toda a matéria. É hoje acessível a tratamento estatístico computorizado, ajustando a posteriori a prova à realidade da aprendizagem dos alunos (e ao ensino do professor). E, confesso-me comodista, evita-me as muitas horas de correcção fatigada de provas convencionais – lembrando que o cansaço afecta a avaliação objectiva.

Reconheço também inconvenientes. O mais importante é que, em tempos do paradigma de Bolonha, a PME não permite a avaliação de competências importantes: a comunicação, a qualidade e concisão da escrita, a expressão da elaboração das ideias. Compenso isto com outros componentes de avaliação, desde os relatórios das práticas até um "pequeno" trabalho que bonifica a prova teórica final entre 0 e 1 valor. Pequeno porque limitado a duas páginas A4, mas muito exigente. Formulo a pergunta logo na primeira aula e, em geral, ninguém a percebe. Vão compreendendo aos poucos, à medida que avança a aprendizagem, e podem entregar o trabalho até ao dia do exame. O tema põe em jogo toda a compreensão do essencial da disciplina. Para os colegas da minha área, dou os últimos exemplos, em biologia molecular e em virologia, respectivamente: "O que devemos a Crick e Watson?" (claro que não é só descrever a estrutura do DNA!) e "Os vírus são seres vivos?".

Outro problema central, que não domino, é o da aplicabilidade da PEM a áreas disciplinares diferentes. Nas ciências exactas e naturais, não há dúvidas. À primeira vista, não sei porque não nas ciências sociais, talvez completada com outro tipo de provas, mais avaliadoras da discursividade. Já quanto às humanidades, parece-me haver limitações consideráveis das PEM. Encontrei na net um bom exemplo de aplicação às ciências humanas.

Referi-me a comodismo, na correcção da prova. No entanto, é o contrário na sua elaboração, que é de grande complexidade e exige muito domínio da técnica de PEM.

1. A concepção de uma PEM

A prova deve conter o mínimo de 40 perguntas e até há quem ache isto muito pouco. Não deve ter duração superior a 1,5 vezes o número de perguntas, em minutos. A minha experiência é a de protestos generalizados em relação a esta limitação de tempo, aliás generosa (preferia um minuto por pergunta), mas também a verificação prática de que, quanto mais tempo usam para a prova, mais os alunos se embaraçam e "corrigem" respostas anteriormente certas.

A prova deve conter um número equilibrado de perguntas referentes a conhecimentos informativos e a resolução de problemas ou compreensão de teorias, modelos ou mecanismos. Para mim, é o maior desafio. A tendência geral pode ser a de, mais facilmente, elaborar perguntas com respostas apenas de tipo informação. Com treino, garanto que é possível elaborar perguntas bem apelativas à inteligência e capacidade de raciocínio. Até tenho sempre o cuidado de incluir uma página em branco, para os alunos poderem desenhar esquemas ou fazer contas. Para isto, já me pediram para ficar com o telemóvel, mas é coisa que não consinto, atendendo aos SMS. À margem, os meus alunos, que julgo que me consideram um professor compreensivo, sabem bem que, no exame, é "tolerância zero" com a fraude. Não há cartão amarelo, é vermelho directo, felizmente coisa raríssima.

As cinco (número mais usado, mas não obrigatório) respostas à escolha devem conter, para além da resposta correcta, respostas que o aluno médio deve eliminar (distractores absolutos), em número de 2 a 3, e respostas com alguma dificuldade de distinguir da resposta correcta (distractores relativos).

A raiz da pergunta deve conter o essencial da questão, sendo as respostas o complemento da questão formulada na raiz. Infelizmente, mostra-me a experiência que muitos alunos começam por não saber interpretar a pergunta, frequentemente por mau domínio do português ou da lógica (a diferença básica entre "e" e "ou", acreditem, é um dos seus grandes problemas!).

A pergunta deve ser formulada com o máximo de clareza e simplicidade e não pode desviar a atenção para outras questões. Deve-se evitar perguntas na negativa. Obviamente, as perguntas devem ser independentes, de forma a que a resposta a uma não influencie a resposta a outra. A ordenação final das perguntas deve ser aleatória e nunca seguindo a ordenação do programa.

São admissíveis as respostas "todas as anteriores são verdadeiras" ou "todas as anteriores são falsas" mas só quando nenhuma das anteriores for obviamente exclusiva desta resposta global.

Todas as respostas devem ser relativamente lógicas e plausíveis e devem ser homogéneas em tipo e extensão. As respostas devem ser distribuídas aleatoriamente na ordem das respostas (usar uma tabela de números aleatórios). Por exemplo, em Excel, usar a função RANDOM, com resultados entre 0,x e 9,x divididos por 5 e arredondados à unidade.

2. Perguntas eliminatórias?

Não fazem parte da técnica padrão, mas adoptei-as. Verifiquei que, alguns alunos conseguiam passar respondendo erradamente a perguntas tão básicas que não é possível compatibilizar com um domínio mínimo da matéria. Actualmente, faço três perguntas iniciais, bem identificadas e destacadas, a que não se pode errar. Claro que têm de ser perguntas a que qualquer estudante deve responder de olhos fechados. Dou exemplos, em áreas diferentes: "quem escreveu os Lusíadas?"; "9 é número primo?"; "o Cabo da Boa Esperança separa que oceanos?"; "a aceleração da gravidade depende da latitude?"; "a inflação designa a taxa de desemprego?". Infelizmente, meia dúzia reprova nesta eliminatória. Ainda não tive ocasião de reflectir bem sobre tão estranho facto. Curiosamente, ultrapassada a fasquia, só excepcionalmente é que os restantes reprovam no resto do ponto.

Os leitores mais versados em estatística verão adiante que eu teria outras formas de avaliar estas situações. A vantagem é que esta minha versão é mais educativa para os próprios alunos, a quem dou sempre, no fim, a correcção dessas perguntas.

3. Análise estatística a posteriori

Os meus alunos gostavam de fazer a sua estratégia de risco com base na noção que têm de terem ou não garantido metade das respostas certas. Ficam muito surpreendidos quando lhes digo que não sei qual é a cotação de cada pergunta. Eles é que a vão decidir, conforme o que responderem.

Com efeito, a estrutura valorativa da PME depende das próprias respostas. Para isto, em termos práticos, tenho de entrar numa folha de cálculo a matriz de todos os alunos e de todas as respostas (em termos de certo/errado, ou 1/0, considerando como errada a pergunta deixada em branco). Feito isto, calculo, para cada pergunta, dois parâmetros, que me dizem da adequação da prova à chamada estrutura de Guttman:

  • coeficiente de dificuldade: i1 = (RH + RL) / A x 100, sendo RH o número de respostas certas no grupo dos 27% de alunos melhor classificados, RL o número de respostas certas no grupo dos 27% de alunos pior classificados e A o número de alunos. Também já vi usar o valor de 33,3% em vez de 27%.
  • coeficiente de discriminação: i2 = 2 x (RH + RL) / A

Devem ser eliminadas e não tidas em conta para o resultado da prova as perguntas com i1 menor que 20 (para alguns 30) ou maior que 80 (idem, 70) e as perguntas com i2 menor do que 0,15 (0,2 ou até mesmo 0,3, para os mais puristas). Para efeitos do ponto seguinte, designo como Nf o número final de perguntas, depois da eliminação, neste passo, de algumas perguntas do conjunto inicial de N perguntas.

4. A classificação

Um aspecto essencial da PEM é o da correcção da possibilidade de adivinha. Uma forma prática, dissuasora, é a penalização por respostas erradas. A minha experiência vai no sentido de a maior proporção de respostas erradas por adivinha óbvia, por vezes delirante (introduzo sempre nas minhas PEM um forte componente humorístico, para meu gozo e deles) vir dos estudantes fracos. Os mais inteligentes preferem não arriscar na penalização. No meu último exame, a média da relação entre respostas erradas e respostas certas foi apenas de 0,16. O que marcou a diferença das classificações foi o número de respostas em branco, que não penalizam.

Cada resposta errada faz descontar 1/(r-1), sendo r o número de respostas por pergunta. Num ponto de 5 respostas por pergunta, cada resposta errada desconta 1/4 da cotação média de cada pergunta. A fórmula de classificação é X = (C – E / (1/(r-1)) x 20 / Nf sendo C e E o número de respostas certas e erradas, respectivamente.

Na maioria dos casos, a classificação fica-se por aqui. Vou mais longe, introduzindo o factor limiar de aprovação (L). Na fórmula anterior, ele é o tradicional 10, mas, correctamente, não é assim, porque, mais uma vez, depende da estrutura do ponto. Tem de se calcular este limiar, com base no índice de dificuldade prévia de cada pergunta, iD, (não confundir com o índice de dificuldade calculado a posteriori, como descrito acima) conforme o número n de respostas que o aluno médio tem obrigação de eliminar:

n=0            iD =0,2
n=1            iD =0,25
n=2            iD =0,33
n=3            iD =0,5
n=4            iD =1

O limiar de passagem (L) é 20 x ∑ iD / N, sendo N o número de perguntas. Vê-se portanto que, para passagem com 10 valores, a média das respostas que o aluno deve eliminar obrigatoriamente é de 3 por pergunta.

Se esta regra for cumprida, a fórmula anterior de classificação final é válida, para o limiar convencional de 10. Se não, a classificação final deve ser calculada como X' = 10 x (1 + (X – L) / (20 – L))

Finalmente, uma coisa muito prática que o meu filho me ensinou há dias, perante a minha dificuldade em classificar um ponto muito "sujo". Permito a emenda de respostas já dadas. Normalmente, a resposta é uma circunferência à volta da letra da resposta. Se querem alterar, riscam e fazem nova circunferência. Às vezes, dá grande confusão. Alguns professores do meu filho usam uma folha de rosto, com os números das perguntas seguidos por uma grande linha, em que os alunos vão escrevendo todas as letras que entendam, valendo apenas a última. Pode é causar erros na passagem da folha de perguntas para a folha de rosto.

Nota final – Tenho uma folha Excel para cálculo de tudo isto. Posso fornecê-la a quem estiver verdadeiramente interessado, mas aviso que vai demorar uns dias, porque exige que escreva um pequeno manual sobre algumas operações não automáticas.

Segunda nota - Este artigo suscitou uma troca de impressões muito interessante, baseadas em experiências pessoais. Com autorização dos meus correspondentes, vou editá-la e publicá-la. Entretanto, chamaram-me a atenção para um erro, que importa corrigir desde já:

A função RAND () não usa uma tabela de nºs aleatórios mas um gerador de nºs pseudo-aleatórios (como acontece em todo o software que conheço), pelo que os resultados desta função seguem uma distribuição uniforme contínua no intervalo [0, 1]. Por esta razão o processo que descreve não garante que obtenha valores discretos entre 1 e 5 com igual probabilidade. É fácil de ver que o arredondamento conduz a uma menor probabilidade de sair 1 e uma muito maior de sair 5. Assim, a expressão correcta no Excel é: INT [RAND x 5 +1].