Avaliação automática de questões discursivas: Proposta de uma abordagem para avaliar redações
avaliação automática, questões discursivas, redações, n-gramas, acurácia
Este trabalho apresenta uma proposta de uma abordagem para avaliação automática de questões discursivas, para respostas curtas, ensaios e redações. Foram analisados experimentos de respostas curtas (até um parágrafo), ensaios (mais de um parágrafo) e redações em Português. Ensaios de Filosofia oriundos de uma plataforma virtual de ensino; respostas curtas de Biologia e de Geografia ambas oriundas de um processo seletivo para ingresso no ensino superior; redações oriundas de um processo seletivo de nível superior e também redações de um processo seletivo para ingresso em concurso público, nível técnico. A abordagem proposta segue uma arquitetura de pipeline com cinco passos: seleção de corpus, pré-processamento, geração das variáveis, classificação e avaliação da acurácia. Dentro deste pipeline mostramos diversas nuances dos aspectos tecnológicos, relacionando-os com a acurácia. Existem duas grandes tendências para avaliar questões discursivas: uma é com corpus e medidas de similaridade entre textos e outra é com métodos de extração de conceitos e similaridade semântica entre redes de conceitos, por exemplo, triplas (Sujeito, Verbo, Objeto). Num primeiro momento estudamos a tendência de corpus e similaridade entre texto. Foram exploradas várias medidas de similaridade (e distância) coletadas da combinação de unigramas e bigramas. As listas de n-gramas foram filtradas com técnicas de limpeza, stemmer e remoção de stop word. Para gerar o escore de cada resposta, a partir dos valores numéricos dos n-gramas exploramos dois métodos de classificação: k nearest neighbors (knn) e regressão linear (simples e múltipla). Para as provas de Biologia e Geografia, que foram avaliadas por dois especialistas humanos, o sistema alcançou uma acurácia de 0.81 e 0.86 (Sistema versus Humano – SxH), contra 0.85 e 0.94 entre os avaliadores humanos (Humano versus Humano – HxH). Para a prova de Biologia a acurácia SxH 0.81 é bem próxima da acurácia HxH, 0.85. Este trabalho está em andamento. Até o momento criamos uma base de corpora, compreendendo as cinco provas citadas acima; fizemos um levantamento bibliográfico detalhado das abordagens para avaliação automática de texto; fizemos experimentos com técnicas de similaridade entre textos. Ficando para um segundo momento a exploração das téncicas de aprendizagem de máquina para extrair conceitos (Sujeito, Verbo, Objeto) das respostas e verificar a similaridade semântica entre as redes de conceitos. Além disso, devemos explorar as técnicas de identificação dos elementos do discurso (título, introdução, desenvolvimento e conclusão); coerência e completudo dos argumentos de uma redação. Nos corpora estudados, a abordagem inical resultou em valores positivos e estatisticamente próximos aos dos avaliadores humanos, mostrando que estamos caminhando na direção certa para a avaliação de redações.