UMA ANÁLISE DO USO DE INFORMAÇÕES MULTI-STREAM NO MAPEAMENTO DO PSNR PARA PONTUAÇÃO PERCEPTUAL
Avaliação de qualidade visual; redes neurais convolucionais; informações multi-stream.
A previsão da qualidade visual é crucial nos sistemas de imagem e vídeo. As métricas de qualidade de imagem com base no erro quadrático médio prevalecem no campo, devido à sua simplicidade matemática, mesmo que não se correlacionem bem com a percepção visual humana. As últimas realizações na área sustentam que o uso de redes neurais convolucionais (CNN) para avaliar a qualidade visual perceptual é uma tendência clara. Resultados em outras aplicações, como detecção de desfoque e remoção de chuva, indicam que a combinação de informações de diferentes escalas melhora o desempenho da CNN. No entanto, até onde sabemos, a melhor maneira de incorporar informações em várias escalas na caracterização da qualidade visual ainda é uma questão em aberto. Assim, neste trabalho, investigamos a influência do uso de informações em várias escalas para prever a distorção da imagem. Especificamente, propomos uma rede densa de fluxo único que estima um parâmetro espacialmente variante de uma métrica de qualidade a partir da imagem de referência. O método proposto alcançou uma redução de 36,37% e 69,45% para o número de parâmetros e FLOPs, respectivamente, e seu desempenho é comparado com as abordagens concorrentes usando um banco de dados público de imagens.