MODELAGEM DE ATENÇÃO AUDIOVISUAL EM VÍDEOS IMERSIVOS.
Modelos de Atenção AudioVisual, Eye Trancking, Videos 360º, Mapas de Saliência.
Vídeos omnidirecionais são vídeos que permitem que um observador se sinta realmente imerso em determinada cena. Esse tipo de mídia oferece uma visualização envolvente onde o observador escolhe para onde quer olhar. Como se trata de uma tecnologia bastante atraente para modernas aplicações de realidade virtual, várias pesquisas tem voltado atenção especial para a verificação da qualidade destes vídeos. O fato desse tipo de mídia ser esférica implica no aumento da taxa de transmissão e de compressão maior quando comparados aos tradicionais vídeos 2D. Conciliar a alta taxa de transmissão com um nível aceitável de qualidade é uma tarefa difícil. O cuidado com a qualidade da informação requer estratégias de codificação específicas para vídeos 360º e isso tem sido temática de interesse no meio científico. A necessidade da avaliação da qualidade visual (VQA) impulsiona os estudos em modelagem de atenção visual, que são modelos computacionais capazes de definir a previsão da região de visualização (viewports) de um observador. Atualmente, várias pesquisas tratam de modelos de atenção visual específicos para vídeos esféricos, porém não levam em consideração as características sonoras do vídeo. Pesquisas recentes comprovaram que o áudio perturba o desempenho de modelos de atenção visual em vídeos tradicionais (2D). A proposta desta pesquisa pretende cobrir uma das lacunas da literatura de forma a contribuir para a área de modelagem de atenção audiovisual em vídeos imersivos. Melhorias em modelos de atenção visual podem colaborar em ganho de taxas de transmissão e de compressão de dados, já que com a possibilidade de prever a região que atrai a atenção de um observador é possível também identificar as regiões que não requerem alta qualidade visual, baseado na percepção de quem observa. Com o desenvolvimento e conclusão deste trabalho, pretende-se responder alguns questionamentos, como por exemplo: os mapas de fixação são perturbados quando se leva em consideração as características sonoras em vídeos 360º? As viewports dos vídeos 360o que atraem a atenção de um observador são as mesmas quando este assiste a uma cena com áudio e sem áudio? Para que seja possível responder a estes e a outros questionamentos, salienta-se o objetivo principal desta pesquisa: propor um modelo computacional de atenção audiovisual para vídeo 360º baseado em dados de rastreamento ocular. Para que se verifique a eficiência do modelo proposto, será necessário realizar comparação com os modelos disponíveis da literatura e com dados de referência coletados em experimento.