Seleção de Características Baseada em Clusterização para Melhorar a Detecção de Ataques em Redes de Computadores
Seleção de Características;
Aprendizado de Máquina;
Clusterização;
Segurança em Redes de Computadores.
Com o grande crescimento das ameaças à segurança de redes de computadores, protegê-las tem se mostrado uma tarefa cada vez mais desafiadora. Diversas abordagens de sistemas de detecção intrusão (IDSs) baseadas em Aprendizado de Máquina (AM) tem sido propostas para melhorar o desempenho de detecção de vários tipos de ataques de rede. No entanto, muitas das características extraídas e usadas por um IDS são redundantes e podem ser substituídas por outras, ou são irrelevantes e não contribuem para o processo de Aprendizado de Máquina. Os métodos tradicionais de seleção de características são baseados em abordagens supervisionadas e requerem uma grande quantidade de dados rotulados para serem aprendidos. Entretanto, no contexto de segurança, essas informações muitas vezes não estão disponíveis ou são muito difíceis de obter. Assim, reduzir a dimensionalidade das características sem usar rótulos permite que o AM seja uma opção mais viável para cenários do mundo real. Este trabalho propõe um método de seleção de caraterística não supervisionado baseado em clusterização que busca lidar com o problema da dimensionalidade, removendo características redundantes e irrelevantes no contexto de detecção de ataques de rede. Com a busca bidirecional, nossa proposta usa o k-Means e a métrica Sillhouette para selecionar as melhores características de rede. Além disso, esta pesquisa objetiva investigar o comportamento da seleção de característica proposta e de outros métodos tradicionais, em diferentes cenários de aplicação, descobrindo inferências sobre os ataques de redes e identificando as características que possibilitem uma melhor detecção destes ataques. Os resultados obtidos em três estudos de casos demonstram que a proposta melhora o desempenho de classificadores em diversos cenários de segurança, como a detecção e identificação de ataques de rede, inclusive para ataques com poucos dados disponíveis.