Técnicas de Balanceamento de Dados para Métodos de Aprendizado de Máquina Aplicados à Detecção de Anomalias no Consumo de Energia Elétrica
Furto de Energia Elétrica. Fraude de Energia Elétrica. Aprendizado de Máquina. Deep Learning. Dados desbalanceados.
O furto ou fraude de eletricidade são as principais causas de perdas não técnicas de energia elétrica, algumas consequências dessas perdas são: danos às concessionárias de energia, redução de lucros e aumento do preço da energia para outros consumidores. Os métodos de Aprendizado de Máquina e \textit{Deep Learning} tem ganhado destaque na detecção de anomalias no consumo de energia elétrica. Uma base de dados que contém anomalias no consumo em geral está desbalanceada, o que abre possibilidade para explorar técnicas de balanceamento de dados que não foram exploradas em trabalhos anteriores. Assim neste trabalho os classificadores Regressão Logística (RL), \textit{Random Forest} (RF), Máquina de Vetores de Suporte (\textit{Support Vector Machine} - SVM), Rede Neural Artificial (RNA) e Rede Neural Convolucional (\textit{Convolutional Neural Network} - CNN) foram aplicados sem balanceamento e com diferentes estratégias para balancear os dados: aprendizado sensível ao custo, sobreamostragem aleatória, subamostragem aleatória, subamostragem baseada em k-\textit{medoids}, \textit{Synthetic Minority Oversampling Technique} (SMOTE) e sobreamostragem baseada em \textit{cluster}. Os classificadores combinados com essas estratégias foram avaliados usando métricas como \textit{Area Under ROC Curve} (AUC) e F1-\textit{score}, porque somente a acurácia não é suficiente para dados desbalanceados. Nos resultados, ao se comparar os diferentes métodos de Aprendizado de Máquina e \textit{Deep Learning} ou o mesmo método com diferentes técnicas de balanceamento de dados, determinadas combinações atingiram resultados consideravelmente melhores do que outras.