Classificação de Dados Textuais Não Estruturados: Um Estudo de Caso na Área da Segurança Pública
Aprendizado de Máquina. Dados Não Estruturados. Classificação de Textos. Segurança Pública. Boletins de Ocorrência Policial. Crimes de Injúria. Comunidade LGBTQIA+.
O crescente volume de dados não estruturados, como notícias, postagens e documentos diversos, impõe desafios significativos para diversos setores, especialmente para os órgãos de segurança pública, devido à complexidade na análise e extração de informações relevantes. Por exemplo, a falta de padronização nos boletins de ocorrência policial (BOs) torna ainda mais complexa a classificação precisa dos crimes, identificação do público-alvo e compre- ensão das motivações por trás dos delitos. Este estudo propõe, então, um método para agilizar a classificação de contexto em BOs, empregando aprendizado de máquina. Neste primeiro esforço, o objetivo é construir modelos computacionais para categorizar crimes de injúria direcionados, ou não, à comunidade LGBTQIA+. Assim, dois experimentos utilizando relatos de crimes de injúria fornecidos pela Polícia Civil do Estado do Pará, sem e com ruído nos dados, foram realizados com os algoritmos supervisionados Support Vector Machine, Random Forest, Logistic Regression e Gradient Boosting. Os resultados obtidos destacam o potencial do aprendizado de máquina para otimizar o processo de classificação de BOs, sendo que os algoritmos Random Forest e o Gradient Boosting apresentaram melhor desempenho, com diferença significativa entre os dois experimentos. A abordagem proposta mostra-se aplicável em cenários reais e capaz de contribuir substancialmente para o trabalho das autoridades policiais.