Prevendo Peptídeos de Penetração Celular com Deep Learning explorando descritores
moleculares baseados em sequência e estrutura
Peptídeos de Penetração Celular. Descritores Moleculares. Bioinformática.
Quimioinformática. Aprendizado Profundo. Aprendizado de Máquina.
Os pepetídeos de penetração celular compreendem um grupo de aminoácidos curtos com capacidade de atravessar naturalmente a bicamada lipídica que protege as células, compartilhando propriedades físico-químicas e estruturais, e possuindo diversas aplicações farmacêuticas, particularmente a entrega desubstâncias terapêuticas às células. Ao longo do tempo, as investigações sobre descritores moleculares baseados em sequência e estrutura peptídica proporcionaram não apenas uma melhoria no desempenho dos classificadores in silico, com uma menor complexidade computacional devido seleção destes atributos na construção de conjuntos de descritores moleculares, mas também uma melhor compreensão sobre a permeabilidade da membrana. Adicionalmente, o emprego de novas técnicas de aprendizado de máquina promove melhor performance nas classificações, como a construção de modelos ensemble por meio da combinação de estimadores, o uso de aprendizagem profunda, a utilização de técnicas de tratamento de overfitting e busca de hiperparâmetros. Neste estudo, foram investigadas as propriedades moleculares quantidade de nitrogênio, quantidade de oxigênio e momento hidrofóbico na escala de Eisenberg em conjunto com outros descritores baseados em sequência e estrutura peptídica que são explorados no estado da arte para prever peptídeos que penetram a membrana celular. O classificador ConvBoost-CPP proposto, utilizando as propriedades moleculares mencionadas, combina as estimativas de uma Rede Neural Convolucional aprimorada com as de um modelo XGBoost resultando na superioridade do ConvBoost-CPP em relação a classificadores baseados em machine learning e deep learning anteriormente publicados. Ademais, o desenvolvimento de um conjunto contendo quantidade de nitrogênio, quantidade de oxigênio e momento hidrofóbico na escala de Eisenberg adicionados à dez descritores moleculares resultou em um aumento na acurácia de 88% para 91,2% na validação cruzada e 82,6% para 91,3% em teste independente.