Publisher's Synopsis
Nos conjuntos de dados do mundo real, existem muitos dados redundantes e contraditórios. O desempenho de um algoritmo de classificação na extração de dados é grandemente afetado por informações ruidosas (ou seja, redundantes e contraditórias). Estes parâmetros não só aumentam o custo do processo de extração, como também degradam o desempenho de deteção dos classificadores. Têm de ser removidos para aumentar a eficiência e a precisão dos classificadores. A extração de dados é um processo de análise de dados que é realizado para grandes volumes de dados. Neste trabalho, propõe-se uma metodologia para avaliar o risco e as questões de segurança dos acidentes com aeronaves. Este trabalho centra-se em diferentes técnicas de seleção de caraterísticas aplicadas ao conjunto de dados de uma base de dados de uma companhia aérea para compreender e limpar o conjunto de dados. Os seguintes avaliadores são CFS, CS, GR, Ganho de informação, Atributo OneR, Transformador PCA, Atributo ReliefF e Atributo SU utilizados neste estudo para reduzir o número de atributos iniciais. Os algoritmos de classificação como Decision Tree (DT), Naive Bayes (NB), Artificial Neural Network (ANN), K-Nearest Neighbour (KNN) e Support Vetor Machines (SVM) são utilizados para prever o nível de aviso do componente como atributo de classe.