Academic Journal

A survey on pre-processing techniques: Relevant issues in the context of environmental data mining

Bibliographic Details
Title: A survey on pre-processing techniques: Relevant issues in the context of environmental data mining
Authors: Gibert, Karina, Sànchez-Marrè, Miquel, Izquierdo, Joaquín
Contributors: Escuela Técnica Superior de Ingeniería de Telecomunicación, Departamento de Matemática Aplicada, Instituto Universitario de Matemática Multidisciplinar, Repositorio Institucional de la Universitat Politècnica de València Riunet, Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa, Universitat Politècnica de Catalunya. Departament de Ciències de la Computació, Universitat Politècnica de Catalunya. KEMLG - Grup d'Enginyeria del Coneixement i Aprenentatge Automàtic
Source: UPCommons. Portal del coneixement obert de la UPC
Universitat Politècnica de Catalunya (UPC)
RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia
Universitat Politècnica de València (UPV)
instname
Recercat. Dipósit de la Recerca de Catalunya
Publisher Information: SAGE Publications, 2016.
Publication Year: 2016
Subject Terms: Artificial intelligence, Knowledge discovery from databases, Matemàtiques i estadística::Matemàtica aplicada a les ciències [Àrees temàtiques de la UPC], 02 engineering and technology, Numerical analysis--Simulation methods, Pre-processing, 68 Computer science::68T Artificial intelligence [Classificació AMS], Matemàtiques i estadística::Anàlisi numèrica [Àrees temàtiques de la UPC], Classificació AMS::68 Computer science::68T Artificial intelligence, Anàlisi de supervivència (Biometria), Àrees temàtiques de la UPC::Matemàtiques i estadística::Estadística matemàtica, 0202 electrical engineering, electronic engineering, information engineering, Survival analysis (Biometry), data quality, 65 Numerical analysis::65C Probabilistic methods, simulation and stochastic differential equations [Classificació AMS], 62 Statistics::62N Survival analysis and censored data [Classificació AMS], Data mining, Anàlisi numèrica, Multidisciplinary approach, Intel·ligència artificial, Àrees temàtiques de la UPC::Matemàtiques i estadística::Anàlisi numèrica, Classificació AMS::62 Statistics::62N Survival analysis and censored data, Data quality, simulation and stochastic differential equations, data mining, environmental systems, Environmental systems, Classificació AMS::65 Numerical analysis::65C Probabilistic methods, simulation and stochastic differential equations, knowledge discovery from databases, Matemàtiques i estadística::Estadística matemàtica [Àrees temàtiques de la UPC], Àrees temàtiques de la UPC::Matemàtiques i estadística::Matemàtica aplicada a les ciències, multidisciplinary approach, Classificació AMS::65 Numerical analysis::65C Probabilistic methods, MATEMATICA APLICADA
Description: One of the important issues related with all types of data analysis, either statistical data analysis, machine learning, data mining, data science or whatever form of data-driven modeling, is data quality. The more complex the reality to be analyzed is, the higher the risk of getting low quality data. Unfortunately real data often contain noise, uncertainty, errors, redundancies or even irrelevant information. Useless models will be obtained when built over incorrect or incomplete data. As a consequence, the quality of decisions made over these models, also depends on data quality. This is why pre-processing is one of the most critical steps of data analysis in any of its forms. However, pre-processing has not been properly systematized yet, and little research is focused on this. In this paper a survey on most popular pre-processing steps required in environmental data analysis is presented, together with a proposal to systematize it. Rather than providing technical details on specific pre-processing techniques, the paper focus on providing general ideas to a non-expert user, who, after reading them, can decide which one is the more suitable technique required to solve his/her problem.
Document Type: Article
File Description: application/pdf
ISSN: 1875-8452
0921-7126
DOI: 10.3233/aic-160710
Access URL: https://upcommons.upc.edu/bitstream/2117/123530/1/AIC710def.pdf
https://riunet.upv.es/handle/10251/82753
http://hdl.handle.net/2117/123530
Rights: URL: http://rightsstatements.org/vocab/InC/1.0/
Accession Number: edsair.doi.dedup.....9797a021470f15d95f712c8a0d67b08d
Database: OpenAIRE
Description
ISSN:18758452
09217126
DOI:10.3233/aic-160710