Las empresas de hoy se enfrentan a retos relacionados con la creciente competencia y rápidos cambios, a los cuales deben adaptarse con el fin de lograr sus metas operacionales. Para poder tomar las decisiones acertadas con respecto a la dirección del desarrollo de la empresa es necesario apoyarlas en los datos. Sin embargo, las bases de datos tradicionales, llamadas también operacionales o transaccionales, no cumplen los requisitos para el análisis de datos.
Los almacenes de datos (bodegas de datos o data warehouses en inglés) por medio del modelo multidimensional ofrecen una mejor comprensión de los datos para fines de análisis y permiten un mejor rendimiento para las consultas complejas necesarias para el soporte de la toma de decisiones. Estos datos pueden ser analizados usando sistemas de procesamiento analítico en línea (OLAP - On-line Analytical Processing). Aunque estos sistemas permiten analizar datos por medio de la manipulación dinámica y agregación automática de los valores, su uso no es suficiente cuando el volumen de datos crece y se requiere automatizar el proceso de descubrimiento de conocimiento.
La minería de datos representa un campo multidisciplinario que ofrece una variedad de técnicas y métodos con el objetivo de aplicarlos a grandes volúmenes de datos en busca de patrones interesantes (no triviales, implícitos, previamente desconocidos y potencialmente útiles) que un ser humano no es capaz de encontrar por medio de la inspección manual de los datos. Este descubrimiento de patrones permite buscar las soluciones más efectivas para el mejoramiento operacional.
Por otro lado, las capacidades de generación y recopilación de los datos han aumentado rápidamente debido a la automatización de los negocios, al uso de los dispositivos electrónicos especializados en recopilación de datos (sensores), al crecimiento del uso de redes sociales, a la realización de diferentes tipos de transacciones en medios electrónicos, entre otros. La extracción, manipulación y análisis de estos datos requiere nuevos paradigmas de almacenamiento y procesamiento que exploran las facilidades de paralelismo en entorno distribuido.