En el 2020, cada persona en el mundo generó el equivalente a 1.7Mb de información cada segundo. Según IDC, en este mismo año el “universo digital” alcanzó los 40 trillones de Gb – o 40 Zetabytes en total, en una tendencia de crecimiento que no se desacelerará. Se estima que todos los usuarios de internet generan aproximadamente 2.5 quintllones de bytes al día, y el 95% de las compañías colocan como prioridad número 1 la necesidad de manejar grandes volúmenes de datos estructurados y no estructurados. Las redes sociales, el internet de las cosas y la computación móvil han disparado en los últimos años la generación exponencial de datos en todo momento, industria, caso de uso y geografía. Esta explosión de datos ha empujado una explosión igualmente exponencial de necesidades – y soluciones – de análisis de información, y han sido el génesis para la ciencia de datos, desde el data mining hasta el desarrollo de algoritmos avanzados de aprendizaje de máquina (ML).
Sin embargo, ninguna de estas habilidades analíticas serían posibles sin la tecnología subyacente para modelar, representar, almacenar, recuperar y distribuir grandes volúmenes de datos, tanto estructurados como no estructurados. Este curso es una visión comprensiva a las metodologías, algoritmos y técnicas, así como las tecnologías que hacen posible la gestión de enormes volúmenes de información, partiendo desde la problemática de la representación de la información estructurada y no estructurada, la aplicación de sistemas distribuidos, paralelos y de optimización, hasta la administración de datos no estructurados en forma de bases de datos no relacionales.