Modelaje desde los datos (II)

Vinicio Barrientos Carles | Para no extinguirnos / AUTÓMATOS

El conocimiento de ningún hombre puede ir más allá de su experiencia.
John Locke


En la primera parte de este artículo iniciamos un acercamiento a la novedosa ciencia de datos, en la misiva de establecer un marco de referencia para el modelaje desde los datos, como una alternativa viable para el conocimiento proporcionado por los modelos matemáticos prospectivos y la simulación computacional. Así, mostramos el acercamiento clásico planteado por Drew Conway, que recurre a un esquema conceptual tridimensional, mismo que utiliza la participación simultánea de la estadística y la matemática, como primer componente, en conjunción con las herramientas computacionales y el conocimiento de expertos en las áreas que un modelo necesita, como segundo y tercer componentes suplementarios. También aportamos una simplificación operacional de esta visión al traducir ese conocimiento de expertos en sistemas analíticos que operan con base en la minería de datos, y dejando que las herramientas de aprendizaje automatizado lleven a cabo la parte computacional más compleja. De esta forma llegamos a concebir a la ciencia de datos como una integración modular muy bien equilibrada de la interacción sinérgica de herramientas analíticas e inferenciales (frecuentistas o bayesianas) con el desarrollo del machine learning –ML–, como uno de los mecanismos de mayor auge dentro de la inteligencia artificial, en su versión actual (IA débil). La siguiente imagen resume estas primeras conclusiones.

Imágenes tomadas de Gaceta y Medium, editadas por Vinicio Barrientos Carles.

Toda esta jerga de conceptos puede parecer ajena al común de las personas, que aunque usan tecnología más avanzada, día a día, no están al tanto del verdadero despliegue tecnológico computacional. Y es que los cambios han sido tan vertiginosos, que aún para quienes se desempeñan en áreas cercanas a la informática y la computación, resultan bastante difíciles de asimilar y comprender en su plenitud. El hecho es que mundo digital del año 2000 dista mucho hoy, y por ello se ha hablado, con toda la seriedad del caso, de la instalación de la Cuarta Revolución Industrial. Para digerir el fenómeno, anótese que hace apenas dos décadas, a inicios del milenio, de toda la información almacenada, únicamente una cuarta parte se encontraba en memoria digital, mientras todo lo demás (más del 70 % de la totalidad) se repartía entre impresos, casetes, dispositivos de vinil y otro tipo de soportes de tipo analógico. Sin embargo, estas proporciones se invirtieron prontamente, a tal punto que para el 2015, la proporción de la información digital había subido del 25 % hasta un poco más del 98 %, sobre un total de información que superaba ya el zettabyte (ZB), es decir más de mil exabytes (1000 EB).

Conviene aclarar qué significan estas unidades utilizadas para la medición del volumen de información. El byte (B) es la unidad elemental de información utilizada en computación y en telecomunicaciones, equivalente, en pocas palabras, a un conjunto ordenado de ocho bits, razón por la cual en otros idiomas, incluidos el castellano, se le conoce también como octeto. Amerita adentrarnos en la historia del uso de esta unidad fundamental, pero por ahora baste saber que un exabyte (EB) es equivalente a 1018 bytes. ¿Y esto cuánto es? Perdemos un poco la noción del tamaño de cantidades muy grandes cuando nos vemos en la necesidad de utilizar escalas geométricas. Por eso conviene pasar las cantidades a equivalentes físicos.

En nuestro lenguaje coloquial, solemos hablar de gigas (1 GB = 109 bytes) y teras (1 TB = 1000 GB = 1012 bytes) de información, pero quizá ignoramos que 1 GB de datos equivale, en el sentido físico, a un camión lleno de páginas con texto escrito, y que 1 TB vendría a ser el equivalente a todas las páginas de texto escritas con la materia prima proveniente de 100 000 árboles. Con este preámbulo, entiéndase que el peso de todos los datos en Internet a inicios del Y2K era de 1 EB, lo cual es un millón de TB, habiendo crecido esta cantidad en un factor mayor que mil en tan solo una década. De esta forma, la cantidad circulante en la Internet en el 2015 ya se estimaba superior a varios zettabyte (1 ZB = 1000 TB), lo cual equivaldría a muchos miles de columnas de hojas de papel, colocadas unas sobre otras, tan grandes que cada una llegaría desde donde estamos hasta el mismo Sol. Para situarnos en el asunto, CISCO ha calculado que este volumen se duplica cada dos años, aproximadamente, estimando ya muchos zettabytes de peso digital, para pronto llegar al yottabyte. Ante esta big data, se hace necesario una nueva forma de procesar la inmensa cantidad de datos que nos está inundando.

Imágenes tomadas de HardZone y Tecnología fácil, editadas por Vinicio Barrientos Carles.

Con este gran marco de referencia, el modelaje desde los datos viene a requerir de variados conocimientos para su eficaz utilización, los que, a diferencia de los modelos matemáticos clásicos, parten de los datos mismos, sin asumir una determinada estructura entre ellos, es decir, sin partir de relaciones que el modelador presume que se establecen entre las distintas variables intervinientes. Son, por así decirlo, de una naturaleza puramente empírica, con lo cual, dado el gran volumen de posible información a procesar, será factible predecir el comportamiento de las variables, dada cierta estabilidad estadística, aún en ignorancia de lo que subyace adentro de la caja negra del pronóstico, sino únicamente como resultado de heurísticas funcionales o de mera inferencia estadística basada en el cúmulo de observaciones.

Esta emergencia de personal competente que pueda dedicarse al modelaje desde los datos en las distintas instancias en la sociedad ha derivado en la necesidad de construir nuevas carreras universitarias, orientadas a la formación académica en esta multidisciplinaria línea de actividad. Así, el director del Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas –IIMAS– de la UNAM explica cómo esta necesidad les ha llevado a conceptualizar el perfil del profesional en esta área científica tecnológica, en pleno auge. Aclara que por ciencia de datos ellos entienden el análisis integrado de un gran cúmulo de información, que conlleva el procesamiento y modelación, a partir de algoritmos y de representaciones matemáticas, diciendo:

Quien se dedique a esta actividad debe estar muy dispuesto al diálogo, pues tratará con personas de muy diversas formaciones, como biólogos, médicos, ingenieros, físicos, economistas o científicos sociales, es decir, con todo aquel interesado en que un profesional de la ciencia de datos le ayude a interpretar la data disponible, convirtiéndola en información significante y en conocimiento de relevancia en los contextos de interés.

Para este modelaje desde los datos, será crucial entonces discriminar la significancia de las mismas fuentes y de los procesos a seguir. Esto, de una manera u otra, está orientado al descubrimiento eficiente sobre cómo lograr que los datos disponibles sean útiles, de acuerdo a los objetivos de investigación o de interés. En gran medida, la utilidad está fuertemente vinculada con la capacidad para tomar decisiones y con las acciones que se pueden emprender en contextos de incertidumbre, porque es con acciones que es posible modificar nuestro entorno. De esto también hablaremos próximamente. La imagen última muestra una síntesis de nuestras conclusiones.

Imagen tomada de Medium, editada por Vinicio Barrientos Carles.


Imagen principal tomada de Medium, editada por Vinicio Barrientos Carles.

Vinicio Barrientos Carles

Guatemalteco de corazón, científico de profesión, humanista de vocación, navegante multirrumbos… viajero del espacio interior. Apasionado por los problemas de la educación y los retos que la juventud del siglo XXI deberá confrontar. Defensor inalienable de la paz y del desarrollo de los Pueblos. Amante de la Matemática.

Autómatos

Correo: viniciobarrientosc@gmail.com

0 Commentarios

Dejar un comentario