Modelaje desde los datos (I)

Vinicio Barrientos Carles | Para no extinguirnos / AUTÓMATOS

El conocimiento de ningún hombre puede ir más allá de su experiencia.
John Locke


A raíz de esta crisis sanitaria y económica de la pandemia del coronavirus, hemos dedicado extensos artículos a un tema que cobró repentinamente especial relevancia: el tema de los modelos matemáticos prospectivos. Estos los hemos desarrollado en nuestra columna Quadrivium, aunque amerita reconocer que las perspectivas científicas han sido verdaderamente escasas en el abordaje de los problemas en nuestro país, puesto que, por el contrario, siguen predominando las decisiones puramente políticas, lo cual en sí mismo no es malo, pero sí es el hecho de que estas políticas no se fundamenten en los conocimientos que muchos miembros de la sociedad poseemos y que por lo general no son tomados en cuenta, sea por ignorancia, que aunque parezca sorprendente es una explicación abundante, o por los intereses depredadores que terminan ahogando las luces de esperanza en el centro de este atolladero en el que estamos sumergidos. El caso del país refleja una de las principales consecuencias de no invertir en actualización tecnológica, pero más allá, de no invertir en ciencia. Ante la ignorancia como realidad suprema, pareciera que el desarrollo alcanzado en ciertas direcciones no ha llegado al mundo, en general, sino que está quedando en unos cuantos que son aquellos dueños de los grandes capitales, lo que agudiza los problemas de la desigualdad creciente que no solo es de tipo económica o social, sino que también en cuanto al acceso y posibilidad de aplicar el conocimiento.

En esta columna Autómatos hemos desarrollado temáticas en torno al amplio desarrollo de las ciencias de la computación, tanto desde su aspecto matemático formal, como sus aplicaciones y en particular en lo que respecta a la inteligencia artificial –IA–. Se hizo explícita la distinción entre IA y aprendizaje automático, o ML –machine learning– como se le conoce en la jerga informática computacional. La nueva área que abarca todas estas nuevas disciplinas se ha denominado ciencia de datos, o data science, por su original en idioma inglés.

Imagen tomada de gAZeta, editada por Vinicio Barrientos Carles.

¿Pero qué es realmente esto de la ciencia de datos? ¿Acaso no se encuentra basado todo proceso científico en datos y en un método que garantice el procesamiento y buen uso de los mismos? ¿No ha sido esto así desde siglos atrás, con cualquier ciencia aceptada como tal? Al explorar las posibles definiciones emergentes, vemos que no se trata de un concepto realmente preciso, a pesar de que medio mundo hable de ello. Se trata de una noción, una que se encuentra muy de moda y que al adentrarse en el problema cabe separar lo volátil de las impresiones mediáticas (sobre todo en el mundo de los negocios) de lo que puede haber de ciencia detrás de ello. La falta de consensos en una definición precisa y universalmente aceptada es un indicador clave de dos cosas: un nuevo nombre para algo viejo y un viejo problema para un nuevo enfoque. En efecto, este viejo problema es nada menos que el problema del conocimiento, el problema epistemológico fundamental de la ciencia misma.

Sin embargo, no puede negarse que hay algo nuevo, algo verdaderamente revolucionario en el mundo actual, que es el poder computacional que la nueva era del conocimiento, posterior a la Cuarta Revolución Industrial está colocando sobre la mesa. Por otro lado, este problema (teorético) de la precisión de esta noción de la nueva ciencia de datos puede traducirse a términos más pragmáticos, reenfocando nuestra atención en otro tema boom: el científico de datos. Si por un lado se ha dicho, de forma extremadamente concisa y simplista, que «la ciencia de datos es la disciplina de hacer que los datos sean útiles» (lo cual es tremendamente inútil pues no se aclara a qué se refiere esto de la utilidad), también es cierto que de la nueva carrera de científico de datos (también he escuchado «cientista», con esto de los anglicismos abundantes en la jerga informática) se han dicho cosas igualmente vagas o fortuitas, como que se trata de la carrera más sexy y de popularidad creciente en esta segunda década del siglo.

De forma un seria, sí existe un mejor consenso sobre qué habilidades y competencias solicitar de un científico de datos, el cual tendrá por objetivo lo que el titular del artículo dice: la generación de modelos de diversos tipos, extraídos y construidos a partir de la data disponible. A esta pregunta existe una respuesta muy difundida, debida a Drew Conway, quien responde con un muy conocido diagrama lógico conjuntista de Venn, en el que se presenta a la ciencia de datos, y así al científico correspondiente, como la intersección múltiple de tres áreas bastante mejor definidas, en las que se pide un dominio suficiente con las correspondientes habilidades, a saber: a) de la estadística y la matemática respectiva; b) del conocimiento específico del área o disciplina sobre la que trata el fenómeno que se desea modelar; y c) de la ciencia computacional que funcionará como vehículo de las dos precedentes, lo que incluye la programación en ciertas plataformas adecuadas y el dominio de las herramientas informáticas respectivas. En el diagrama de la imagen siguiente se muestra este concepto multidisciplinar de Conway, que ha permeado otras nociones derivadas y que también podría reconocerse que ha ido evolucionando en la última década.

Imágenes tomadas de Gaceta y Medium, editadas por Vinicio Barrientos Carles.

Sin embargo de lo robusto del anterior concepto, ante la misma pregunta, otros han propuesto definiciones más operativas sobre los procesos que el científico de datos debería poder llevar a cabo. Es el caso de una de las definiciones que aparecen en la enciclopedia virtual colaborativa Wikipedia:

La ciencia de datos como “un concepto para unificar estadísticas, análisis de datos, aprendizaje automático, y sus métodos relacionados, a efectos de comprender y analizar los fenómenos reales”, empleando técnicas y teorías extraídas de muchos campos dentro del contexto de la Matemática, la Estadística, la Ciencia de la Computación y las disciplinas informáticas.

En la imagen precedente aparecen estos tres componentes, y resultará interesante analizar cómo y en qué medida aparecen e intervienen estos, sobre todo ante el reto de la modelación que nos atañe. No quisiera terminar esta primera parte del artículo sin expresar una idea que considero muy importante en esto del análisis y conceptualización de la nueva ciencia de datos. Y es que resulta que ante este nuevo paradigma del conocimiento, no porque sea realmente algo nuevo, sino porque la potencia y capacidad que poseemos actualmente permite alcanzar logros que hace décadas no eran ni siquiera imaginables, es que podemos caer en el craso error de enfocarnos en las herramientas visibles, y no en los procesos de fondo que realmente se están llevando a cabo. Así, por ejemplo, alguno puede pensar que la diferencia entre un estadístico experto y un ingeniero ML es que uno programa y «piensa» en R mientras el otro lo hace en Python, o que el «arcaico» ingeniero tradicional aún utiliza SQL, cuando no se trata de esto. Otros aún se equivocarán cuando piensan que se trata de algoritmos, que a la larga son piezas de un proceso inteligente. En la segunda parte trataremos de explicar que realmente las diferencias tienen que ver con el manejo del conocimiento (episteme) que tenemos de las cosas, y de las decisiones que tomamos ante la incertidumbre en este conocimiento.

Imágenes tomadas de Gaceta y México Nueva ERa, editadas por Vinicio Barrientos Carles.


Imagen principal tomada de Medium, editada por Vinicio Barrientos Carles.

Vinicio Barrientos Carles

Guatemalteco de corazón, científico de profesión, humanista de vocación, navegante multirrumbos… viajero del espacio interior. Apasionado por los problemas de la educación y los retos que la juventud del siglo XXI deberá confrontar. Defensor inalienable de la paz y del desarrollo de los Pueblos. Amante de la Matemática.

Autómatos

Correo: viniciobarrientosc@gmail.com

0 Commentarios

Dejar un comentario