Cada vez más empresas tienen equipos de data scientist (ciencia de datos): algunos sólidos, mientras que otros están empezando. El objetivo de estos equipos es generar modelos predictivos que les permitan a las empresas ofrecer mejores productos a sus clientes teniendo en cuenta su comportamiento. Sin embargo, ¿sabemos qué porcentaje de estos modelos realmente se usan productivamente?

Adicionalmente, para desarrollar un buen sistema de ML se deben tener ciertas consideraciones, y una de ellas es el plan para ponerlo en producción una vez que esté listo. ¿Realmente sabemos cómo desplegar nuestros modelos cuando estén terminados?

Para el 2019, se estimaba que solo el 13 % de aquellos proyectos de data science realmente terminarían en producción. Eso quiere decir que, alrededor del 87 % de los proyectos que se generan no se utilizan ni se aprovechan para beneficio de la compañía y quedan en las computadoras de los data scientist, en el olvido.

Entre las principales razones, que ocasionan que la mayoría de los modelos de ML no se aprovechen, está la capacidad tecnológica de cada empresa, ya que los modelos se despliegan en servidores. Es así como solo elijen aquellos modelos necesarios porque su capacidad tecnológica es limitante y dejan de aprovechar otros modelos que podrían traerles más beneficios aún no explorados.

Siendo la capacidad tecnológica muy relevante, hoy más que nunca podemos decir que la tecnología está a nuestro favor, ya que tenemos grandes capacidades de procesamiento en nuestras manos, permitiéndole a los distintos equipos de data science generar los modelos predictivos que se propongan. Todo al alcance de un ‘enter’.

Al igual que crear una casa o un edificio, necesitamos armar una arquitectura en la que se elijan las herramientas para lograr nuestros objetivos. Para ello, uno de los principios que se ponen en práctica al desarrollarlos es el desacoplamiento de actividades. Esto permite que cada componente cumpla una sola función para lograr su atomicidad, evitando mezclar responsabilidades. A continuación, una arquitectura basada en componentes cloud, específicamente Google Cloud Platform:

Esta arquitectura nos permite analizar en streaming información que recibimos desde unos sensores para analizarla en línea usando la API del modelo generado y, finalmente, se almacena el resultado para poder usarlo.

En el siguiente enlace pueden revisar el despliegue del modelo, el cual permite identificar los ingresos anuales de un individuo a partir de ciertas características, como la educación, el estado civil, la ocupación, el género, la raza, el país de nacimiento, entre otros: https://www.linkedin.com/pulse/c%C3%B3mo-desplegar-modelos-de-ml-michelle-alessandra-santib%C3%A1%C3%B1ez-mu%C3%B1oz/

Escrito por:

Michelle Santibáñez Muñoz
Egresada de la carrera de Ingeniería Informática y de Sistemas de USIL