Un salto revolucionario: visión por computadora al alcance de todos

La integración de la visión por computadora en modelos de lenguaje, una iniciativa pionera de OpenAI y Google, está marcando un nuevo capítulo en la tecnología.

Por: Administrador Quantik Group
El: December 28, 2023

En el umbral de una nueva era en la inteligencia artificial, la integración de la visión por computadora en modelos de lenguaje, liderada por innovaciones de OpenAI y Google, marca un hito en el campo tecnológico. Esta fusión de capacidades textuales y visuales abre un nuevo horizonte de aplicaciones prácticas, y su facilidad de uso y fácil acceso revolucionará la forma en que interactuamos con la tecnología.

En este artículo, nos sumergiremos en cómo estas avanzadas tecnologías están transformando tanto nuestro entorno cotidiano como profesional, perfilando un futuro en el que la interacción digital y la eficiencia se entrelazan de manera sin precedentes.

¿Qué es Computer Vison y cómo funcionan estos modelos?

Computer Vision (en español, “visión por computadora”) es un campo de la inteligencia artificial que crea modelos y sistemas informáticos con el fin de dotar a una computadora de las capacidades de extraer información de una imagen digital y analizar su significado.

Hasta ahora, los modelos de lenguaje solo eran capaces de recibir una modalidad de entrada: el texto. Para muchos casos de uso, esto resultaba restrictivo en áreas en las que modelos como GPT-4 podían aplicarse, dado que utilizar solo entradas de texto dejaba por el camino mucho potencial de procesamiento y funcionalidades.

Luego de los anuncios de OpenAI y Google, finalmente la visión por computadora se encontrará disponible e integrada a los modelos de lenguaje ya existentes. Estas nuevas capacidades de visión por computadora se añaden a los modelos actuales de generación de texto, al tiempo que se mantienen todas las capacidades que estos ya poseían.

Podrían considerarse algunos de los primeros pasos a una interacción de carácter “multimodal”, entendiendo por multimodalidad a la capacidad del modelo de “ingerir conocimiento de múltiples fuentes y modalidades y utilizarlo para resolver tareas que involucren cualquier modalidad”.

¿Qué tan accesibles al público son estas nuevas capacidades?

Más allá del avance tecnológico de estas herramientas, algo que también resulta sorprendente es cómo se han disponibilizado estos modelos al público. Si bien se han estado usando modelos de visión por computadora en varios segmentos de la industria y en distintos entornos de investigación científica, esta es la primera vez que se encuentran al alcance de cada uno de nosotros.

En el caso del modelo de OpenAI, estas funcionalidades están disponibles para desarrolladores que ya se encuentren usando ChatGPT, pero también para cualquier persona que se suscriba a ChatGPT Plus.

Por el momento, el modelo Gemini Pro de Google se encuentra integrado con Bard. Pero, apostando a más, Google también se ha dedicado a que Gemini Nano (una versión más simple del modelo) se pueda integrar al sistema Android, en principio solo disponible para los teléfonos Pixel 8 Pro.

Aplicaciones para IoT y Smart Cities

Para hacernos una idea general del potencial de estas herramientas y sus variados usos, mencionamos algunos ejemplos que se están implementando en ámbitos industriales y en áreas de internet de las cosas y ciudades inteligentes.

Apoyo a personas no videntes

Al dotar al modelo de inteligencia artificial de visión, las personas no videntes pueden usarlo de apoyo o asistencia. Un claro caso de uso viene de la mano de BeMyEyes, una aplicación con ya 12 años en el mercado, que busca incentivar la ayuda voluntaria a las personas no videntes.

Recientemente, esta empresa lanzó en beta un spinoff de su aplicación original en colaboración con OpenAI, para aplicar estas nuevas tecnologías. El resultado es BeMyAI, basada en la idea de que las personas apunten la cámara de su celular a donde quieran y la app les dará indicaciones por voz de lo que están capturando. Por ejemplo, sirve para ayudarlos a cruzar la calle o saber qué dice el menú en un restaurante.

Seguridad pública

Dentro de esta área existen varias implementaciones aplicadas al rastreo, conteo y monitoreo de personas en el transporte y lugares públicos. En particular, algunas implementaciones se orientan a detectar situaciones peligrosas (como robos o asaltos) y vandalismo, así como también a descubrir personas en lugares no permitidos.

Su objetivo es aportar a las medidas de seguridad ya existentes y generar alertas, como una suerte de guardia disponible las 24 horas todos los días.

Seguridad industrial

Analizando situaciones de trabajo y chequeando el cumplimiento de las normas de seguridad de los empleados, estas aplicaciones buscan mejorar la seguridad en el ámbito laboral. Son de particular interés, por ejemplo, en zonas de construcción, excavaciones o laboratorios donde se manipulen sustancias volátiles.

Monitoreo de tránsito y seguridad vial

Este es uno de los ámbitos donde más se han visto aplicaciones de la tecnología de visión por computadora. Los casos de uso más comunes se relacionan al análisis de comportamientos de manejo y tránsito de los vehículos, aunque también existen aplicaciones orientadas al monitoreo del estado de las calles y al resto de infraestructura vial, con el fin de mantenerla en buenas condiciones. La información de estos análisis es relevante para implementar distintas medidas que vuelvan más eficiente y seguro el tránsito.

Por ejemplo, recientemente la filial de Honda en Argentina realizó un experimento aplicando estas tecnologías en un semáforo inteligente equipado con una cámara. La idea era verificar que los conductores de motos llevaran casco, y el semáforo solo cambiaba a verde si esta regla se cumplía. El resultado fue un video para concientizar, en el que varios motociclistas quedaban perplejos ante lo que el semáforo les demandaba a través de una pantalla y terminaban por acatar la norma.

Ejemplos de uso doméstico

Ahora que la visión por computadora está disponible para toda esta tecnología, nos encontramos con muchas más aplicaciones de uso cotidiano. Varias de ellas nos facilitan tareas o nos dan asistencia y recomendaciones. Algunos ejemplos son:

Análisis de valores alimenticios

A veces, resulta complicado entender o incluso leer las pequeñas letras de la etiqueta de un producto para entender sus valores alimenticios e ingredientes. Con estas herramientas de visión, podemos sacarle una foto a la etiqueta y pedirle al asistente virtual que la analice, así como hacerle preguntas sobre lo que queramos saber, por ejemplo, si dicho alimento es bueno para una dieta celiaca o si los valores de sodio son recomendables para alguien con hipertensión.

Electrodomésticos inteligentes y automatización del hogar

En este ámbito podemos incluir varias funcionalidades, desde preguntarle al modelo qué cocinar con una foto de lo que hay en la heladera hasta pedirle que realice una compra automática de las cosas que nos faltan. También podemos delegarle al modelo tareas de clasificación, como distinguir entre basura y reciclables o incluso asistencia para elegir el mejor programa de lavado a partir de una foto de la ropa sucia.

Asimismo, dentro de la domótica, se pueden colocar cámaras que reconozcan a los residentes del hogar, les den acceso a la casa y ajusten las luces, música y calefacción a gusto de esa persona.

Trabajo y productividad

En ocasiones en que debamos planear alguna presentación o armar esquemas de diseño, estas herramientas también nos pueden ayudar a convertir nuestros bosquejos a mano en proyectos digitales.

Un ejemplo de estas capacidades se mostró recientemente en la transmisión en vivo para desarrolladores de OpenAI. Allí, se alimentó al modelo con un bosquejo de un sitio web hecho a mano y se le pidió que lo programe de cero, tarea que realizo en segundos, cuando a una persona le llevaría mucho más trabajo.

Mirando hacia el futuro

Hoy en día, que la visión por computadora esté disponible para todos no es solo un avance tecnológico gigante, sino una verdadera transformación de la forma en que interactuaremos con nuestro entorno en el futuro próximo.

Desde apoyar a personas no videntes hasta revolucionar la seguridad pública y vial y la automatización del hogar, estas tecnologías están demostrando ser herramientas eficientes y de gran potencial.

Hay que tener en cuenta que estos desarrollos recién están llegando a nuestro alcance y, por tanto, es de esperarse que nos brinden resultados mixtos. Sin embargo, integrar la visión por computadora a nuestra vida cotidiana y profesional desde ahora nos dotará de experiencias de interacción digital más fluidas, seguras y eficientes para cuando estas tecnologías hayan madurado lo necesario.

Por Martin Piriz, Research & Development Assistant Quantik Labs

Martin es estudiante avanzado de Ingeniería en Sistemas de Comunicación, con un perfil enfocado al procesamiento de señales y aprendizaje automático.
Desde 2022 forma parte de QuantikLabs asistiendo en la investigación y desarrollo de proyectos y productos.

Acerca de Quantik Lab

Quantik Lab es el área del grupo Quantik dedicada a la investigación y desarrollo (I+D). Su objetivo es fomentar y madurar la creación de nuevos productos y tecnologías, que luego pueden ser escalados. Las ideas para explorar nuevas temáticas provienen tanto de clientes como de colaboradores.

Hoy en día, lleva adelante investigaciones sobre sobre metaverso, internet de las cosas, movilidad eléctrica, experiencia de cliente y ciudades inteligentes.

Entradas Relacionadas

Quantik Lab y la FCEA presentaron resultados de experiencia VR en congreso de Estados Unidos

El experimento llevado a cabo en el segundo semestre de 2023 evaluó los resultados académicos de tres grupos de estudiantes: uno que asistió de manera presencial, otro que participó a través de Zoom y el tercero que se involucró mediante realidad virtual.