Um salto revolucionário: visão computacional ao alcance de todos

A integração da visão computacional aos modelos de linguagem, uma iniciativa pioneira da OpenAI e do Google, está marcando um novo capítulo na tecnologia.

Conteúdo

No limiar de uma nova era na inteligência artificial, a integração da visão computacional aos modelos de linguagem, liderada pelas inovações da OpenAI e do Google, é um marco no campo tecnológico. Essa fusão de recursos textuais e visuais abre um novo horizonte de aplicações práticas, e sua facilidade de uso e acessibilidade revolucionarão a maneira como interagimos com a tecnologia.

Neste artigo, vamos nos aprofundar em como essas tecnologias avançadas estão transformando nossos ambientes cotidianos e profissionais, moldando um futuro em que a interação digital e a eficiência estão interligadas de maneiras sem precedentes.

O que é Computer Vison e como esses modelos funcionam?

A visão computacional é um campo da inteligência artificial que cria modelos e sistemas de computador para fornecer a um computador a capacidade de extrair informações de uma imagem digital e analisar seu significado.

Até agora, os modelos de linguagem só eram capazes de receber uma modalidade de entrada: texto. Para muitos casos de uso, isso era restritivo em áreas em que modelos como o GPT-4 podiam ser aplicados, pois o uso de apenas entrada de texto deixava muito potencial de processamento e funcionalidade de lado.

Após os anúncios da OpenAI e do Google, a visão computacional finalmente estará disponível e integrada aos modelos de linguagem existentes. Esses novos recursos de visão computacional são adicionados aos modelos de geração de texto existentes, mantendo todos os recursos que eles já possuem.

Essas podem ser consideradas algumas das primeiras etapas em direção a um caráter "multimodal" de interação, em que a multimodalidade é entendida como a capacidade do modelo de "ingerir conhecimento de várias fontes e modalidades e usá-lo para resolver tarefas que envolvam qualquer modalidade".

Quão acessíveis são esses novos recursos para o público?

Além do avanço tecnológico dessas ferramentas, o que também é surpreendente é a forma como esses modelos foram disponibilizados ao público. Embora os modelos de visão computacional tenham sido usados em vários segmentos do setor e em vários ambientes de pesquisa científica, esta é a primeira vez que eles estão disponíveis para todos.

No caso do modelo OpenAI, essas funcionalidades estão disponíveis para os desenvolvedores que já usam o ChatGPT, mas também para qualquer pessoa que assine o ChatGPT Plus.

No momento, o modelo Gemini Pro do Google está integrado ao Bard. Mas, em uma tentativa de ir além, o Google também está trabalhando para tornar o Gemini Nano (uma versão mais simples do modelo) disponível para integração com o sistema Android, inicialmente disponível apenas para telefones Pixel 8 Pro.

Aplicativos para IoT e cidades inteligentes

Para obter uma visão geral do potencial dessas ferramentas e de seus vários usos, mencionamos alguns exemplos que estão sendo implementados em ambientes industriais e em áreas da Internet das coisas e cidades inteligentes.

Suporte para cegos

Ao dotar o modelo de inteligência artificial com visão, as pessoas cegas podem usá-lo para obter apoio ou assistência. Um caso de uso claro vem do BeMyEyes, um aplicativo que está no mercado há 12 anos e que busca incentivar a ajuda voluntária para pessoas cegas.

Recentemente, a empresa lançou uma versão beta de seu aplicativo original em colaboração com a OpenAI para aplicar essas novas tecnologias. O resultado é o BeMyAI, baseado na ideia de que as pessoas apontem a câmera do celular para onde quiserem e o aplicativo dará a elas instruções de voz sobre o que estão capturando. Por exemplo, ele pode ajudá-las a atravessar a rua ou dizer o que diz o cardápio em um restaurante.

Segurança pública

Nessa área, há várias implementações aplicadas ao rastreamento, contagem e monitoramento de pessoas em transportes e locais públicos. Em particular, algumas implementações têm como objetivo detectar situações perigosas (como roubos ou agressões) e vandalismo, bem como descobrir pessoas em locais não autorizados.

Seu objetivo é acrescentar às medidas de segurança existentes e gerar alertas, como uma espécie de guarda 24 horas de plantão todos os dias.

Segurança industrial

Ao analisar as situações de trabalho e verificar a conformidade dos funcionários com as normas de segurança, esses aplicativos visam melhorar a segurança no local de trabalho. Eles são de interesse especial, por exemplo, em canteiros de obras, escavações ou laboratórios onde são manuseadas substâncias voláteis.

Monitoramento de tráfego e segurança rodoviária

Essa é uma das áreas em que a maioria das aplicações da tecnologia de visão computacional tem sido vista. Os casos de uso mais comuns estão relacionados à análise do comportamento de direção e tráfego de veículos, embora também haja aplicativos destinados a monitorar o estado das estradas e outras infraestruturas rodoviárias para mantê-las em boas condições. As informações dessas análises são relevantes para a implementação de diferentes medidas para tornar o tráfego mais eficiente e seguro.

Por exemplo, a subsidiária da Honda na Argentina realizou recentemente um experimento aplicando essas tecnologias em um semáforo inteligente equipado com uma câmera. A ideia era verificar se os motociclistas estavam usando capacete, e o semáforo só mudaria para verde se essa regra fosse cumprida. O resultado foi um vídeo de conscientização, no qual vários motociclistas ficaram perplexos com o que o semáforo exigia deles em uma tela e acabaram cumprindo a regra.

Exemplos de uso doméstico

Agora que a visão computacional está disponível para toda essa tecnologia, encontramos muitos outros aplicativos para uso diário. Vários deles facilitam tarefas ou nos dão assistência e recomendações. Alguns exemplos são:

Análise do valor dos alimentos

Às vezes, é difícil entender ou até mesmo ler as letras pequenas no rótulo de um produto para compreender seus valores nutricionais e ingredientes. Com essas ferramentas de visão, podemos tirar uma foto do rótulo e pedir ao assistente virtual que o analise, além de fazer perguntas sobre o que queremos saber, por exemplo, se o alimento é bom para celíacos ou se os valores de sódio são recomendados para pessoas com hipertensão.

Aparelhos inteligentes e automação residencial

Nessa área, podemos incluir várias funcionalidades, desde perguntar ao modelo o que cozinhar com uma foto do que há na geladeira até pedir que ele faça uma compra automática dos itens que estão faltando. Também podemos delegar tarefas de classificação ao modelo, como distinguir entre lixo e materiais recicláveis, ou até mesmo ajudar a escolher o melhor programa de lavagem com base em uma foto da roupa.

A automação residencial também pode incluir câmeras que reconhecem os moradores da casa, permitem que eles tenham acesso à casa e ajustem as luzes, a música e o aquecimento de acordo com suas preferências.

Trabalho e produtividade

Nas ocasiões em que precisamos planejar uma apresentação ou desenhar esboços, essas ferramentas também podem nos ajudar a transformar nossos esboços feitos à mão em projetos digitais.

Um exemplo desses recursos foi demonstrado recentemente na transmissão ao vivo para desenvolvedores da OpenAI. Lá, o modelo recebeu um esboço de um site desenhado à mão e foi solicitado a programá-lo do zero, uma tarefa que ele realizou em segundos, quando uma pessoa precisaria de muito mais trabalho.

Olhando para o futuro

Hoje, tornar a visão computacional disponível para todos não é apenas um grande salto tecnológico, mas uma verdadeira transformação da maneira como interagiremos com nosso ambiente em um futuro próximo.

Desde o apoio a pessoas cegas até a revolução da segurança pública e rodoviária e a automação residencial, essas tecnologias estão provando ser ferramentas eficientes com grande potencial.

Deve-se ter em mente que esses desenvolvimentos só agora estão ao nosso alcance e, portanto, resultados variados são esperados. Entretanto, a integração da visão computacional em nossa vida diária e profissional agora nos proporcionará experiências de interação digital mais suaves, seguras e eficientes quando essas tecnologias estiverem suficientemente amadurecidas.


Por Martin Piriz, Assistente de Pesquisa e Desenvolvimento do Quantik Labs

Martin é um estudante avançado de Engenharia de Sistemas de Comunicação com foco no processamento de sinais e aprendizado de máquinas.
Desde 2022 ele faz parte da QuantikLabs, ajudando na pesquisa e desenvolvimento de projetos e produtos.


Sobre a Quantik Lab

O Quantik Lab é a área do Grupo Quantik dedicada à pesquisa e desenvolvimento (P&D). Seu objetivo é incentivar e amadurecer a criação de novos produtos e tecnologias, que podem então ser ampliados. As idéias para explorar novos temas vêm tanto de clientes como de colaboradores.

Hoje, ele realiza pesquisas sobre metaverso, internet das coisas, mobilidade elétrica, experiência do cliente e cidades inteligentes.

Compartilhe:

Facebook
Twitter
LinkedIn
WhatsApp

Entradas relacionadas