Quantos pinguins existem neste vídeo da vida selvagem? Você consegue rastrear a bola laranja no vídeo do gato? Quais times estão jogando e quem marcou? Dê-me instruções passo a passo deste vídeo de culinária?
Esses são exemplos de consultas que podem ser respondidas pelo Molmo 2, uma nova família de modelos de visão de IA de código aberto do Allen Institute for AI (Ai2) que pode assistir, rastrear, analisar e responder perguntas sobre vídeos: descrevendo o que está acontecendo e identificando exatamente onde e quando.
Ai2 cita testes de benchmark mostrando o Molmo 2 superando modelos de código aberto em análise e rastreamento de vídeos curtos, e superando sistemas fechados como o Gemini 3 do Google em rastreamento de vídeo, enquanto se aproxima de seu desempenho em outras tarefas de imagem e vídeo.
Numa série de demonstrações para repórteres recentemente nos escritórios da Ai2 em Seattle, os pesquisadores mostraram como o Molmo 2 poderia analisar uma variedade de pequenos videoclipes de diferentes maneiras.
- Em um clipe de futebol, os pesquisadores perguntaram qual erro defensivo levou ao gol. O modelo analisou a sequência e apontou falha na limpeza eficaz da bola.
- Em um clipe de beisebol, a IA identificou os times (Angels e Mariners), o jogador que marcou (#55) e explicou como conhecia o time da casa lendo os uniformes e a marca do estádio.
- Dado um vídeo de culinária, a modelo retornou uma receita estruturada com ingredientes e instruções passo a passo, incluindo o tempo extraído do texto na tela.
- Solicitado a contar quantas voltas um dançarino executou, o modelo não disse apenas “cinco” – ele retornou carimbos de data e hora e coordenadas de pixel para cada uma.
- Numa demonstração de rastreamento, o modelo seguiu quatro pinguins enquanto eles se moviam pelo quadro, mantendo uma identificação consistente para cada ave, mesmo quando eles se sobrepunham.
- Quando solicitada a “rastrear o carro que ultrapassa o carro nº 13 no final”, a modelo assistiu primeiro a um clipe de corrida inteiro, entendeu a pergunta, depois voltou e identificou o veículo correto. Ele rastreava carros que entravam e saíam do quadro.
Grande ano para Ai2
Molmo 2, anunciado na manhã de terça-feira, encerra um ano de marcos importantes para a organização sem fins lucrativos com sede em Seattle, que conquistou seguidores leais nos círculos empresariais e científicos ao construir sistemas de IA totalmente abertos. A sua abordagem contrasta fortemente com as abordagens fechadas ou parcialmente abertas de gigantes da indústria como OpenAI, Google, Microsoft e Meta.
Fundada em 2014 pelo falecido cofundador da Microsoft, Paul Allen, a Ai2 arrecadou este ano US$ 152 milhões da NSF e da Nvidia, fez parceria em uma iniciativa de pesquisa de câncer de IA liderada por Fred Hutch, de Seattle, e lançou o Olmo 3, um modelo de texto que rivaliza com Meta, DeepSeek e outros.
A Ai2 registrou mais de 21 milhões de downloads de seus modelos este ano e quase 3 bilhões de consultas em seus sistemas, disse Ali Farhadi, CEO da Ai2, durante coletiva de imprensa na semana passada na nova sede do instituto, na costa norte do Lake Union, em Seattle.
Como uma organização sem fins lucrativos, a Ai2 não está tentando competir comercialmente com os gigantes da tecnologia – seu objetivo é avançar no estado da arte e disponibilizar esses avanços gratuitamente.
O instituto lançou modelos abertos para texto (OLMo), imagens (o Molmo original) e agora vídeo – construindo o que ele descreveu como um modelo unificado que raciocina em todas as modalidades.
“Estamos basicamente construindo modelos que sejam competitivos com o que há de melhor”, disse Farhadi – mas de uma forma completamente aberta, para uma sucessão de diferentes mídias e situações.
Além do Molmo 2, a Ai2 lançou na segunda-feira o Bolmo, um modelo de texto experimental que processa a linguagem no nível do caractere, em vez de fragmentos de palavras – uma mudança técnica que melhora o manuseio da ortografia, palavras raras e texto multilíngue.
Expandindo para análise de vídeo
Com o recém-lançado Molmo 2, o foco é o vídeo. Para ser claro: o modelo análises vídeo, ele não gera vídeo — pense em entender a filmagem em vez de criá-la.
O Molmo original, lançado em setembro passado, poderia analisar imagens estáticas com precisão, rivalizando com os concorrentes de código fechado. Ele introduziu um recurso de “apontar” que permite identificar objetos específicos dentro de um quadro. Molmo 2 traz a mesma abordagem para compreensão de vídeo e multiimagem.

O conceito não é novo. Gemini do Google, GPT-4o da OpenAI e Perception LM da Meta podem processar vídeo. Mas, em linha com a missão mais ampla da Ai2 como instituto sem fins lucrativos, o Molmo 2 é totalmente aberto, com pesos de modelo, código de treinamento e dados de treinamento, todos divulgados publicamente.
Isso é diferente dos modelos de “peso aberto” que lançam o produto final, mas não a receita original, e contrasta fortemente com os sistemas fechados do Google, OpenAI e outros.
A distinção não é apenas um princípio acadêmico. A abordagem do Ai2 significa que os desenvolvedores podem rastrear o comportamento de um modelo até seus dados de treinamento, personalizá-lo para usos específicos e evitar ficar presos ao ecossistema de um fornecedor.
Ai2 também enfatiza a eficiência. Por exemplo, o Perception LM da Meta foi treinado em 72,5 milhões de vídeos. O Molmo 2 usou cerca de 9 milhões, contando com anotações humanas de alta qualidade.
O resultado, afirma Ai2, é um modelo menor e mais eficiente que supera seu próprio modelo muito maior do ano passado e chega perto de igualar os sistemas comerciais do Google e OpenAI, ao mesmo tempo que é simples o suficiente para ser executado em uma única máquina.
Quando o Molmo original introduziu sua capacidade de apontar no ano passado – permitindo ao modelo identificar objetos específicos em uma imagem – os modelos concorrentes rapidamente adotaram o recurso.
“Sabemos que eles adotaram nossos dados porque eles funcionam exatamente tão bem quanto nós”, disse Ranjay Krishna, que lidera a equipe de visão computacional da Ai2. Krishna também é professor assistente da Universidade de Washington, e vários de seus alunos de pós-graduação também trabalham no projeto.
Farhadi enquadra a dinâmica competitiva de forma diferente da maioria na indústria.
“Se você fizer código realmente aberto, eu mudaria a palavra concorrência para colaboração“, disse ele. “Porque não há necessidade de competir. Está tudo lá fora. Você não precisa fazer engenharia reversa. Você não precisa reconstruí-lo. Basta agarrá-lo, construir em cima dele e fazer a próxima coisa. E adoramos quando as pessoas fazem isso.”
Um trabalho em andamento
Ao mesmo tempo, o Molmo 2 tem algumas restrições claras. A capacidade de rastreamento – seguir objetos através de quadros – atualmente atinge cerca de 10 itens. Peça para rastrear uma multidão ou uma rodovia movimentada e o modelo não conseguirá acompanhar.
“Esta é uma capacidade muito, muito nova e tão experimental que estamos começando muito pequenos”, disse Krishna. “Não há limite tecnológico para isso, apenas requer mais dados, mais exemplos de cenas realmente lotadas.”
O vídeo de formato longo também continua sendo um desafio. O modelo funciona bem em clipes curtos, mas a análise de filmagens mais longas requer um cálculo que o Ai2 ainda não está disposto a gastar. No playground lançado junto com o Molmo 2, os vídeos enviados são limitados a 15 segundos.
E diferentemente de alguns sistemas comerciais, o Molmo 2 não processa transmissões de vídeo ao vivo. Ele analisa as gravações após o fato. Krishna disse que a equipe está explorando recursos de streaming para aplicações como robótica, onde um modelo precisaria responder às observações em tempo real, mas esse trabalho ainda é inicial.
“Existem métodos que as pessoas criaram em termos de processamento de vídeos ao longo do tempo, streaming de vídeos”, disse Krishna. “Essas são as direções que analisaremos a seguir.”
Molmo 2 está disponível a partir de hoje no Hugging Face e no playground do Ai2.