Josh Tenenbaum, professor de ciências cerebrais e cognitivas no MIT, dirige pesquisas sobre o desenvolvimento da inteligência no Centro de cérebros, mentes e máquinas, um projeto multi-universitário, multidisciplinar, baseado no MIT, que busca explicar e replicar a inteligência humana.
Apresentando seu trabalho na conferência deste ano sobre Sistemas de Processamento de Informação Neural, Tenenbaum e um de seus alunos, Jiajun Wu, são co-autores em quatro trabalhos que examinam as habilidades cognitivas fundamentais que um agente inteligente requer para navegar pelo mundo: discernir objetos distintos e inferindo como eles respondem às forças físicas.
Ao construir sistemas informáticos que começam a aproximar essas capacidades, os pesquisadores acreditam que podem ajudar a responder perguntas sobre os recursos de processamento de informação que os seres humanos usam em que estágios de desenvolvimento. Ao longo do caminho, os pesquisadores também podem gerar algumas idéias úteis para os sistemas de visão robótica.
“O tema comum aqui é realmente aprender a perceber a física”, diz Tenenbaum. “Isso começa a ver as formas completas de objetos 3-D, e objetos múltiplos em uma cena, juntamente com suas propriedades físicas, como massa e fricção, e depois raciocínio sobre como esses objetos se moverão ao longo do tempo. Os quatro papéis de Jiajun abordam esse espaço inteiro. Em conjunto, estamos começando a poder construir máquinas que capturam cada vez mais a compreensão básica das pessoas do mundo físico “.
Três dos artigos tratam de inferir informações sobre a estrutura física dos objetos, tanto de dados visuais quanto de dados auditivos. O quarto trata de prever como os objetos se comportarão com base nesses dados.
Via de mão dupla
Outra coisa que une todos os quatro artigos é a sua abordagem incomum para o aprendizado de máquinas, uma técnica em que os computadores aprendem a executar tarefas computacionais, analisando grandes conjuntos de dados de treinamento. Em um sistema típico de aprendizagem mecânica, os dados de treinamento são rotulados: analistas humanos terão, digamos, identificado os objetos em uma cena visual ou transcreveram as palavras de uma frase falada. O sistema tenta aprender quais recursos dos dados se correlacionam com os rótulos, e é julgado em como ele rotula os dados anteriormente não vistos.
Nos novos artigos de Wu e Tenenbaum, o sistema é treinado para inferir um modelo físico do mundo – as formas tridimensionais de objetos que são oculta principalmente da vista, por exemplo. Mas, em seguida, ele trabalha para trás, usando o modelo para resintetizar os dados de entrada, e seu desempenho é avaliado em quanto bem os dados reconstruídos correspondem aos dados originais.
Por exemplo, usar imagens visuais para construir um modelo 3-D de um objeto em uma cena requer remover todos os objetos ocluindo; filtragem de texturas visuais, reflexões e sombras de confusão; e inferindo a forma de superfícies não vistas. Uma vez que o sistema de Wu e Tenenbaum construiu esse modelo, no entanto, ele o roda no espaço e adiciona texturas visuais de volta até que ele possa aproximar os dados de entrada.
De fato, dois dos quatro documentos dos pesquisadores abordam o complexo problema de inferir modelos 3-D a partir de dados visuais. Nesses papéis, eles são acompanhados por outros quatro pesquisadores do MIT, incluindo William Freeman, o Professor Perkins de Engenharia Elétrica e Ciência da Computação, e colegas da DeepMind, da Universidade ShanghaiTech e da Universidade Jiao Tong de Xangai.
Dividir e conquistar
O sistema dos pesquisadores baseia-se nas teorias influentes do neurocientista do MIT, David Marr , que morreu em 1980 na idade tragicamente jovem de 35 anos. Marr hipotetizou que, ao interpretar uma cena visual, o cérebro cria o que ele chamou de esboço 2.5-D dos objetos que continha – uma representação daquelas superfícies dos objetos voltados para o visualizador. Então, com base no esboço 2.5-D – não a informação visual em bruto sobre a cena – o cérebro infere as formas tridimensionais completas dos objetos.
“Ambos os problemas são muito difíceis, mas há uma ótima maneira de desembaraçá-los”, diz Wu. “Você pode fazê-los um por vez, então você não precisa lidar com ambos ao mesmo tempo, o que é ainda mais difícil”.
Wu e o sistema de seus colegas precisam ser treinados em dados que incluem imagens visuais e modelos 3-D dos objetos que as imagens representam. A construção de modelos precisos 3-D dos objetos retratados em fotografias reaisser proibitivamente demorado, então, inicialmente, os pesquisadores treinam seu sistema usando dados sintéticos, nos quais a imagem visual é gerada a partir do modelo 3-D, em vez de vice-versa. O processo de criação de dados é como a criação de um filme animado por computador.
Uma vez que o sistema tenha sido treinado em dados sintéticos, no entanto, ele pode ser ajustado usando dados reais. Isso porque seu critério de desempenho final é a precisão com a qual ele reconstrói os dados de entrada. Ainda está construindo modelos 3-D, mas eles não precisam ser comparados com modelos construídos por humanos para avaliação de desempenho.
Na avaliação de seu sistema, os pesquisadores usaram uma medida chamada intersecção sobre união, o que é comum no campo. Com essa medida, seu sistema supera os seus predecessores. Mas um dado ponto de intersecção-sobre-união deixa muito espaço para a variação local na suavidade e forma de um modelo 3-D. Então, Wu e seus colegas também realizaram um estudo qualitativo sobre a fidelidade dos modelos às imagens de origem. Dos participantes do estudo, 74% preferiram as reconstruções do novo sistema às de seus predecessores.
Tudo isso cair
Em outro dos trabalhos de Wu e Tenenbaum, em que eles são novamente acompanhados por Freeman e por pesquisadores do MIT, da Universidade de Cambridge e da Universidade ShanghaiTech, eles treinam um sistema para analisar as gravações de áudio de um objeto a ser descartado, inferir propriedades como a forma do objeto, sua composição e a altura de que caiu. Mais uma vez, o sistema é treinado para produzir uma representação abstrata do objeto, que, por sua vez, ele usa para sintetizar o som que o objeto faria quando caiu de uma altura particular. O desempenho do sistema é avaliado quanto à semelhança entre o som sintetizado e o som fonte.
Finalmente, em seu quarto artigo, Wu, Tenenbaum, Freeman e colegas da DeepMind e da Universidade de Oxford descrevem um sistema que começa a modelar a compreensão intuitiva dos seres humanos sobre as forças físicas que atuam sobre objetos no mundo. Este artigo mostra onde os documentos anteriores deixaram: Assume que o sistema já deduziu os objetos de 3-D.
Essas formas são simples: bolas e cubos. Os pesquisadores treinaram seu sistema para executar duas tarefas. O primeiro é estimar as velocidades de bolas que viajam em uma mesa de bilhar e, nessa base, prever como se comportarão após uma colisão. O segundo é analisar uma imagem estática de cubos empilhados e determinar se eles vão cair e, em caso afirmativo, onde os cubos vão pousar.
Wu desenvolveu uma linguagem de representação que ele chama de cena XML que pode caracterizar quantitativamente as posições relativas de objetos em uma cena visual. O sistema primeiro aprende a descrever os dados de entrada nesse idioma. Em seguida, alimenta essa descrição para algo chamado mecanismo de física, que modela as forças físicas que atuam sobre os objetos representados. Os motores de física são um elemento básico da animação por computador, onde geram o movimento da roupa, a queda de objetos e outros, e da computação científica, onde são usados para simulações físicas em grande escala.
Depois que o motor de física previu os movimentos das bolas e caixas, essa informação é alimentada a um motor gráfico, cuja saída é, novamente, comparada com as imagens de origem. Tal como acontece com o trabalho sobre discriminação visual, os pesquisadores treinam seu sistema em dados sintéticos antes de refiná-lo com dados reais.
Em testes, o sistema dos pesquisadores novamente superou seus predecessores. Na verdade, em alguns dos testes envolvendo bolas de bilhar, ele também superou os observadores humanos.