Pesquisadores criaram aplicativo para celular que, a partir de um comando de voz, tiram foto e descrevem o ambiente em que o usuário está
A Universidade Federal de Goiás (UFG) desenvolveu um aplicativo que promete facilitar o cotidiano e gerar autonomia de locomoção e localização para deficientes visuais. Intitulado de “Deep Vison – Olho Eletrônico”, o sistema descreve ambientes para pessoas cegas utilizando a câmera de celulares.
Um dos idealizadores, o pesquisador Anderson Soares explica que o app funciona a partir dos comandos de voz “veja” ou “o que tem aqui?”, que acionam a câmera do dispositivo, fotografando uma situação e, em seguida, detalha especificadamente por meio de um áudio o ambiente em que o usuário se encontra.
Segundo ele, o aplicativo terá duas funcionalidades específicas, sendo a primeira a descrição de ambientes e a segunda um direcionamento sensorial de trânsito, no qual a câmera captará objetos em movimento e obstáculos, o que gera um efeito sonoro no fone de ouvido.
“A ideia é que o app colabore com os mecanismos de acessibilidade já existentes, permitindo que o usuário se localize com total autonomia, sem precisar de outro individuo”, completa.
O aplicativo estará disponível para download até o final deste ano e o seu funcionamento dependerá de conexão com a internet. Já para 2019, pensando na realidade brasileira, o objetivo é a criação de um óculos eletrônico com as mesmas funcionalidades, mas que não faça uso de banda larga.
O projeto conta com um site para que qualquer pessoa possa realizar um teste e entender como o software funciona.
Modo de operação
O “Deep Vision” faz parte da “aprendizagem profunda”, conhecida como “Deep Learning”, que é uma das vertentes mais prevalentes do mundo computacional, pois “promove o entendimento de imagens”, defende o pesquisador Otávio Calaça.
De acordo com ele, a partir dessa funcionalidade, o aplicativo utiliza quatro redes neurais com aproximadamente 400 milhões de parâmetros que fazem o reconhecimento das imagens. A primeira rede é responsável por fazer o reconhecimento da voz do usuário, acionando a câmera para a captura da foto eletrônica.
“Em seguida, a segunda rede capturará os detalhes da imagem que foi tirada pela câmera, acionando a terceira rede que irá vincular os detalhes capturados em uma espécie de texto”, completa. O pesquisador aponta que, por fim, a última rede neural será acionada para um processamento de voz, gerando um áudio tanto em inglês quanto em português, para descrever a situação em que o deficiente visual se encontra.