¿Alguna vez has deseado poder entender lo que tu perro intenta decirte? Los investigadores de la Universidad de Michigan están explorando las posibilidades de la IA, desarrollando herramientas que pueden identificar si el ladrido de un perro transmite alegría o agresión.
Una herramienta de IA desarrollada en la Universidad de Michigan puede distinguir los ladridos juguetones de los agresivos, además de identificar la edad, el sexo y la raza del perro.
Los mismos modelos también pueden obtener otra información de las vocalizaciones de los animales, como la edad, la raza y el sexo del animal. El estudio, que se realizó en colaboración con el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) de México en Puebla, concluye que los modelos de IA entrenados originalmente con el habla humana pueden utilizarse como punto de partida para entrenar nuevos sistemas que se centren en la comunicación animal.
Los resultados se presentaron en la Conferencia Internacional Conjunta sobre Lingüística Computacional, Recursos Lingüísticos y Evaluación.
“Al utilizar modelos de procesamiento del habla entrenados inicialmente con el habla humana, nuestra investigación abre una nueva ventana a cómo podemos aprovechar lo que hemos construido hasta ahora en el procesamiento del habla para empezar a comprender los matices de los ladridos de los perros”, dijo Rada Mihalcea, profesora universitaria Janice M. Jenkins de Ciencias de la Computación e Ingeniería y directora del Laboratorio de IA de la U-M.
“Hay mucho que aún no sabemos sobre los animales que comparten este mundo con nosotros. Los avances en IA se pueden utilizar para revolucionar nuestra comprensión de la comunicación animal, y nuestros hallazgos sugieren que es posible que no tengamos que empezar desde cero”.
Uno de los obstáculos que prevalecen para desarrollar modelos de IA que puedan analizar las vocalizaciones de los animales es la falta de datos disponibles públicamente. Si bien existen numerosos recursos y oportunidades para registrar el habla humana, recopilar esos datos de los animales es más difícil.
Artem Abzaliev y su perro, Nova, en Núremberg, Alemania. El software de inteligencia artificial que desarrolló con Rada Mihalcea y Humberto Pérez-Espinosa puede identificar si el ladrido de un perro es juguetón o agresivo, así como identificar la raza, el sexo y la edad.
(Imagen cortesía de: Artem Abzaliev)
“Las vocalizaciones de los animales son logísticamente mucho más difíciles de solicitar y registrar”, dijo Artem Abzaliev, autor principal y estudiante de doctorado en ciencias de la computación e ingeniería de la U-M. “Deben registrarse pasivamente en la naturaleza o, en el caso de las mascotas domésticas, con el permiso de los dueños”.
Debido a esta escasez de datos utilizables, las técnicas para analizar las vocalizaciones de los perros han resultado difíciles de desarrollar, y las que existen están limitadas por la falta de material de capacitación. Los investigadores superaron estos desafíos readaptando un modelo existente que originalmente fue diseñado para analizar el habla humana.
Este enfoque permitió a los investigadores aprovechar modelos robustos que forman la columna vertebral de las diversas tecnologías habilitadas por voz que utilizamos hoy, incluida la conversión de voz a texto y la traducción de idiomas. Estos modelos están entrenados para distinguir matices en el habla humana, como el tono, el timbre y el acento, y convertir esta información en un formato que una computadora puede usar para identificar qué palabras se están diciendo, reconocer a la persona que habla y más.
"Estos modelos pueden aprender y codificar los patrones increíblemente complejos del lenguaje y el habla humanos", dijo Abzaliev. "Queríamos ver si podíamos aprovechar esta capacidad para discernir e interpretar los ladridos de los perros".
Los investigadores utilizaron un conjunto de datos de vocalizaciones de perros registradas de 74 perros de diferentes razas, edades y sexos, en una variedad de contextos. Humberto Pérez-Espinosa, colaborador de INAOE, dirigió el equipo que recopiló el conjunto de datos. Abzaliev utilizó entonces las grabaciones para modificar un modelo de aprendizaje automático, un tipo de algoritmo informático que identifica patrones en grandes conjuntos de datos. El equipo eligió un modelo de representación del habla llamado Wav2Vec2, que originalmente se entrenó con datos del habla humana.
Con este modelo, los investigadores pudieron generar representaciones de los datos acústicos recopilados de los perros e interpretar estas representaciones. Descubrieron que Wav2Vec2 no solo tuvo éxito en cuatro tareas de clasificación, sino que también superó a otros modelos entrenados específicamente con datos de ladridos de perros, con cifras de precisión de hasta el 70%.
“Esta es la primera vez que se han desarrollado técnicas optimizadas para el habla humana para ayudar a decodificar la comunicación animal”, dijo Mihalcea. “Nuestros resultados muestran que los sonidos y patrones derivados del habla humana pueden servir como base para analizar y comprender los patrones acústicos de otros sonidos, como las vocalizaciones de los animales”.
Fuente: University of MIchigan