Cómo usar el procesamiento de señal digital para diseccionar lo que las aves se dicen

Pregunta difícil. No tiene una respuesta directa y tiene el potencial de ser un problema de investigación para un par de estudiantes de posgrado. Pero intentaré abordarlo (aunque de una manera muy superficial).

Antes de llegar realmente al meollo del problema, primero debemos adquirir datos, es decir, sonidos de pájaros. Si las aves no están cautivas, esta podría ser una tarea extremadamente difícil. Primero tenemos que filtrar las voces (!) De aves de la especie de interés.

Una vez que tenemos suficientes datos, el resto se reduce al procesamiento de señales y al reconocimiento de patrones. Pero aquí hay un gran problema, ¡realmente grande! ¿Qué es lo que quieres identificar?

Permítanme dar un ejemplo (en el dominio del procesamiento de imágenes). Supongamos que queremos detectar todos los objetos en movimiento en un video. El objetivo es claro aquí, sabemos lo que significa el movimiento, sabemos cómo se captura en un video. Este conocimiento previo del dominio se aplica para realizar la detección de objetos.

Sin embargo, en caso de reconocimiento de voz de pájaro, no sabemos qué queremos buscar. Aquí viene la necesidad de expertos en dominios. Muchas personas pueden identificar diferentes llamadas de pájaros. Se ha observado que las llamadas de los pájaros varían para cada acción (¡obviamente correcto! Así es como se comporta el habla humana).

Si somos capaces de transferir el conocimiento de los expertos en dominios a la computadora mediante el desarrollo de una buena función, ahora todo es reconocimiento de patrones.

Espero que la respuesta tenga sentido!

DSP se queda corto en la investigación del lenguaje animal porque carece de una capa de cognición que vaya por encima del procesamiento estricto de la señal. Lo mejor que puede hacer DSP es identificar patrones similares o decir grupos silábicos como huellas de sonido o similares, pero los matices del lenguaje están mucho más allá y más en redes neuronales o campos de computación cognitiva (inteligencia artificial).