Hablar, llorar o cantar… ¿cómo los distinguimos?

Los seres humanos nacemos con la capacidad de reconocer cierto tipo de sonidos que pueden provocar respuestas emocionales, un entendimiento que para la inteligencia artificial parece difícil o imposible de alcanzar

julio 31, 2022 •

Manuel Lino / losintangibles.org

Facebook
Whatsapp
Twitter
Copy
Link copied

En junio se dio a conocer LaMDA, el proyecto de inteligencia artificial de Google del que ingenieros de la compañía han dicho que, al ser capaz de conversar con un humano o hasta con otra inteligencia artificial sobre la naturaleza de los sentimientos y sobre si ella misma los experimenta, entonces tiene una cierta consciencia de sí misma.

Incluso si no queremos llevar las cosas tan lejos, desde hace unos años, por ejemplo con la robot humanoide Sophia, a la que Arabia Saudita le otorgó ciudadanía honoraria, es cada vez más difícil distinguir entre una inteligencia humana o natural y una artificial, sobre todo si la comunicación se da únicamente con palabras y oraciones, ya sea en lenguaje escrito o hablado.

Pero, debido a que el habla tiene más elementos que las palabras, aún no es posible que una inteligencia artificial nos engañe si intenta comunicar sentimientos vocalizando. Y ahora sabemos exactamente dónde se encuentran los dos centros cerebrales a los que todavía no se puede engañar.

Sensibilidad innata

Los seres humanos nacemos con la capacidad de reconocer cierto tipo de sonidos como una voz humana y distinguirla de otros sonidos. De hecho, se ha demostrado que las habilidades de reconocimiento de voz comienzan a desarrollarse prenatalmente (los bebés pueden reconocer la voz de su madre mientras aún están en el útero) y preceden al desarrollo de habilidades lingüísticas.

Esa capacidad, que compartimos con otros primates, es dinámica y continúa desarrollándose a lo largo de la infancia y la adolescencia, permitiéndonos distinguir intenciones y emociones, y hasta características demográficas del emisor (como el sexo, la edad y hasta la altura) en las voces que escuchamos.

De acuerdo con una serie de estudios publicados a finales de abril de este año, a partir de los cuatro años, los niños pueden diferenciar fácil y explícitamente cuando una voz está hablando y cuando está cantando o, en otras palabras, entienden que la música y el lenguaje son cosas distintas.

De hecho Christina Vanden Bosch der Nederlanden, de la Universidad de Toronto y autora principal del estudio presentado en el simposio sobre la percepción de la música y el habla, en la pasada reunión anual de la Sociedad de Neurociencia Cognitiva en San Francisco, encontró en un experimento que los bebés de cuatro meses son mejores en el seguimiento de las expresiones cuando son habladas en comparación con las cantadas, “y esto es diferente de lo que vemos en los adultos”, dijo la científica.

“Sin embargo, una pregunta fundamental, que a menudo se pasa por alto” a pesar de los muchos estudios que se han hecho, señaló Andrew Chang, el organizador del simposio, “es qué hace que el cerebro trate las señales de la música y el habla de manera diferente, y por qué los humanos necesitan dos señales auditivas distintas”.

Pero aparentemente también para percibir las voces necesitamos más de un canal.

Gruñidos, aullidos y risas

“Las vocalizaciones que no incluyen el habla, como el llanto, la tos, los gemidos o las exclamaciones de un bebé, nos permiten obtener mucha información sobre la persona que hace esas vocalizaciones en ausencia de otra información sobre la persona”, dice Taylor Abel, profesor investigador de neurocirugía en la Universidad de Pittsburgh y autor principal de una investigación reportada ayer en la revista PLOS Biology.

Abel se especializa en neurocirugía pediátrica en casos de epilepsia, y esto le dio oportunidad de observar cómo responde el cerebro humano a la voz, pues ocho de sus pacientes, a quienes iba a implantar electrodos temporalmente en el cerebro para identificar las regiones que generan las convulsiones epilépticas, aceptaron participar en un estudio para detectar y medir la actividad de ciertas áreas de la corteza auditiva ante vocalizaciones no lingüísticas, como gruñidos, aullidos y risas.

›Además de ubicar las dos zonas cerebrales donde se reciben este tipo de estímulos (el giro temporal superior y el surco temporal superior), los resultados permitieron a los

investigadores identificar que los sonidos vocales y los no vocales se procesan por canales distintos.

Descubrieron que, en el procesamiento de un sonido identificado como vocalización, se hacen más importantes las características de la voz en sí que las acústicas; algo que podría interpretarse como que somos mucho más capaces de detectar detalles en un sonido que reconocemos como una vocalización que en otro tipo de sonidos.

Por ello Abel señala que “la percepción de la voz es similar a cómo los humanos reconocen diferentes caras”, en las que detectan una multitud de detalles.

Epílogo comprensivo

Resolver este tipo de preguntas puede parecer un tanto ocioso, pero “en realidad tienen mucha importancia teórica sobre cómo aprendemos a comunicarnos”, dice Bosch der Nederlanden.

Para esta investigadora, cantante y ejecutante del chelo, la pregunta más inquietante y que la ha guiado desde joven, cuando tocaba en una orquesta juvenil, es cómo ciertos sonidos, en particular ciertas melodías, que a fin de cuentas son sólo conjuntos de vibraciones que percibe el oído, pueden provocar fuertes respuestas emocionales.

A lo que se podría añadir que de alguna manera entendemos la música de una forma distinta a como entendemos el lenguaje, quizá de la misma manera que entendemos el llanto, la risa o los balbuceos de un bebé, un entendimiento que la inteligencia artificial no tiene y parece difícil que lo consiga.

Dato. Se ha visto que los bebés murciélagos hacen ruidos equivalentes a los balbuceos cuando están aprendiendo a emitir sonidos, y que las mamás los imitan al dirigirse a ellos.

sonidos voz humana cantar inteligencia artificial llorar Hablar ciencia humano