Identificación biométrica a través del reconocimiento del locutor

En la época actual, la biometría identificativa se ha convertido en algo totalmente implantado en la sociedad y ha pasado de ser algo increíble y propio de las películas de ciencia a ficción de hace unas cuantas décadas, a ser algo totalmente normalizado y con lo que vivimos cada día.

Desbloquear un teléfono móvil, acceder al gimnasio, realizar pagos electrónicos, o que una puerta se abra exclusivamente para nosotros son algunos ejemplos cotidianos que ponen de manifiesto el hecho de que la biometría identificativa forma parte de nuestra vida.

Gracias a los avances tecnológicos es posible encontrar multitud de diferentes dispositivos capaces de emplear, cada uno de ellos, algún elemento corporal o propio del ser humano, sin que exista la necesidad de que este elemento sea algo físico, como puede ser la huella dactilar o el iris del ojo.

Cuando hablamos de estos elementos “no físicos” nos estamos refiriendo a, por ejemplo, nuestra voz.

¿Acaso no somos capaces de reconocer a un familiar o a un amigo simplemente por su voz, sin necesidad de verle el rostro?

De esto mismo será capaz un dispositivo cuya misión será verificar que la persona que se encuentra frente a él y pronuncia unas palabras determinadas es realmente quien dice ser.

La voz humana

La voz es un flujo que se genera en los pulmones

Lo que comúnmente conocemos por voz es un flujo de aire que se genera en los pulmones, y que va atravesando una serie de zonas comprendidas desde los mismos hasta llegar a la boca, por donde es expulsado.

Estas zonas son las siguientes:

La tráquea: se trata de un tubo que comienza en los pulmones y termina en la laringe.
Las cuerdas vocales: se encuentran en la laringe y son las principales responsables de que nuestra voz “suene” debido a la vibración que produce en ellas el flujo de aire que surge de los pulmones.
Velo del paladar: cuando hablamos no solo utilizamos la boca, sino que también intervienen los conductos nasales. El velo del paladar se encarga de controlar el aire que atraviesa los conductos nasales y la cavidad bucal.
Tracto nasal: se corresponde con la zona comprendida entre el velo del paladar y las fosas nasales.
Tracto bucal: se corresponde con la zona existente entre el velo del paladar y los labios, último punto de nuestro cuerpo que entra en contacto con el aire expulsado.

Para que se genere la voz el primer paso es, como ya se ha dicho, generar una corriente de aire gracias a los pulmones; esta corriente atraviesa la tráquea hasta llegar a la laringe, donde las cuerdas vocales ubicadas en ellas comenzarán a vibrar generando ondas acústicas.

Las ondas acústicas generadas siguen ascendiendo junto al flujo de aire por el tracto bucal, y pasando parte de este al tracto nasal.

La lengua, los labios y los dientes van a ayudar a darle “sentido” a esa voz, es decir, son los encargados de transformar el aire generado en los diferentes sonidos correspondientes a cada letra, formando palabras, hasta que finalmente este aire es expulsado al exterior.

Las variaciones producidas en estos elementos en cada cuerpo van a dar lugar a las diferencias entre las distintas voces de cada persona, algo indispensable para una adecuada identificación biométrica.

La velocidad con la cual vibran las cuerdas, su estado de humedad, la textura, la forma de la cavidad bucal, la acción que ejerce el velo del paladar… son algunas de estas variaciones que van a modular la voz de una persona.

Cuando se genera la voz se emiten dos tipos de sonido:

Sonidos sonoros: aquellos en los que las cuerdas vocales vibran debido al flujo de aire que emerge de los pulmones. Es el caso, por ejemplo, de las vocales.
Sonidos sordos: aquellos en los que las cuerdas vocales permanecen relajadas mientras el aire las atraviesa. Como ejemplo sirven las letras s y z.

La voz humana desde el punto de vista de la identificación biométrica

A la hora de emplear cualquier elemento corporal (físico o no) con fines identificativos, va a ser preciso analizarlo y descomponer las diferentes características que forman parte del mismo para, así, poder establecer las diferencias necesarias entre elementos de diferentes personas.

La voz, como hemos apuntado anteriormente, se compone de sonidos sonoros y de sonidos sordos.

Los sonidos sonoros están formados por ondas periódicas generadas por la vibración de las cuerdas vocales. La frecuencia de estas ondas va a determinar el tono de la voz, y se trata de un sonido estable a corto plazo y de elevada energía.

El espectro de un sonido sonoro se encuentra formado por la envolvente espectral y por las componentes armónicas que son las que forman la estructura fina del espectro.

Los sonidos sordos se producen por constricciones en el tracto vocal. Se trata de sonidos de cierta estabilidad a corto plazo, alta frecuencia y de baja energía.

El espectro de un sonido sordo carece de componentes armónicas.

El hecho de que se puedan generar diferentes sonidos va a ser consecuencia del carácter que presentan lo que se conoce como formantes. Los formantes se corresponden con todo aquello referente a la configuración de los órganos específicos del tracto vocal que se encargan de producir un sonido.

Cada uno de estos sonidos diferenciados van a presentar una envolvente espectral específica que va a permitir diferenciarlos entre ellos, y que va a ser precisamente lo que empleen los sistemas de reconocimiento del locutor.

Por otro lado, la estructura fina del espectro no aporta información relevante ni de utilidad para ser empleada por este tipo de sistemas.

Es pues, la envolvente espectral, aquella que va a contener la información útil que permitirá diferenciar la voz de una persona u otra.

La información presente en la voz de una persona

Los aspectos a los cuales atiende un sistema de reconocimiento biométrico a la hora de diferenciar entre las diferentes voces no difiere en gran medida de aquellos que tiene en cuenta una persona para lograr el mismo fin, con la diferencia de que el sistema de reconocimiento es consciente de ello (porque así se le ha ordenado), mientras que una persona atiende a estos aspectos de forma inconsciente.

Estos aspectos pueden ser clasificados en dos categorías:

Información de bajo nivel: todos aquellos factores que tienen que ver con el sonido de la voz como consecuencia del tamaño y forma de los órganos encargados de la fonación, resonancia, amplitud de banda, frecuencia de onda, la forma en que se concatenan los sonidos que forman las palabras, entonación en el habla o la duración de los silencios.
Información de alto nivel: todos aquellos factores que tienen que ver con el dialecto empleado, la jerga, la velocidad al hablar, el léxico, el estilo, o el uso de palabras peculiares.

Sin embargo, la voz humana va a presentar una serie de pequeños inconvenientes al ser empleada como seña de identidad en una identificación biométrica, y es que, con el paso del tiempo, esta se va viendo modificada de manera inevitable; es posible modificar algunos parámetros a voluntad dentro de unos límites; o es posible que debido a determinadas circunstancias (afonía, estado anímico, consumo de sustancias como el alcohol…) esta se vea modificada.

Tipos de sistemas de reconocimiento del locutor

A la hora de hablar de este tipo de dispositivos, se va a poder realizar una clasificación de los mismos en función de las características que presenten.

Por ejemplo, podemos encontrar dispositivos:

Que dependen del texto a reconocer, y que son aquellos que sólo serán capaces de procesar una determinada frase o palabra clave memorizada anteriormente.
Que son independientes del texto a reconocer, y que, por lo tanto, serán capaces de procesar cualquier frase o palabra.

Se puede establecer, también, otra clasificación en función del tipo de configuración que presente el sistema de reconocimiento:

Sistemas cerrados: son aquellos que presuponen que la persona que va a ser identificada se encuentra ya registrada en la base de datos del sistema.
Sistemas abiertos: a diferencia de los sistemas cerrados, los abiertos tienen en cuenta que la persona que se está tratando de identificar puede no estar registrada en la base de datos, por lo que debe tratar de buscar aquel modelo almacenado que se ajuste lo más fielmente posible al de la persona a identificar, dando una salida negativa en caso de no encontrarla.

Todos estos dispositivos suelen contar con un micrófono que se encarga de convertir las ondas acústicas en una señal eléctrica, la cual es digitalizada.

Diferencia entre reconocimiento de voz y reconocimiento del locutor

En este punto se debe matizar la diferencia existente entre un sistema de reconocimiento del locutor, y un sistema de reconocimiento de voz, términos que se suelen confundir con frecuencia.

El primero de ellos se encarga de reconocer la identidad de una persona a partir de las características de su voz, tal y como se está exponiendo en este texto; mientras que un sistema de reconocimiento de voz se encarga de reconocer las palabras pronunciadas por una persona.

A este segundo tipo de sistemas pertenecen, por ejemplo, los programas de entrada de texto por voz, el reconocimiento de órdenes habladas en electrodomésticos o automóviles, o las búsquedas en internet mediante voz.

Funcionamiento de un sistema biométrico de reconocimiento del locutor

Dada la elevada variabilidad que puede presentarse en la voz de una persona debido a las circunstancias anteriormente expuestas, los sistemas biométricos de reconocimiento del locutor van a poder trabajar en tres modos distintos:

Modo de aprendizaje o entrenamiento: se trata de un modo de trabajo en el cual el sistema capta la voz de una persona en repetidas ocasiones con el fin de analizar todos los factores posibles característicos de la misma. Toda la información recopilada es almacenada en la base de datos del dispositivo y es asociada a la persona que ha efectuado las locuciones.
Modo de trabajo: en este modo de trabajo el dispositivo capta la voz de un individuo, la analiza, y compara los factores característicos obtenidos con todos los pertenecientes a los individuos almacenados en la base de datos hasta encontrar aquel que coincide con la persona que se encuentra frente al dispositivo y, así, verificar la identificación.
Modo de actualización: gracias a este modo de trabajo, el sistema será capaz de actualizar la información asociada a la voz de cada individuo y, así, poder modificar todos los factores que se van viendo alterados por el paso del tiempo.

Algoritmos empleados para realizar la identificación por voz

Como es habitual en este tipo de dispositivos, su funcionamiento está basado en una serie de algoritmos que se encargan de procesar la información y transformarla en datos clasificables y comparables entre sí.

Dependiendo del fabricante del dispositivo se empleará un algoritmo distinto, pero todos ellos se pueden agrupar en tres tipos diferenciados,

Algoritmo de alineamiento temporal dinámico

Ya se ha comentado en varias ocasiones que es muy improbable que una misma persona pronuncie una misma frase exactamente igual en dos ocasiones distintas.

Estos algoritmos se basan en analizar dos frases enteras e iguales, pero efectuadas en momentos diferentes, dividiéndolas en pequeños fragmentos (del orden de milisegundos), y estableciendo así un alineamiento temporal entre ambas frases.

Una vez efectuado este alineamiento, se calcula la distancia mínima entre cada una de sus características.

El valor de esta distancia es el que validará, o no, la verificación de la identidad del locutor.

Este tipo de algoritmos presentan el inconveniente de que se requiere recitar siempre la misma frase, por lo que actualmente ha caído en desuso.

Algoritmo de redes neuronales

El principio de funcionamiento de este tipo de algoritmos es el de emular al cerebro humano.

Existen dos tipos diferentes:

Clasificación directa

El algoritmo busca extraer toda aquella información que sea capaz de discriminar entre locutores y, de esta forma, durante la fase de entrenamiento del sistema, se efectuará una discriminación del locutor que se va a añadir a la base de datos frente al resto de locutores almacenados en ese momento.

Este tipo de algoritmo presenta el inconveniente de que conforme va aumentando el número de usuarios almacenados, más trabajo supone este proceso.

Modelado predictivo del locutor

En este caso se emplean las redes neuronales para realizar un proceso predictivo de producción de voz para los diferentes locutores que se encuentran en la base de datos del dispositivo.

Este proceso predictivo se basa en realizar un entrenamiento de máxima verosimilitud, el cual estima que cada uno de los factores que caracterizan la voz de una persona sigue una distribución normal, asignando a cada uno de ellos la probabilidad de pertenecer a un locutor.

Esto implica crear un modelo independiente para cada locutor, sin tener en cuenta al resto, algo que simplifica el proceso de añadir o quitar usuarios en la base de datos.

Modelo oculto de Markov

Este tipo de algoritmo es el que ha sido más empleado en los últimos años en los sistemas independientes de texto.

Durante la fase de trabajo de un dispositivo se registra la voz de una persona a identificar, y es comparada con las diferentes voces almacenadas en la base de datos.

La peculiaridad de este tipo de algoritmos radica en que las voces de cada usuario almacenadas en la base de datos son sometidas periódicamente a una reestimación de sus parámetros.

De esta forma, cada usuario del sistema cuenta con su propio conjunto de datos de entrenamiento, el cual se ve actualizado constantemente.

La comparación entre la voz a reconocer y el resto de usuarios almacenados en la base de datos

El modo principal de trabajo de un dispositivo de reconocimiento del locutor se basa en comparar una voz registrada en un momento, con una serie de voces de usuarios almacenadas en una base de datos.

Este número de voces de usuarios almacenadas puede llegar a ser, en ocasiones, bastante elevado, por lo que establecer una comparación con todas ellas puede volverse un proceso bastante largo que empeoraría las prestaciones del servicio ofrecido por el dispositivo.

Para simplificar este proceso, durante la fase de entrenamiento del sistema en la cual se va a registrar un nuevo usuario, este selecciona, de entre todos los usuarios almacenados hasta ese momento, una cohorte, es decir, una selección de aquellos usuarios con características similares al que se va a añadir en ese momento.

De esta forma, durante la fase de trabajo, el sistema realizará una comparación entre el individuo a verificar y su cohorte, la cual estará compuesta entre uno y cinco locutores.

Ventajas e inconvenientes de los sistemas de reconocimiento del locutor

Ventajas

Una de las principales ventajas que presenta este tipo de tecnología es que puede ser implementada en una gran cantidad de dispositivos electrónicos.

Uno de los ejemplos más claros es el del referente a los smartphones, ya que desde los más sencillos y económicos, hasta los más avanzados pueden contar con este tipo de sistemas, los cuales permiten bloquear o desbloquear el dispositivo como medida de seguridad.

El reconocimiento biométrico de voz no es una tecnología cara o inaccesible económicamente, ello propicia que se encuentre ampliamente extendida en la sociedad, junto a otros sistemas como, por ejemplo, el reconocimiento de huella dactilar.

Tampoco requiere de elementos de gran precisión o calidad, algo que sí ocurre con otro tipo de tecnologías biométricas (caso del reconocimiento de iris o retina).

Desventajas

La principal desventaja de este tipo de tecnología se debe a la variabilidad que puede sufrir la voz de una persona debido a diferentes causas.

Por ejemplo, el paso del tiempo, lo cual constituirá un problema si durante un intervalo muy prolongado no se ha utilizado el dispositivo de reconocimiento dándole opción a este de que actualice, poco a poco, esos cambios registrados.

El hecho de que existan ruidos de fondo mientras se realiza una locución frente al dispositivo puede entorpecer o alterar el proceso de identificación del individuo.

Dependiendo del tipo de dispositivo empleado, puede contar con diferentes medidas que tratan de minimizar estas interferencias.

Aplicaciones de los sistemas de reconocimiento del locutor

La simplicidad que presenta este tipo de tecnología la convierte en apta para ser usada en muy diferentes ámbitos, desde los más cotidianos, hasta los más específicos.

Una de estas aplicaciones cotidianas, y a la cual ya se ha hecho referencia, es la de servir como elemento de bloqueo y desbloqueo de diferentes dispositivos electrónicos personales, como un smartphone.

La aplicación más habitual, no solo del reconocimiento de locutor, sino de cualquier sistema de reconocimiento biométrico, es la de controlar el acceso a determinadas instalaciones físicas o a información.

Sirve también como elemento de autentificación a la hora de efectuar una operación bancaria de cierta entidad, o a la hora de realizar operaciones comerciales dentro del ámbito del comercio electrónico.

En un ámbito más específico, como por ejemplo el de los cuerpos y fuerzas de seguridad, el reconocimiento de locutor puede aplicarse para identificar la voz de un determinado individuo en cualquier conversación telefónica o grabación.

Para ello, evidentemente, se deberá haber registrado previamente la voz de esa persona en, por ejemplo, un interrogatorio.

Sin abandonar este ámbito, el reconocimiento del locutor se puede emplear para verificar que una persona que ha sido sometida a un arresto domiciliario se encuentra en dicho domicilio mediante una simple llamada telefónica. Esto evita el tener que desplazar personalmente a un agente de la autoridad para realizar la comprobación.