Publicaciones

Tesis Doctoral

Título: Modelado Estadístico de Entonación con Funciones de Bézier: Aplicaciones a la Conversión Texto-Voz en Español.

Resumen: El objetivo de esta tesis es definir una metodología de modelado de entonación para sistemas conversores texto-voz. Se propone un método de obtención automática de modelos de entonación a partir de corpus. Para ello, se parametrizan los contornos de F0 en los grupos acentuales empleando funciones de Bézier. Se establecen clases de grupos acentuales de acuerdo a una serie de factores prosódicos preestablecidos. La distribución de los valores de los parámetros para los grupos acentuales de un mismo tipo determina el modelo de entonación de dicho tipo de grupo acentual. Los modelos obtenidos representan la forma de los perfiles de F0 y la variabilidad de los mismos en cada clase o categoría de grupo acentual. Para generar entonación sintética se identifica la clase de grupo acentual y se simula la distribución estadística asociada al modelo de dicha clase. Este método ha sido empleado en conversión texto-voz, siendo los resultados de los tests objetivos y subjetivos comparables con los resultados obtenidos en otros trabajos similares del estado del arte. La metodología de modelado de entonación supone una forma original de afrontar el problema, que permite obtener representaciones cuantitativas de la entonación de un corpus.

Abstract: The aim of this thesis is to define a methodology for modelling intonation with applications in text-to-speech systems. A new method for obtaining intonation models automatically from corpus is proposed. For doing so, F0 contours in the stress groups are parameterised with Bézier functions. A set of classes of stress groups are established according to a number of pre-established prosodic factors. The distribution of the parameters in the stress groups of the same class determines the model of intonation for such class of stress group. The obtained models represent the shape of the F0 contours and its variability in every class or category of stress group. To generate synthetic F0 contours, the type of stress group is identified and the statistical distribution associated with this class is simulated. The synthetic intonation has been used in text-to-speech systems, and the results of objective and subjective tests are comparable to the results obtained in other similar approaches in the state of the art. The methodology for modelling intonation is an original way of coping with this problem, and it permits to obtain a quantitative representation of the intonation in the corpus.

Download here

Fecha de comienzo Enero de 1997

Defensa 18 de Noviembre de 2002 .ppt

Revisores

  • Tutor: Valentín Cardeñoso Payo, Departamento de Informática, Universidad de Valladolid.
  • Presidente: Antonio Bonafonte Cávez, Departamento de Teoría de la Señal, Universidad Politécnica de Cataluña.
  • Secretario: Inmaculada Hernáez Rioja, Departamento de Electrónica y Telecomunicaciones, Universidad del País Vasco.
  • Ricardo de Córdoba Herralde, Departamento de Ingeniería Electrónica, Universidad Politécnica de Madrid.
  • Joaquim Llisterri i Boix, Departamento de Filología Hispánica, Universidad Autónoma de Barcelona.
  • Eduardo Rodríguez Banga, Departamento de Teoría de la Señal y Comunicaciones, Universidad de Vigo.

Agradecimientos Esta tesis ha sido realizada en el grupo de investigación ECA-SIMM del Departamento de Informática, de la Escuela Técnica Superior de Ingeniería Informática, de la Universidad de Valladolid. Los responsables del grupo ECA-SIMM, el Director del Departamento, y el Director del Centro me han facilitado el acceso a parte del material y recursos empleados para realizar el trabajo de investigación. La Consejería de Educación de la Junta de Castilla y León ha financiación parcialmente la investigación realizada. La aportación de Antonio Bonafonte y del Grupo de Procesamiento de la Señal de la Universidad Politécnica de Cataluña han sido decisivas. Una estancia de investigación en Barcelona durante Junio de 2001 posibilitó acceder a un material que ha sido fundamental para la experimentación realizada en este trabajo. Aparte, me posibilitó trabajar con un equipo humano que puedo calificar como extraordinario. Los comentarios de José Ignacio Puebla, posiblemente el mayor experto en entonación de Castilla y León, han sido de gran utilidad A nivel personal mencionar a los chicos de la Politécnica: Ángel, Maruchi, Maribel, Marisa, Magdaleno, Javi y José por haberme cubierto las espaldas cuando ha sido necesario. A mis amigos José Manuel Marqués, Agustín de Dios y Diego Llanos por la presión que han sabido transmitirme con sus constantes e incisivas preguntas sobre la fecha de depósito final de este trabajo. A Valentín por todo. A Santos y Asunción, unos padres estupendos que me siguen apoyando siempre que hace falta. A Alejandra por la paciencia que tenido conmigo en todo el proceso de realización de la tesis.



David Escudero