¿Cómo hacer música con la conversión de texto a voz?

Si quiere componer una canción, pero odia su voz, no conoce a ningún cantante con el que trabajar o simplemente no tiene el equipo necesario para grabar, puede utilizar un software de texto a voz para que cante por usted.

Las herramientas de texto a voz como «Emvoice», «Synthesizer V Studio» o «Vocaloid» le permiten crear líneas vocales expresivas y realistas con distintas voces. Las líneas vocales y las letras pueden configurarse a través de una interfaz similar a la de un secuenciador, con vibrato, expresión e incluso sonidos de respiración.

Antes de ver cómo hacer cantar a su ordenador, echemos un rápido vistazo a la historia de la conversión de texto en voz.

¿Qué es la conversión de texto en voz?

La conversión de texto en voz es una tecnología que crea una señal de voz artificial. Apareció por primera vez en la década de 1930 con el VODER (vídeo a continuación), pero las primeras aplicaciones comerciales se desarrollaron en la década de 1960.

En aquella época, la conversión de texto a voz se utilizaba principalmente para ayudar a las personas con discapacidades físicas a comunicarse más fácilmente. Desde entonces, la conversión de texto a voz se ha utilizado en muchas aplicaciones diferentes, como los sistemas de información telefónica y los asistentes de voz inteligentes.

A lo largo de las décadas, la conversión de texto a voz ha experimentado muchas mejoras. Los primeros sistemas eran muy mecánicos y poco naturales, pero las tecnologías modernas permiten crear voces artificiales casi indistinguibles de las voces humanas reales. Los avances en inteligencia artificial y aprendizaje automático también han mejorado mucho la calidad y la naturaleza de las voces sintéticas.

Hoy en día, la conversión de texto a voz se utiliza en una gran variedad de aplicaciones, como la producción de audiolibros, los sistemas de navegación y los asistentes de voz inteligentes como los del iPhone o Android. También se utiliza para ayudar a las personas con discapacidades físicas a comunicarse más fácilmente y para que los analfabetos puedan acceder a la información escrita.

Aunque la conversión de texto a voz ha experimentado muchas mejoras y ha llegado a ser bastante realista, sigue habiendo muchos retos, sobre todo en lo que respecta a la naturalidad de las voces artificiales, así como a la capacidad de transmitir emociones y matices sutiles del lenguaje hablado.

La voz de Stephen Hawking

La voz sintetizada de Stephen Hawking se recuerda como una versión personalizada del programa de conversión de texto a voz DECtalk. Cuando Hawking empezó a perder la capacidad de hablar debido a la progresión de su enfermedad (enfermedad de Lime), comenzó a buscar una forma alternativa de comunicarse. En 1985, empezó a utilizar un programa de texto a voz llamado«Equalizer» que se instaló en un ordenador Sinclair QL.

En 1988 empezó a utilizar un sintetizador de voz DECtalk que se controlaba con un interruptor basculante. Era una voz robótica y monótona que se hizo mundialmente famosa.

Sin embargo, en 1988 la tarjeta de sonido del ordenador Sinclair QL fue retirada del mercado y sustituida por un modelo incompatible con el sintetizador de voz DECtalk. Esto obligó a Hawking a buscar una alternativa. Finalmente optó por una voz proporcionada por la empresa canadiense de conversión de texto a voz«Speech Plus«.

Esta se convirtió en la voz más famosa, ya que fue utilizada por Hawking durante más de tres décadas, hasta su muerte en 2018.

Apple y la conversión de texto a voz

Igualmente famoso, el texto a voz del Macintosh SE utilizaba el software MacinTalk, desarrollado por Apple en la década de 1980. Era una voz robótica y mecánica que rápidamente se convirtió en emblemática de los ordenadores Apple de la época.

Curiosamente, la conversión de texto a voz ha evolucionado mucho desde entonces, con voces más naturales y expresivas.

¿Qué software de conversión de texto a voz puedo utilizar para componer música?

En lo que respecta a la composición musical, la tecnología también ha progresado mucho y a veces se ha vuelto casi indistinguible de una voz real.

Existen varias aplicaciones que le permiten componer líneas melódicas con una voz sintetizada, pero hay una gran disparidad en cuanto al realismo y los idiomas disponibles de un software a otro.

Parámetros como el vibrato, la intensidad e incluso los sonidos de la respiración son controlables y programables. Tendrá que escribir sus notas musicales y añadir la letra de su canción. Después podrá modular la articulación con diferentes efectos de voz desde la interfaz del software.

Veamos cuáles son los mejores software de texto a voz para música.

Emvoice

Emvoice ofrece varias voces diferentes como Keela, Lucy, Jay y Thomas con distintos tonos y rangos de voz para varios estilos musicales. Emvoice está disponible en formato VST para Mac y Windows.

https://emvoiceapp.com/

Eclipsed Sounds

Eclipse Sounds produce posiblemente uno de los mejores programas de síntesis de voz para música disponibles en la actualidad, con dos voces diferentes: Solaria (femenina) y Asterian (masculina).

Ambas voces requieren el software gratuito Synthesizer V Studio Basic, pero pueden utilizarse en todo su potencial con la versión Pro del software, que le permitirá utilizar los plugins VST y Audio Unit.

Aquí tiene una pequeña vista previa de la interfaz del software:

Solaria

Solaria es una voz femenina que puede cantar en tres idiomas diferentes,inglés, chino y japonés.

https://www.eclipsedsounds.com/solaria

Asterian

Una voz masculina grave sólo en inglés.

https://www.eclipsedsounds.com/asterian

Vocaloid

Vocaloid es un software de síntesis de voz muy popular. Fue creado por Yamaha en 2004. Desde entonces, el software ha sufrido muchas actualizaciones y mejoras, y se ha hecho muy popular entre músicos y productores musicales, especialmente en Japón tras popularizarse por el éxito de Hatsune Miku.

El número exacto de voces disponibles en Vocaloid depende de la versión y de los paquetes adicionales instalados, pero suele haber varias voces diferentes disponibles para cada idioma compatible.

Por ejemplo, la versión inglesa de Vocaloid 5 incluye voces como«Ruby«,«Chris«,«Amy«,«Otomania» y «YAMAHA VOCALOID 5 Library».

Las voces de Vocaloid son creadas por estudios de producción de voces como Crypton Future Media (que creó a Hatsune Miku), Zero-G y PowerFX.

A pesar de su relativo éxito, se prefieren otras voces como las de Solaria y Emvoice, ya que su sonido ha envejecido bastante mal y suena robótico. 🤖

https://www.vocaloid.com/en/

¿Quién es Hatsune Miku?

Es difícil hablar de la síntesis de voz sin hablar de la mayor estrella de la síntesis de voz, Hatsune Miku. Es un personaje virtual creado íntegramente por Crypton Future Media utilizando el software de síntesis de voz Vocaloid (desde la versión 2). Canta exclusivamente en japonés, ya que su público es mayoritariamente japonés.

Su éxito es tal que se ha convertido en un auténtico icono de la cultura pop japonesa. Incluso da conciertos virtuales, como este de 2016:

Audiología

Entre los sintetizadores de voz más realistas se encuentran Jun y Anri, producidos por Audiologie. Al igual que con Eclipsed Sounds, estas dos voces también requieren el software Synthesizer V Studio Basic (gratuito), pero dispondrá de más parámetros con la versión Pro del software.

https://audiologie.us/