Hoje, a equipe da Amazon Polly tem o prazer de anunciar o lançamento de um novo recurso de linguagem de marcação de síntese de fala (SSML) que permite aos desenvolvedores modificar o timbre de qualquer voz de texto para fala (TTS). Esta é uma característica convincente para os clientes que desejam personalizar uma voz existente no portfólio da Amazon Polly para que ela pareça mais como a pessoa específica que eles estão buscando para o seu caso de uso. É especialmente útil para clientes com cenários que envolvem muitas vozes diferentes porque o recurso Timbre facilita a personalização de múltiplas pessoas de voz de cada uma das vozes Amazon Polly disponíveis.
Timbre descreve a cor ou a qualidade percebida de um som, independentemente do tom ou do volume. Muitas vezes, é usado na música, por exemplo, para apontar a diferença entre instrumentos de bronze e instrumentos de cordas, ou para descrever a distinção mais sutil entre uma viola e um violão. Timbre é o atributo percebido que diferencia cada instrumento, mesmo quando todos estão jogando a mesma nota no mesmo volume. Da mesma forma, no contexto da fala, o timbre é o que diferencia uma voz de outra, mesmo quando seu tom (isto é, sua freqüência fundamental) e a intensidade (amplitude) são os mesmos.
O som da voz de cada indivíduo é único devido a uma variedade de fatores, incluindo a fisiologia dessa pessoa, bem como a forma como produzem som. O tamanho e a forma das pregas vocais de uma pessoa, do trato vocal e até mesmo do tamanho e da forma geral do corpo, desempenham um papel importante na determinação da qualidade típica da fala. As maneiras pelas quais uma pessoa posiciona a língua, aperta ou relaxa os músculos, ou aplica a pressão do ar são apenas algumas das técnicas pelas quais o tom, o volume e o timbre da voz podem ser modificados. Os imitadores treinados aprendem a controlar esses movimentos de tal forma que eles são capazes de alterar suas vozes para se parecerem com outras pessoas.
Uma característica fisiológica importante que contribui para o timbre da fala é o trato vocal, que é uma cavidade de ar que abrange do topo das pregas vocais até a borda dos lábios. Há uma variedade de músculos que permitem alterar a forma da cavidade do trato vocal tornando-a mais longa, mais curta, mais larga ou mais estreita. O efeito dessas mudanças faz com que os sons de fala resultantes sejam amplificados ou filtrados.
Pitch é um atributo auditivo que faz com que um som seja percebido como maior ou menor. No contexto da produção de fala, o tom é determinado pela freqüência de vibração da prega vocal. As mulheres geralmente apresentam dobras vocais mais curtas que vibram com mais freqüência (~ 180-200 ciclos por segundo) em relação aos homens. Os homens têm, em média, dobras vocais mais longas que vibram mais devagar (~ 110 ciclos por segundo). Da mesma forma, o comprimento médio do trato vocal é menor para as mulheres do que para os homens (~ 14cm vs ~ 17cm).
Existe uma correlação natural entre o comprimento da prega vocal e o comprimento do trato vocal, de modo que quando um aumenta, o outro também aumenta. O recurso Timbre permite que os desenvolvedores alterem o tamanho do trato vocal, mantendo a capacidade de controlar o tom.
Com a tag SSML do comprimento do trato vocal , agora você pode controlar o timbre da fala de entrada alterando o comprimento do trato vocal do falante. Isso pode soar como uma mudança no tamanho do corpo do falante. Quando você aumenta o comprimento do trato vocal , o alto-falante soa como se fossem maiores. Quando você diminui, eles vão parecer menores. Esta etiqueta pode ser usada com qualquer uma das vozes no portfólio Amazon-Polly Text-to-Speech.
Veja como você pode modificar o comprimento do trato vocal do falante:
O exemplo a seguir mostra como o comprimento do trato vocal pode ser modificado, usando a voz de Joanna:
<speak> This is my original voice, without any modifications. <amazon:effect vocal-tract-length=" 15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> Or, perhaps you prefer my voice when I'm very small? </amazon:effect> You can also control the timbre of my voice by making more minor adjustments. <amazon:effect vocal-tract-length=" 10%"> For example, by making me sound just a little bigger. </amazon:effect> <amazon:effect vocal-tract-length="-10%"> Or instead, making me sound only somewhat smaller. </amazon:effect> </speak>
Ouça agora
Voiced by Amazon Polly |
Você pode combinar a tag SSML do comprimento do trato vocal com qualquer outra tag SSML suportada pelo Amazon Polly. Uma vez que o comprimento e o tom do trato vocal estão intimamente ligados à natureza, você pode obter os melhores resultados alterando o comprimento do trato vocal junto com o tom (aplicando a marca <prosody pitch>).
<speak> The pitch and timbre of a person's voice are connected in human speech. <amazon:effect vocal-tract-length="-15%"> If you are going to reduce the vocal tract length, </amazon:effect> <amazon:effect vocal-tract-length="-15%"> <prosody pitch=" 20%"> you might consider increasing the pitch as well. </prosody></amazon:effect> <amazon:effect vocal-tract-length=" 15%"> If instead you choose to lengthen the vocal tract, </amazon:effect> <amazon:effect vocal-tract-length=" 15%"> <prosody pitch="-10%"> you might also want to lower the pitch. </prosody></amazon:effect> </speak>
Ouça agora
Voiced by Amazon Polly |
Encorajamos você a experimentar diferentes combinações de configurações de comprimento e comprimento do trato vocal, a fim de encontrar a qualidade da voz que melhor se adapte às suas necessidades. Para ajudá-lo nesta exploração, oferecemos-lhe a seguinte matriz de amostras que você pode baixar e ouvir. Você notará que essas amostras variam desde discurso muito realista, até discurso mais parecido com um personagem.
Vocal-Tract-Length e Pitch Sample Matrix (.ppt)
Se você tiver alguma dúvida, deixe-os nos comentários.