Nesta página você pode obter uma análise detalhada de uma palavra ou frase, produzida usando a melhor tecnologia de inteligência artificial até o momento:
Síntese de fala é o processo de produção artificial de fala humana. Um sistema informático utilizado para este propósito é denominado sintetizador de fala, e pode ser implementado em software ou hardware. Um sistema texto-fala (TTS, na sigla em inglês) converte texto ortográfico em fala. Outros sistemas interpretam representação lingüística simbólica (como transcrição fonética) em fala.
Fala sintetizada pode ser criada concatenando-se pedaços de fala gravada, armazenada num banco de dados. Os sistemas diferem no tamanho das unidades de fala armazenada. Um sistema que armazene fones ou alofones fornecem a maior faixa de saída, mas podem carecer de clareza. Para usos específicos, o armazenamento de palavras ou frases inteiras possibilita uma saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo do trato vocal (caminho percorrido pela fala) e outras características da fala humana, para criar como saída uma fala completamente "sintética".
A qualidade de um sintetizador de fala é determinada por sua similaridade com a fala humana e por sua capacidade de ser entendida. Um programa TTS inteligível permite que pessoas com deficiência visual ou com dificuldades de leitura possam ouvir obras escritas em um computador pessoal. Muitos sistemas operacionais têm incluído capacidade de síntese de fala desde o início da década de 1990. Na década de 1990, surgiram sistemas que fazem a operação inversa de converter fala para texto ortográfico.
Um sistema texto-fala é composto de duas partes: um front-end e um back-end. O front-end tem duas tarefas principais. Primeiro, converter texto bruto contendo símbolos como números e abreviações no equivalente de palavras escritas. Este processo é muitas vezes chamado de normalização de texto, pré-processamento ou tokenização. Depois, atribuir transcrições fonéticas a cada palavra e dividir e marcar o texto em unidades como sentenças, frases e cláusulas. Este processo é chamado de conversão de texto para fonema ou grafema para fonema. As transcrições fonéticas e as informações da prosódia compõem a representação lingüística simbólica que é produzida pelo front-end.
Então, o back-end (muitas vezes referido como o sintetizador) converte a representação lingüística simbólica em som. Em certos sistemas, esta parte inclui a computação da prosódia (contorno de tom, durações de fonemas), que é então imposta na fala de saída.