BJORL - Brazilian Journal of Otorhinolaryngology

Versão Inglês

Ano: 2009 Vol. 75 Ed. 5 - Setembro - Outubro - (11º)

Seção: Artigo Original

Páginas: 680 a 684

PDF PT

PDF EN

Função de transferência das vogais orais do Português brasileiro: análise acústica comparativa

Transfer function of Brazilian Portuguese oral vowels: a comparative acoustic analysis

Autor(es): Maria Inês Rebelo Gonçalves1, Paulo Augusto de Lima Pontes2, Vanessa Pedrosa Vieira3, Antônio Augusto de Lima Pontes4, Daniella Curcio5, Noemi Grigoletto De Biase6

Palavras-chave: acústica da fala, espectrografia do som, fonética, voz.

Keywords: speech acoustics, sound spectrography, phonetics, voice.

Resumo:
O trato vocal transfere suas características ao som produzido na glote, de acordo com sua configuração tridimensional. Objetivo: Determinar qual das sete vogais orais do Português brasileiro sofre a menor interferência acústica das modificações do trato vocal. Material e método: Estudo transversal prospectivo. Os indivíduos foram 23 homens e 23 mulheres, na faixa etária entre 20 e 45 anos (médias de 28,95 e 29,79 respectivamente), sem queixas vocais e com qualidade vocal normal na avaliação perceptivo-auditiva. 322 emissões vocais sustentadas foram digitalizadas e analisadas acusticamente utilizando-se a combinação de três programas computadorizados. Os resultados foram comparados à distribuição das frequências de ressonância de um tubo reto fechado em uma das extremidades. Resultados: A análise estatística mostrou que a vogal /e/ apresentou diferença significativa em comparação com as demais vogais, com valores harmônicos médios mais altos e menores desvios-padrão para ambos os sexos. Conclusão: Para o Português brasileiro, a vogal /e/ sofre menor influência das modificações do trato vocal e apresenta atenuação significativamente menor para ambos os sexos. A inclusão dessa vogal nos protocolos padronizados de avaliação vocal pode contribuir para a qualidade da informação obtida por meio das análises espectrográficas e acústica quantitativa.

Abstract:
The vocal tract transfers its characteristics onto the sounds produced at the glottis, depending on its tridimensional configuration. Aim: this study aims to determine which of the seven oral vowels in Brazilian Portuguese is acoustically less impacted by changes to the vocal tract. Materials and method: this is a cross-sectional prospective study. Twenty-three males and 23 females with ages ranging between 20 and 45 years (mean values of 28.95 and 29.79 years respectively) were enrolled in the study; none had voice complaints and their voices were normal under perceptive-auditory evaluation. Three-hundred and twenty-two sustained vocal emissions were digitized and acoustically analyzed by three computer programs combined. Results: were compared against the distribution of resonance frequencies in a straight tube with one end sealed. Results: statistical analysis showed that vowel /ε/ was significantly different when compared to the other vowels, with higher mean harmonic values and lower standard deviation for both genders. Conclusion: in Brazilian Portuguese, vowel /ε/ is less impacted by changes to the vocal tract and is significantly less attenuated in both genders. The inclusion of this vowel in voice assessment standard protocols may contribute to improve the quality of the information obtained as a result of quantitative spectrographic and acoustic tests.

INTRODUÇÃO

A geometria do trato vocal adulto assemelha-se a um tubo reto fechado em uma extremidade com comprimento médio de 17 cm, cujos três primeiros picos de ressonância estão ao redor de 500, 1500 e 2500Hz1-3.

O trato vocal transfere suas características ao som produzido na glote, de acordo com sua configuração tridimensional, a qual é resultado do posicionamento de suas estruturas. Essa transferência, também denominada fator de transferência, modificará a intensidade dos harmônicos, consequência do fenômeno da ressonância. As frequências dos harmônicos que coincidem com as frequências de ressonância do trato vocal sofrerão modificações menores e serão denominadas formantes, enquanto as demais terão suas intensidades reduzidas (ou não amplificadas)2,4. Tais formantes variam de acordo com a geometria tridimensional do trato vocal, sendo os três primeiros fundamentais para a identidade acústica das vogais.

Protocolos padronizados de avaliação acústica vocal preferencialmente utilizam as vogais /a/, /i/ e /u/ por serem acusticamente muito diferentes entre si, o que favoreceria a observação de possíveis distúrbios nas diferentes regiões do espectro, de acordo com as correspondentes configurações do trato vocal.

A observação da configuração do trato vocal durante a emissão das vogais por meio de videofluoroscopia mostra secção transversal do tubo mais uniforme durante a fonação da vogal /ε/. Também a observação na prática clínica da espectrografia das vogais orais do Português brasileiro mostra, em geral, harmônicos com maior intensidade na emissão da vogal /ε/, o que sugere haver menor modificação na forma do trato vocal em comparação às demais vogais orais. Assim, a vogal /ε/ é a que mais se assemelha, em configuração, a um tubo reto, o que nos leva a supor que também apresentaria maior intensidade e, consequentemente, melhor definição de seus harmônicos. Ainda considerando, visualmente, a configuração do trato vocal, a vogal /u/, por apresentar maior modificação, apresentaria mais obstáculos à passagem do som, com consequente redução da intensidade e pior definição dos harmônicos.

Desta forma, é importante a identificação objetiva da vogal que permite a relação mais acurada entre os achados visuais das imagens laringoscópicas e os dados acústicos obtidos no laboratório de voz.

Portanto, o objetivo deste estudo foi comparar a identidade acústica das sete vogais orais do Português brasileiro e determinar qual delas sofre a menor influência das modificações do trato vocal quando comparada a um tubo reto fechado em uma das extremidades.

MATERIAL E MÉTODO

Foram gravadas as sete vogais orais do Português brasileiro (/a/, /ε/, /e/, /i/, /É/, /o/ e /u/) de 23 homens e 23 mulheres, entre 20 e 45 anos de idade (valores médios: 28,95 e 29,79 anos, respectivamente). Assim, cada um dos indivíduos gravou a emissão de cada vogal, totalizando 322 gravações.

Um grupo com experiência em voz, composto por dois fonoaudiólogos e dois otorrinolaringologistas, selecionou os indivíduos para o estudo; os critérios de inclusão foram ausência de queixas vocais e qualidade vocal normal na avaliação perceptivo-auditiva.

Foi solicitado aos indivíduos que emitissem cada vogal de modo sustentado e em sua frequência e intensidade habituais e a gravação da voz foi realizada em cabina acústica, mantendo-se uma distância de 15 cm entre os lábios e o microfone (unidirecional SHURE SM58). A digitalização foi realizada por meio do programa SoundScope, da Macintosh. Uma vez registradas, as 322 ondas sonoras foram equalizadas na amplitude de 4 volts. As amostras foram padronizadas em segmentos de 5 segundos na porção intermediária da onda sonora.

As ondas foram então convertidas para o formato wave (.wav) utilizando-se o programa Wave Converter 1.5. Os dados quantitativos foram obtidos pela combinação de três programas computadorizados: Vocal Assessment, Screen Size Capture e Carnoy 2.0, como descrito a seguir:

Passo 1. Vocal Assessment - utilizado para selecionar o segmento intermediário de 5 segundos para análise e para separar os harmônicos do ruído, restando apenas picos de harmônicos.

Passo 2. Carnoy 2.0 - utilizado para obter a quantificação dos picos dos harmônicos dos arquivos de imagem a partir do gráfico gerado sem ruído.

Todos os valores da intensidade de cada harmônico foram registrados para cada amostra. Os valores médios e desvios-padrão foram calculados para permitir a comparação intra e inter indivíduos das intensidades dos harmônicos para cada vogal.

No estudo da frequência dos harmônicos primeiramente foi realizado o cálculo computadorizado do valor da f0 para cada vogal de cada indivíduo, extraída pelo programa Soundscope; a seguir, multiplicamos esse valor pelo número do harmônico de maior intensidade na região correspondente aos três primeiros formantes de cada vogal, para determinar a frequência de cada formante. Por exemplo, se a f0 fosse 100 Hz e o quinto harmônico fosse o de maior intensidade na região do primeiro formante, então o valor deste seria 500 Hz. Posteriormente, obteve-se a média dos valores da frequência dos três harmônicos de maior intensidade (Peterson, 1959), tanto para o grupo masculino quanto para o feminino. Estas médias, representando as regiões dos três primeiros formantes, foram comparadas à distribuição de ressonância de um tubo reto e fechado em uma das extremidades, no qual a frequência dos demais formantes são múltiplos inteiros e ímpares do primeiro. No caso específico de um tubo com comprimento ao redor de 17 cm estas frequências correspondem a aproximadamente 500, 1500 e 2500 Hz. Desta forma, consideraremos a vogal cujo trato vocal assume a forma mais próxima possível da tubular e que menos modificações causaria no som glótico, isto é, aquela cujas médias estão mais próximas destes valores. Esta vogal será destacada mediante escrita em negrito na tabela referente aos valores das frequências dos harmônicos.

Considerando-se a natureza das variáveis estudadas, foi realizado o Teste de Friedman (teste não-paramétrico) para comparar se estes postos médios eram estatisticamente diferentes ou não, adotando-se o nível de significância p<0,001. Como houve significância, então pelo menos um dos sete desvios era diferente do restante. Assim, aplicamos também o Teste t de Student para Dados Pareados (teste paramétrico), para determinação dos pares com diferença significante, e o Teste dos Postos Sinalizados de Wilcoxon (teste não-paramétrico), para a comparação da distribuição classificatória (Rosner, 1986). Foi adotado o nível de significância de 0,050 (5%) e foram assinalados, com um asterisco, os valores estatisticamente significantes.

RESULTADOS

Os resultados são apresentados nas Tabelas 1 a 3. A Tabela 1 apresenta, para cada vogal, os valores das médias das intensidades dos harmônicos com seus respectivos desvios-padrão, obtidas para cada sexo. A Tabela 2 apresenta os dados estatísticos para a comparação entre as intensidades dos harmônicos, par a par. A Tabela 3 apresenta os valores das frequências dos três primeiros formantes, para cada vogal e sexo.

DISCUSSÃO

Foram estudadas apenas as vogais orais do Português brasileiro, por duas razões: a primeira refere-se ao fato de que, para a análise vocal e durante a avaliação laringológica, geralmente não são emitidas vogais nasais, a não ser em casos para estudo do pórtico velofaríngeo. Na avaliação vocal clínica fonoaudiológica são analisadas mais comumente as vogais orais /a/, /i/ e /u/; na avaliação laringológica, geralmente utilizam-se as vogais /a/ ou /ε/ (para o registro modal) e /i/ (este para avaliação da emissão aguda ou em falsete), embora não haja consenso entre os profissionais. A segunda razão diz respeito à análise espectrográfica das vogais nasais, que apresenta leitura mais difícil pela presença de formantes adicionais com intensidade reduzida; além disso, as nasais geram maior número de erros de identificação em relação às orais5.

Foi realizada a equalização da entrada de energia das amostras ao redor de 4 volts para padronizar os níveis de saída da intensidade, uma vez que os indivíduos foram solicitados a emitir as vogais em frequência e intensidade habituais e confortáveis.

A vogal /e/ apresentou valores médios da intensidade dos harmônicos maiores e com menor desvio-padrão (Tabela 1). Com estudo pareado das médias (Tabela 2), observamos que a vogal /ε/ diferiu de modo significante das demais vogais, com exceção da vogal /e/, para ambos os sexos. O estudo pareado dos desvios-padrão também, por sua vez, mostrou diferença estatisticamente significante entre a vogal /ε/ e todas as outras vogais. Assim, podemos afirmar que, além de apresentar a maior média e o menor desvio-padrão das intensidades dos harmônicos, a vogal /ε/ apresentou diferença significante em relação às demais vogais (com exceção em relação à média da vogal /e/), para ambos os sexos. Essa semelhança entre as vogais /ε/ e /e/ talvez se deva ao fato de que ambas apresentam configurações do trato vocal semelhantes. Ainda assim, a vogal /ε/ possui um trato vocal com a língua em posição mais baixa do que na emissão da vogal /e/, ou seja, com menor constrição e, consequentemente, menos obstáculos à passagem da energia sonora. Desta forma, embora a diferença entre os valores das duas vogais não tenha sido estatisticamente significante, estes foram maiores, em ambos os sexos, na emissão da vogal /ε/ e o valor do p (0,052) mostra tendência à significância.

Maiores médias e menores valores de desvio-padrão estão relacionados à menor atenuação do trato vocal4,6,7. Tal fato nos permite considerar que, ao passar pelo trato vocal, a posição dos ressoadores na emissão da vogal /ε/ permite a passagem da maior quantidade de energia, com menor interferência sobre o som produzido pela vibração das pregas vocais, indicando um fator de transferência cujas frequências coincidem com as frequências de ressonância desse trato, sem deformações. Mais especificamente, indicam que o posicionamento das estruturas permite um fluxo quase totalmente livre, através do trato vocal, o que observamos na vogal /ε/. Devemos lembrar, no entanto, que a amplitude de uma onda é, essencialmente, a medida de seu tamanho, e independe da frequência da onda. Sendo assim, a energia sonora está presente em cada harmônico, mas a amplitude de cada harmônico sofrerá a influência da função do filtro e da amplitude do harmônico específico da fonte glótica4.

Como já afirmava Hermann8, as frequências dos formantes são, na realidade, aquelas nas quais o filtro supralaríngeo permite a passagem da maior quantidade de energia. Isto ocorre devido à mínima interferência do trato vocal no som produzido pela vibração das pregas vocais, uma vez que as modificações do trato tendem a reduzir a informação acústica do som gerado na laringe. Assim, a vogal /ε/, no Português brasileiro, é produzida com menor atenuação dos harmônicos, representando melhor o espectro da fonte glótica. Nossos achados concordam com outros autores9 que afirmam que, durante a articulação da vogal /ε/ o trato vocal age acusticamente com um tubo fechado numa extremidade, baseado nos achados da reconstrução tridimensional do trato vocal por meio de ressonância magnética.

Com relação às frequências dos três primeiros formantes (Tabela 3), observamos que a vogal /ε/ apresentou valores mais aproximados aos da função de transferência de uma vogal neutra, ou seja, 500, 1500 e 2500 Hz do que as demais vogais, para o sexo masculino. O mesmo aconteceu em relação ao sexo feminino, mas com uma maior margem de diferença, uma vez que, por apresentarem f0 mais aguda e, consequentemente harmônicos mais espaçados e menor número deles no espectro, tornou-se mais difícil sua mensuração. Mas, de qualquer modo, cabe aqui ressaltar que, mesmo com valores mais distantes, a proporção entre os três formantes manteve-se mais próxima também para a vogal /ε/ nesse sexo.

No entanto, outros autores, estudando outras línguas, concluíram que a vogal /æ/ é a mais aproximada à função de transferência do trato vocal, ou seja, com frequências dos formantes F1, F2 e F3 próximas a 500, 1500 e 2500Hz10. Outros estudos descrevem a vogal schwa do Inglês (/ε/) como a que mais se aproxima da função de transferência, denominada vogal neutra11-15. Assim, podemos sugerir a inclusão da vogal /ε/ nos protocolos padronizados de avaliação vocal no Brasil.

CONCLUSÃO

De acordo com este estudo concluímos que, observando as características acústicas de cada vogal do Português brasileiro, podemos afirmar que a distribuição dos três primeiros formantes da vogal /ε/ é a mais próxima às frequências de ressonância de um tubo reto fechado em uma das extremidades e, consequentemente, à vogal neutra, sofrendo menor influência das modificações do trato vocal para ambos os sexos.

REFERÊNCIAS BIBLIOGRÁFICAS

1. Kent RD. Vocal tract acoustics. J Voice. 1993(7)2:97-117.

2. Sundberg J. The science of the singing voice. DeKalb: Northern Illinois University Press; 1987. 216p.

3. Fant G. Speech sounds and features. Cambridge: The MIT Press; 1973. 227p.

4. Lieberman P. Speech physiology and acoustic phonetics: an introduction. New York: Macmillan Publishing; 1977. 206p.

5. Behlau M, Pontes P, Tosi O, Ganaça M. Análise espectrográfica de formantes das vogais do português brasileiro falado em São Paulo. Acta AWHO. 1988;7:74-85.

6. Stevens KN, House AS. An acoustical theory of vowel production and some of its implications. J Speech Hear Res. 1961;4(4):303-20.

7. Hiraoka N, Kitazoe Y, Ueta H, Tanaka S, Tanabe M. Harmonic-intensity analysis of normal and hoarse voices. J Acoust Soc Am. 1984b;76(6):1648-51.

8. Hermann (1894) Sulter AM, Miller DG, Wolf RF, Schutte HK, Wit HP, Mooyaart EL. On the relation between the dimensions and resonance characteristics of the vocal tract: a study with MRI. Magn Reson Imaging. 1992;10(3):365-73.

9. Jakobson R, Fant CGM, Halle M. Preliminaries to speech analysis: the distinctive features and their correlates. Cambridge, The MIT press, 1972, 64p.

10. Fant G. Acoustic theory of speech production. The Hague: Mouton; 1960.

11. Borden GJ, Harris KS. Speech science primer: physiology, acoustics, and perception of speech. Baltimore: The Williams & Wilkins Company; 1980. 297p.

12. ohnson K. Acoustic and auditory ohinetucs. Oxford. Blackwell, 1997. 169p.

13. Lieberman P, Blumstein SE. Speech physiology, speech perception, and acoustic phonetics. Cambridge: Cambridge University Press; 1988. 249p.

14. Speaks CE. Introduction to sound. Acoustics for the hearing and speech sciences. San Diego: Singular Publishing Group; 1992. p.163-90.

1 Pós-doutora, Professora Adjunto do Departamento de Fonoaudiologia da Universidade Federal de São Paulo, São Paulo, SP, Brasil. Chefe do Serviço Integrado de Fonoaudiologia do Hospital São Paulo, São Paulo, SP, Brasil. Pesquisadora Associada do Instituto da Laringe - INLAR, São Paulo, SP, Brasil.
2 Professor Titular do Departamento de Otorrinolaringologia e Cirurgia de Cabeça e Pescoço da Universidade Federal de São Paulo, São Paulo, SP, Brasil. Diretor do Instituto da Laringe - INLAR, São Paulo, SP, Brasil.
3 Fonoaudióloga; Mestre em Ciências pela Universidade Federal de São Paulo; Especialista em Voz.
4 Médico Otorrinolaringologista do Instituto da Laringe - INLAR, São Paulo, SP, Brasil.
5 Fonoaudióloga. Doutora em Ciências pela Universidade Federal de São Paulo, SP, Brasil. Professora Instrutora do Departamento de Morfologia da Faculdade de Ciências Médicas da Santa Casa de São Paulo, SP, Brasil.
6 Pós-doutora, Professora Associada do Departamento de Fundamentos da Faculdade de Fonoaudiologia da Pontifícia Universidade Católica, São Paulo, SP, Brasil. Orientadora de Pós-Graduação do Departamento de Otorrinolaringologia e Cirurgia de Cabeça e Pescoço da Universidade Federal de São Paulo, São Paulo, SP, Brasil.

Instituto da Laringe.

Endereço para correspondência:
Noemi Grigoletto De Biase
Rua Madre Rita Amada de Jesus 106
04721-050 - São Paulo/SPn - Brasil.
Tel.: (+5511) 5683.2903 - Fax: (+5511) 5683.2903
E-mail: ngdebiase@gmail.com

Este artigo foi submetido no SGP (Sistema de Gestão de Publicações) da BJORL em 18 de março de 2008. cod. 5770
Artigo aceito em 4 de setembro de 2006.

Imprimir:

Voltar Topo