BJORL - Brazilian Journal of Otorhinolaryngology

Versão Inglês

Ano: 2002 Vol. 68 Ed. 4 - Julho - Agosto - (14º)

Seção: Artigo Original

Páginas: 540 a 544

PDF PT

Normatização de medidas acústicas da voz normal

Standardization of acoustic measures of the normal voice

Autor(es): Simone Adad Araújo 1,
Marcos Grellet 2,
José Carlos Pereira 3,
Marcelo Oliveira Rosa 4

Palavras-chave: medidas acústicas, voz normal, normatização

Keywords: acoustic measures, normal voice, standardization.

Resumo:
Introdução: A análise acústica da voz com o avanço da tecnologia digital surge como um exame complementar promissor para aumentar a precisão diagnóstica em laringologia. Objetivos: Normatização das medidas acústicas de freqüência fundamental, perturbação e ruído na voz normal de brasileiros dos sexos masculino e feminino. Casuística e Métodos: Pesquisa no período de março a agosto de 1997, no Ambulatório de Otorrinolaringologia do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo, com 80 voluntários da cidade de Ribeirão Preto e região, sendo 40 do sexo masculino e 40 do feminino, selecionados por meio de triagem, foram realizadas gravações digitais dos fonemas /a/, /e/ e /i/, originando uma amostra de 240 sinais acústicos submetidos ao Programa de Análise Acústica da Voz, desenvolvido na Escola de Engenharia de São Carlos da Universidade de São Paulo com obtenção das medidas acústicas. Resultados: Foram obtidos valores médios em relação a sexo e fonemas das medidas de: Freqüência fundamental, Jitter (Directional Perturbation Factor, Perturbation Variation Index, Jitter Ratio, Jitter Factor, Period Perturbation Quotient), Shimmer (Directional Perturbation Factor, Amplitude Variation Index, Amplitude Perturbation Quotient), Spectral Noise Level, Harmonic-to-noise ratio, Harmonic-to-noise ratio cepstrum, Normalized Noise Energy e Breathiness ratio. Conclusão: A normatização das medidas acústicas é necessária para conhecer melhor a voz normal. Os valores obtidos são compatíveis em sua grande maioria com à literatura existente.

Abstract:
Introduction: Acoustic analysis of the voice with advance of the digital technology increases as a promising complementary exam for raising the diagnostic precision in laringology. Objectives: Standardization of the acoustic measurement of fundamental frequency, Perturbations and noise in the normal voice of male and female brazilians. Methodology: Research was carried out from March to August of 1997 in the Otorlaryngological Clinic of the Clinical Hospital of the Faculty of Medicine of Ribeirão Preto of the University of São Paulo, using 80 volunteers of the city of Ribeirão Preto and its region, consisting of 40 males and 40 females, and selected by means of a triage. Digital recordings of the vowels /a/, /e/, and /i/ were utilized, originating in a sample of 240 acoustic signals, and submitted to the Program of Acoustic Voice Analysis, with the São Carlos School of Engineering of the University of São Paulo securing the acoustic measurements. Results: Mean values in relationship to sex and phonemes were obtained in the measurements of: Fundamental Frequency, Jitter (Directional Perturbation Factor, Perturbation Variation Index, Jitter Ratio, Jitter Factor, Period Perturbation Quotient), Shimmer (Directional Perturbation Factor, Amplitude Variation Index, Amplitude Perturbation Quotient), Spectral Noise Level, Harmonic-to-noise ratio, Harmonic-to-noise ratio cepstrum, Normalized Noise Energy e Breathiness ratio. Conclusion: The normalization of acoustic measurements is necessary to better know the normal voice. The great majority of obtained values are compatible with existing literature.

INTRODUÇÃO

A voz é um fenômeno complexo e requer múltiplas medidas para descrever suas características, como as avaliações perceptivas e acústicas. As perceptivas são subjetivas, levando à discordância nos resultados. As acústicas são objetivas, permitindo a documentação da voz e a comparação dos resultados pela sua natureza numérica. Bless (1991) refere que as medidas objetivas da voz não servem apenas para documentação, mas também para obter informações que nem os olhos ou ouvidos são capazes de discernir. A análise dos sinais acústicos produz uma medida indireta do padrão vibratório das pregas vocais, incluindo freqüência e intensidade no tempo.

Os Programas de Análise Acústica através de processamento de sinais e algoritmos são capazes de obter o traçado do formato da onda sonora, análise de freqüência fundamental, medidas de perturbação como jitter e shimmer e medidas de ruído, permitindo descrever quase completamente a voz humana. Read et al. (1992) relatam que com o advento dos microcomputadores e dos programas um único sistema pode realizar várias funções analíticas, estando capacitado para combinações que proporcionam uma visão integrada do sinal.

As medidas de Freqüência fundamental (Fo), definida como o número de vibrações por segundo produzidas pelas pregas vocais, foram estudas por vários autores como: Emanuel & Whitehead (1979) que pesquisaram a voz normal no sexo masculino, Murry & Doherty (1980) pesquisaram a vogal /a/ no sexo masculino, Horii (1982) estudou oito vogais do inglês no sexo masculino, Sanderson & Maran (1992) obtiveram valores médios do sexo masculino e feminino, Pegoraro-Krook & Castro (1994) utilizaram fala continua de brasileiros do sexo masculino e Behlau (1997) pesquisou brasileiros do sexo masculino e feminino de São Paulo.

As medidas de Jitter, definido como a perturbação ou variabilidade da freqüência fundamental ciclo a ciclo, foram estudadas pelos autores: Deal & Emanuel (1978) pesquisaram em indivíduos do sexo masculino normais, Horii (1980, 1982) obteve valos em vogais sustentadas, Sorense & Horii (1983) estudaram vogais sustentadas no sexo feminino e Murray & Zubick (1996) citam o valor normal para o jitter.

As medidas de Shimmer, definido como a perturbação ou variabilidade da amplitude ciclo a ciclo, foram estudadas pelos autores: Takahashi & Koike (1975) pesquisaram a vogal sustentada /a/ no sexo masculino e feminino, Deal & Emanuel (1978) obtiveram medidas no sexo masculino em fonação de vogais sustentadas e Sorensen & Horii (1984) estudaram vogais sustentadas no sexo feminino com voz normal.

As medidas de ruído, quantificam o ruído originado na turbulência do ar ao nível da glote, foram estudadas pelos respectivos autores: Spectral Noise Level (SNL) por Sansone & Emanuel (1970), Lively & Emanuel (1970) e Emanuel et al. (1973) que referem que esta medida quantifica características de aspereza; Harmonic-to-Noise Ratio (HNR) por Behlau (1997) e Rodrigues et al. (1994)que relatam que esta medida oferece um índice que relaciona o componente harmônico com o componente ruído; Normalized Noise Energy (NNE) por Kasuya et al. (1986) que refere que esta medida é um índice acústico para estimar ruído devido ao fechamento insuficiente da glote e Breathiness Ratio (BR) por Fukazawa et al. (1988) que relata que esta medida estima características perceptuais de soprosidade.

A presente pesquisa objetiva a normatização das medidas acústicas de freqüência fundamental, perturbação e ruído, para vozes normais brasileiras em relação a sexo e fonemas /a/,/e/ e /i/ da Língua Portuguesa, utilizando o Programa de Análise Acústica da Voz desenvolvido na Escola de engenharia de São Carlos da Universidade de São Paulo por Rosa (1998).

CASUÍSTICA E MÉTODOS

A presente pesquisa foi realizada, após aprovação pelo Comitê de Ética em Pesquisa, no Ambulatório de Otorrinolaringologia do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo, durante o período de março a agosto de 1997.

Foram selecionados 80 indivíduos adultos sendo 40 do sexo masculino e 40 do sexo feminino, através de protocolo de triagem, os quais realizaram gravação das vogais /a/, /e/ e /i/ sendo obtidos 240 fonemas gravados em computador que foram processados utilizando o Programa de Análise Acústica da voz desenvolvido na Escola de Engenharia de São Carlos da Universidade de São Paulo por Rosa (1998).

A pesquisa aceitou voluntários brasileiros com procedência da cidade de Ribeirão Preto e região, idade de 20 a 40 anos, dos sexos feminino e masculino, com ausência de história de disfonia e doenças correlacionadas investigadas através de roteiro de entrevista. Existia normalidade estrutural das pregas vocais visualizadas com videolaringoscopia, audição nos limites da normalidade em audiometria e voz dentro dos limites da normalidade para sexo e idade do voluntário em avaliação perceptual realizada por fonoaudiólogas.

A gravação da voz foi realizada diretamente em computador Pentium 100 MHz com placa de aquisição de dados convencional marca SoundBlaster SB16, em ambiente isento de ruídos. O sinal foi captado por microfone tipo cardióide unidirecional com ganho dinâmico posicionado à 5 centímetros da boca do voluntário, o qual foi posicionado sentado em inspiração profunda antes da emissão sustentada de cada fonema /a/, /e/ e /i/, separadamente por 7 segundos em média. Foi orientada fonação em níveis de altura e intensidade confortáveis ao emissor, evitando tensão excessiva das pregas vocais. Toda gravação foi precedida de treinamento prévio.

O sinal armazenado no computador foi pré processado com a remoção de suas porções instáveis iniciais e finais padronizando os sinais com 5 segundos, as amplitudes padronizadas entre +1 e -1 e utilização de um algoritmo para retirada da tendência linear. Esta padronização dos sinais acústicos foi realizada para a obtenção de uma análise uniforme sem que características da gravação influenciassem os parâmetros acústicos.

As medidas estudadas foram de freqüência, perturbação e ruído. A freqüência fundamental foi obtida através de processamento de sinais por Cepstrum. As medidas de perturbação foram para Jitter: Directional Perturbation Factor (DPF), Perturbation Variation Index (PVI), Jitter Ratio (JR), Jitter Factor (JF) e Period Perturbation Quotient (PPQ) e para Shimmer: Directional Perturbation Factor (DPF), Amplitude Variation Index (AVI) e Amplitude Perturbation Quotient (APQ). As medidas de ruído foram: Spectral Noise Level (SNL), Harmonic-to-Noise Ratio (HNR), Harmonic-to-Noise Ratio cepstrum (HNR cepstrum), Normalized Noise Energy (NNE) e Breathiness ratio (BR).

Os resultados foram submetidos a cálculo estatístico de suas médias e desvio padrão.

RESULTADOS

As médias e os desvios padrões obtidos para os sexos: masculino e feminino segundo os fonemas /a/, /e/ e /i/ das medidas acústicas de: Freqüência fundamental; Jitter: Directional Perturbation Factor (DPF), Perturbation Variation Index (PVI), Jitter Ratio (JR), Jitter Factor (JF), Period Perturbation Quotient (PPQ5), Period Perturbation Quotient (PPQ11); Shimmer: Directional Perturbation Factor (DPF), Amplitude Variation Index (AVI), Amplitude Perturbation Quotient (APQ11); Spectral Noise Level (SNL) no intervalo de 100 a 5100 Hz; Harmonic-to-Noise Ratio (HNR); Harmonic-to-Noise Ratio cepstrum (HNR cepstrum) no intervalo de 200 a 5000 Hz; Normalized Noise Energy (NNE) no intervalo de 1000 a 5000 Hz e Breathiness Ratio (BR) estão descritas na Tabela 1 e Tabela 2.

Tabela 1. Médias das Medidas Acústicas de Freqüência fundamental, Perturbação e Ruído em relação a sexo e fonema.

Tabela 2. Desvio padrão das Medidas Acústicas de Freqüência fundamental, Perturbação e Ruído em relação a sexo e fonema.

DISCUSSÃO

Na nossa opinião os resultados obtidos demonstram que existe grande variabilidade entre as vozes normais, possivelmente devido ao grande número de diferenças individuais, pois a voz é uma característica pessoal não existindo uma perfeitamente igual à outra.

Supomos que comparações entre resultados de diferentes programas de análise acústica da voz podem apresentar diferenças mesmo utilizando medidas similares, devido às diferenças: de algoritmos, dos métodos de cálculo da freqüência fundamental, dos tipos de microfones utilizados, dos tipos de armazenamento da voz gravada e dos tipos de fala contínua ou sustentada utilizados. Confirmando as observações de Bielamowicz et al. (1996) que realizou comparação entre programas e análise de voz obtendo divergência entre os resultados, mesmo utilizando medidas similares.

Os resultados de Freqüência fundamental (Fo) obtidos na presente pesquisa foram concordantes com a literatura. Emanuel & Whitehead (1979) citam para o sexo masculino os valores médios para vogal /a/ de 105,7 Hz e para /i/ 109,7 Hz, Murry & Doherty (1980) para o sexo masculino vogal /a/ de 115,3 Hz, Horii (1982) no sexo masculino vogal /a/ 125 Hz e /i/ 128,5 Hz, Sanderson & Maran (1992) para o masculino 117 Hz e feminino 217 Hz, Pegoraro-Krook & Castro (1994) no sexo masculino de 134 Hz; Behlau (1997) no sexo masculino 113 Hz com variação entre 80 e 150 Hz e no feminino de 205 Hz com variação entre 150 e 250 Hz. Na presente pesquisa foram encontrados valores médios para o sexo masculino nos fonemas /a/ 127,61 Hz; /e/ 132,45 Hz e /i/ 142,63 Hz e no sexo feminino /a/ 215,42; /e/ 214,28 e /i/ 226,73.

As medidas Jitter Ratio (JR), Jitter Factor (JF), Period Perturbation Quotient (PPQ5) e (PPQ11) na presente pesquisa apresentaram resultados menores que 1%, como citado por Horii (1980, 1982), Sorense & Horii (1983) e Murray & Zubick (1996), em sua maioria, exceto no Jitter Factor (JF) para fonemas /a/ de 1,85% e /e/ de 1,75% no sexo feminino, uma pequena variação provavelmente devido ao procedimento de cálculo desta medida.

O Directional Perturbation Factor (DPF) apresentou resultados semelhantes aos existentes na literatura. Sorense & Horii (1984) citam valores para o sexo masculino, ou seja, vogal /a/ 46,24% e /i/ 46,37%, no feminino vogal /a/ 48,79% e /i/ 52,04%. Na presente pesquisa os resultados para o sexo masculino foi que o fonema /a/ 64,90 % e /i/ 65,94% e para o feminino /a/ 65,54% e /i/ 68,06%.

O Perturbation Variation Index (PVI) apresentou resultados menores e negativos em relação aos da literatura, sendo difícil a comparação pelo desconhecimento da unidade empregada por Deal & Emanuel (1978) que citam para o sexo masculino a vogal /a/ 0,4712 e /i/ 0,4898, nossos resultados para o sexo masculino fonemas /a/ -1,16 dB e /i/ -1,11 dB.

Na presente pesquisa os resultados do Shimmer Directional Perturbation Factor (DPF) foram semelhantes a literatura. No sexo masculino os fonemas /a/ 63,77% e /i/ 64,95% e no feminino /a/ 65,17% e /i/ 65,58% semelhante aos resultados obtidos por Sorensen & Horii (1984) para o sexo masculino a vogal /a/ 59,47% e /i/ 61,13% e para o feminino vogal /a/ 63,13% e /i/ 61,71%.

Os resultados na presente pesquisa do Amplitude Variation Index (AVI) foram maiores que os da literatura sendo difícil a comparação pelo desconhecimento da unidade empregada por Deal & Emanuel (1978) que citam para o sexo masculino a vogal /i/ -0,1330 e /a/ -0,0619, obtendo para o sexo masculino o fonema /a/ 2,37 dB e /i/ 1,91 dB.

Os resultados da presente pesquisa foram menores que os da literatura, sendo difícil a comparação pelo desconhecimento da unidade empregada por Takahashi & Koike (1975) para vogal /a/ sexo masculino valores entre 21,4 e 56,4 e no feminino entre 18,1 e 47,7 e nossos resultados foram para fonema /a/ no sexo masculino -30% e feminino -36%.

Os resultados das medidas de Spectral Noise Level (SNL) para sexo masculino o fonema /a/ -88,39 dB e /i/ -92,12 dB e feminino fonema /a/ -87,98 dB e /i/ -91,97 dB, sendo negativos e menores que os da literatura onde Sansone & Emanuel (1970), Lively & Emanuel (1970) e Emanuel et al. (1973) citam para sexo masculino a vogal /a/ 18,9 dB e /i/ 17,0 dB e feminino /a/ 18,2 dB e /i/ 16,1 dB, possivelmente devido a padronização da amplitude entre -1 e +1 que pode ter influenciado o cálculo desta medida.

Os resultados das medidas de Harmonic-to-Noise Ratio (HNR) e Harmonic-to-Noise Ratio cepstrum (HNR cepstrum) foram em torno de -1,64 a 2,3 dB, foram inferiores aos achados na literatura. Behlau (1997) encontrou valores médios no sexo feminino de 13,9 dB e no masculino de 11,8 dB e Rodrigues et al. (1994) cita valores médios no sexo feminino de 10,17 dB e no masculino de 8,63 dB. Acreditamos que esta diferença seja devida a padronização da amplitude entre +1 e -1.

A presente pesquisa apresentou valores médios de Normalized Noise Energy (NNE) em decibéis para o sexo masculino /a/ -13,08 dB; /e/ -9,52 dB; /i/ -9,68 dB e para o feminino /a/ -14,40 dB; /e/ -9,44 dB; /i/-10,63 dB, semelhantes ao citado por Kasuya et al. (1986) de -11 dB.

A presente pesquisa apresentou valores médios de Breathiness Ratio (BR) para o sexo masculino fonemas /a/ 21,54 dB, /e/ 23,85 dB e /i/ 24,59 dB e para o feminino /a/ 23,34 dB, /e/ 26,30 dB e /i/ 27,08dB, semelhante ao valor médio de 27 dB obtido por Fukazawa et al. (1988).

CONCLUSÕES

A Freqüência fundamental (Fo) é característica para os sexos, a voz feminina normal apresenta maior freqüência fundamental que a masculina. Os seus resultados médios foram compatíveis com os existentes na literatura.

As medidas de Jitter produzem melhor discriminação de perturbação. O Jitter Ratio (JR), Jitter Factor (JF) e Period Perturbation Quotient (PPQ) tiveram resultados concordantes, entretanto o Directional Perturbation Factor (DPF) e Perturbation Variation Index (PVI) foram discordantes. Apresentaram resultados médios semelhantes aos da literatura.

As medidas de Shimmer produzem pior discriminação de perturbação. O Directional Perturbation Factor (DPF), Amplitude Variation Index (AVI) e Amplitude Perturbation Quotient (APQ) não foram concordantes. Obtiveram resultados semelhantes aos da literatura.

As medidas de ruído produzem boa discriminação de ruído. O Spectral Noise Level (SNL), Harmonic-to-Noise Ratio (HNR), Harmonic-to-Noise Ratio cepstrum (HNR cepstrum), Normalized Noise Energy (NNE) e o Breathiness ratio (BR) apresentaram resultados concordantes.

O Spectral Noise Level (SNL), Harmonic-to-Noise Ratio (HNR) e Harmonic-to-Noise Ratio cepstrum (HNR cepstrum) mostraram resultados inferiores aos apresentados na literatura. O Normalized Noise Energy (NNE) e Breathiness ratio (BR) mostraram resultados semelhantes aos da literatura.

REFERÊNCIAS BIBLIOGRÁFICAS

1. Bless DM. Measurement of vocal function. In: Voice Disorders. Otolaryngologic Clinics of North America 1991;24:1023-33.
2. Read C, Buder EH, Kent RD. Speech analysis systems: An evaluation. Journal of Speech and Hearing Research 1992;35:314-32.
3. Emanuel FW, Whitehead RL. Harmonic levels and vowel roughness. Journal of Speech and Hearing Research 1979;22:829-40.
4. Murry T, Doherty ET. Selectec acoustic characteristics of pathologic and normal speakers. Journal of Speech and Hearing Research 1980;23:361-69.
5. Horii Y. Jitter and Shimmer differences among sustained vowel phonations. Journal of Speech and Hearing Research 1982;25:12-14.
6. Sanderson RJ, Maran AGD. The quantitative analysis of dysphonia Clinical Otolaryngology 1992;17:440-3.
7. Pegoraro-Krook MI, Castro VC Normative speaking fundamental frequency (SFF) characteristics of brazilian male subjects. Brazilian Journal Medical Biological Research 1994;27:1659-1661.
8. Behlau M. Considerações sobre a análise acústica em laboratórios computadorizados de voz. In: Fonoaudiologia Atual. São Paulo: Revinter; 1997. cap.12, p.93-115.
9. Deal RE, Emanuel FW. Some waveform and spectral features of vowel roughness. Journal of Speech and Hearing Research 1978;21:250-64.
10. Horii Y. Vocal shimmer in sustained phonation. Journal of Speech and Hearing Research 1980;23:202-09.
11. Sorensen D, Horii Y. Frequency and Amplitude Perturbation in the Voice of Female Speakers. Journal of Communication Disorders 16:57-61, 1983.
12. Murray KD, Zubick HH. Evaluation of vocal function. In: Fried MP. The Larynx. Mosby; 1996. 2 ed. cap.11:115-24.
13. Takahashi H, Koike Y. Some perceptual dimensions and acoustical correlates of pathologic voices. Acta Otolaryngologica 1975; (suppl.)338:1-24.
14. Sorensen D, Horii Y. Directional Perturbation Factors for Jitter and for Shimmer. Journal of Communication Disorders 1984;17:143-51.
15. Sansone FE Jr, Emanuel FW. Spectral Noise Levels and roughness severity ratings for normal and simulated rough vowels produced by adult males. Journal of Speech and Hearing Research 1970;13:472-88.
16. Lively MA, Emanuel FW. Spectral Noise Levels and roughness severity ratings for normal and simulated rough vowels produced by adult females. Journal of Speech and Hearing Research 1970;13:503-17.
17. Emanuel FW, Lively MA, Mccoy JF. Spectral Noise Levels and roughness ratings for vowels produced by males and females. Folia Phoniatrica 1973;25:110-20.
18. Rodrigues S, Behlau M, Pontes P. Proporção harmônico-ruído: valores para indivíduos adultos brasileiros. Acta AWHO 1994;13:112-16.
19. Kasuya H, Ogawa S, Mashima K, Ebihara S. Normalized Noise Energy as an acoustic measure to evaluate pathologic voice. The Journal of the Acoustical Society of America 1986;80:1329-34.
20. Fukazawa T, El-Assuooty A, Honjo I. A new index for evaluation of the turbulent noise in pathological voice. The Journal of the Acoustical Society of America 1988;83:1189-93.
21. Rosa MO. Análise Acústica da Voz para Pré-diagnóstico de Patologias da Laringe. Dissertação (Mestrado). Faculdade de Engenharia Elétrica de São Carlos, Universidade de São Paulo, 1998.
22. Bielamowicz S, Kreiman J, Gerratt BR, Dauer MS, Berke GS. Comparison of voice analysis systems for perturbation measurement. Journal of Speech and Hearing Research 1996;39:126-34.

1 - Mestre em Otorrinolaringologia pela Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo e Doutoranda em Otorrinolaringologia pela Faculdade de Medicina da Universidade de São Paulo.
2 - Professor Doutor do Departamento de Otorrinolaringologia do Hospital das Clínicas da Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo - HCFMRP.
3 - Professor Doutor Titular do Departamento de Engenharia Elétrica da Faculdade de Engenharia de São Carlos da Universidade de São Paulo.
4 - Mestre e Doutorando em Engenharia Elétrica pela Faculdade de Engenharia de São Carlos da Universidade de São Paulo.

Instituição: Faculdade de Medicina de Ribeirão Preto da Universidade de São Paulo.
Endereço para correspondência: Simone Adad Araújo - Rua 20, nº 324, apt. 201

Setor Central - Goiânia - Goiás - 74030-110 - Tel. (0xx62) 224.2282
Fonte de Suporte: CAPES

Imprimir:

Voltar Topo