Applied Speech and Audio Processing: With matlab examples


Download 2.66 Mb.
Pdf ko'rish
bet97/170
Sana18.10.2023
Hajmi2.66 Mb.
#1708320
1   ...   93   94   95   96   97   98   99   100   ...   170
Bog'liq
Applied Speech and Audio Processing With MATLAB Examples ( PDFDrive )

5.3
Pitch models
The source-filter model is perhaps the ultimate in speech parameterisation, with differ-
ent processing blocks dedicated to replicating the effects of the human vocal system:
LPC/LSP for the vocal tract, random noise (and similar) for the lung excitation, and a
pitch filter or similar to recreate the effect of the glottis.
Measurements of the human pitch-production system, especially those using mi-
crowave and X-ray sensors, reveal the action of the glottis, which is not a smooth action:
it does not generate a pure sinewave tone. In actual fact, the pitch waveform is made up
of a sequence of very spiky pulses. This is shown in Figure 5.14 where one pulse has
been identified from a sequence of several plotted as if isolated from a speech utterance.
There has been quite a lot of research on determining pitch shapes: how these relate
to overall vocal quality, speech intelligibility, and so on. There is substantial evidence
that the fidelity of the pitch pulse shape is important to overall perceived quality, and
other evidence to indicate that the specific pulse shapes, which vary considerably from
person to person, are one of the differentiating factors for speaker recognition (where an
automatic system identifies someone through their voice, see Section 7.5).
When coding or compressing speech in a parametric fashion, there are several items of
information that are important for pitch, and these are handled differently by the various
speech compression algorithms. These are listed below:
• the actual shape of the pulse;
• the relative heights/locations of the negative- and positive-going spikes;
• the amplitude of the largest spike;
• the spacing between pulses.
The highest quality compression algorithms would consider all aspects. Some code only
the bottom three items, CELP coders tend to code the bottom two, and regular-pulse
excitation systems code only the bottom one. It goes without saying that more bits are


118

Download 2.66 Mb.

Do'stlaringiz bilan baham:
1   ...   93   94   95   96   97   98   99   100   ...   170




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling