Applied Speech and Audio Processing: With matlab examples


Download 2.66 Mb.
Pdf ko'rish
bet20/170
Sana18.10.2023
Hajmi2.66 Mb.
#1708320
1   ...   16   17   18   19   20   21   22   23   ...   170
Bog'liq
Applied Speech and Audio Processing With MATLAB Examples ( PDFDrive )

Basic audio processing
2. The nature of the audio signal is continually changing, or short-term features are im-
portant (i.e. a tone of steadily increasing frequency may be observed by a smaller
Fourier transform snapshot but would average out to white noise if the entire sweep
is analysed at once).
3. The processing applied to each block scales nonlinearly in complexity (i.e. a block
twice as big would be four or even eight times more difficult to process).
4. In an implementation, memory space is limited (very common).
5. It is desirable to spread processing over a longer time period, rather than performing
it all at the end of a recording.
6. Latency (the delay between the first sample in the block and the analysis output) is
to be minimised – a common requirement for voice communication systems.
2.4
Segmentation
Segmentation into frames is a basic necessity for much audio processing as mentioned
above in Section 2.3, but the process of segmentation does have its own fair share of
problems.
Consider an audio ‘feature’. By that I mean some type of sound that is contained
within a vector of samples. Now when that vector is analysed it might happen that the
feature is split into two: half appears in one audio frame, and the other half in another
frame. The complete feature does not appear in any analysis window, and may have
effectively been hidden. In this way, features that are lucky enough to fall in the centre
of a frame are emphasised at the expense of features which are chopped in half. When
windowing is considered (see Section 2.4.2), this problem is exacerbated further since
audio at the extreme ends of an analysis frame will be de-emphasised further. The solution
to the lost-feature problem is to overlap frames.
2.4.1
Overlap
Overlap means that instead of straightforward segmentation of the audio vector into se-
quential frames, each new frame is made to contain a part of the previous frame and part
of the next frame. Overlapping ensures that audio features occurring at a discontinuity
are at least considered whole in the subsequent, overlapped, frame.
The degree of overlap (usually expressed as a percentage) describes the amount of
the previous frame that is repeated in the following frame. Overlaps of 25% and 50%
are common.
Figure 2.4 illustrates the process for 50% overlap. The top graph shows a plot of a
waveform over time. This is then split into a sequence of overlapping frames, numbered
0 to 6. Every feature in the original signal can now be found repeated in two frames.



Download 2.66 Mb.

Do'stlaringiz bilan baham:
1   ...   16   17   18   19   20   21   22   23   ...   170




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling