Applied Speech and Audio Processing: With matlab examples


Download 2.66 Mb.
Pdf ko'rish
bet65/170
Sana18.10.2023
Hajmi2.66 Mb.
#1708320
1   ...   61   62   63   64   65   66   67   68   ...   170
Bog'liq
Applied Speech and Audio Processing With MATLAB Examples ( PDFDrive )

Hearing
4.5
Auditory scene analysis
Auditory scene analysis (ASA) [26] describes the psychoacoustic and psychological
processing by the human auditory system that it uses to deal with and interpret complex
mixtures of sound. This topic is clearly the result of some type of analytical processes
occurring within the brain.
As an illustration, consider an environment when a person is talking, a dog is barking
and a police siren are heard concurrently. Each of these sounds arrives at the ears of
a listener simultaneously, and thoroughly mixed together. A computer, analysing this
sound mixture, would have great trouble in determining that there were three separate
sound sources, and even if it could determine this, may not readily be able to ‘tune in’
to each of those sounds in the way a human can.
This tuning in process comes into play when participating in a conversation in a
crowded room filled with multi-speaker babble. Tens or even hundreds of separate con-
versations may be simultaneously in progress, and yet most people will be able to tune
out much of the surrounding babble and conduct a conversation with the person next
to them. This is true even when the particular speech they are listening to is of lower
amplitude than the interfering sounds.
Imagine yourself in such a situation. You are straining to hear the person opposite
you who is barely at the edge of audibility, and yet somehow a conversation is possible
in all that noise. It is true that occasionally a particular remark or name, or perhaps an
overloud laugh from a nearby speaker, may capture your attention, thus intruding on
your conversation and prompting a request to repeat something. However you are able
in some way to tune in to particular conversations occurring around you while tuning
out much of the other noise.
Sometimes visual clues help to maintain that focus – if you can see the mouth of the
person speaking, the movement and shape of the mouth are interpreted by the human
visual system, providing clues to the auditory system. This was illustrated in a famous
experiment in which listeners were played /b/ and /m/ sounds whilst simultaneously
watching videos of people saying /b/ or /m/.
When the correct video was played simultaneously with a replayed sound, listeners
correctly identified the spoken phoneme. However when the video of /b/ was replayed
alongside the audio for /m/, most listeners reported that they had heard /b/. The image of
the mouth closure at the start of the /b/ sound was sufficient to unconsciously convince
listeners that they had heard /b/ rather than /m/. This is known as the McGurk effect, and
is an example of the human visual system assisting (and indeed overriding) the human
auditory system (HAS).
Interested readers may wish to refer to an article in New Scientist of 22 September 2007
‘Mind Tricks: Six Ways to Explore your Brain’ in which a McGurk effect experiment,
and several similar experiments are described.
All of these are illustrations of the way in which the HAS deals with, or interprets
sounds. In order to begin characterising these effects, researchers have identified several



Download 2.66 Mb.

Do'stlaringiz bilan baham:
1   ...   61   62   63   64   65   66   67   68   ...   170




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling