Applied Speech and Audio Processing: With matlab examples


Download 2.66 Mb.
Pdf ko'rish
bet143/170
Sana18.10.2023
Hajmi2.66 Mb.
#1708320
1   ...   139   140   141   142   143   144   145   146   ...   170
Bog'liq
Applied Speech and Audio Processing With MATLAB Examples ( PDFDrive )

7.4. Language classification
173
of the language had become localised. Similarly, syntactic differences lead many Man-
darin Chinese speakers who are starting to learn English to ignore rules of plurality
and tense. Greeks speaking English may well include too many definite articles ‘having
the knowledge is the good thing’. Conversely the author has been accused at times of
speaking both Chinese and Greek like an Englishman.
The difficulty of speakers bringing the prosody from their native tongue to another
language is analogous in many ways to the issue of one speaker impersonating another
to a speech classification system. It is a source of inaccuracy, but is not necessarily a
major problem. Imagine a language recognition system built into a call centre that routes
incoming callers to customer service operators able to speak their language. That a Greek
speaking English with Greek syntax would be misinterpreted as speaking Greek is not
a major problem. However, if he were misinterpreted as being a Japanese speaker, that
may well be a major problem.
Continuing on to the techniques used for the classification, Zissman and Berkling [15]
provide an overview of the various techniques, and also go on to provide a comparative
evaluation of each of these. Their techniques are:
Spectral-similarity approaches based upon the different spectral characteristics of
languages, or upon the statistics of the spectral changes during speech for each
language.
Prosody-based approaches which look at the timings and duration of captured lin-
guistic features.
Phone-recognition approaches, similar to the speech recognition approach in the
speaker classification task, there are differences in the relative frequency, time-
distribution and sequencing of phone features.
Multilingual speech units called poly-phonesmono-phonemes or key-phones are the
widest possible set of phonemes represented by all languages under consideration
(poly-phones), or just the most important ones in terms of relative frequency
or importance to classification (mono-phonemes/key-phones). These can then be
detected by an automatic speech recognition system, with the output analysed
statistically.

Download 2.66 Mb.

Do'stlaringiz bilan baham:
1   ...   139   140   141   142   143   144   145   146   ...   170




Ma'lumotlar bazasi mualliflik huquqi bilan himoyalangan ©fayllar.org 2024
ma'muriyatiga murojaat qiling