Advances in Non-Linear Modeling for Speech Processing: SpringerBriefs in Speech Technology
Autor Raghunath S. Holambe, Mangesh S. Deshpandeen Limba Engleză Paperback – 21 feb 2012
În volumul Advances in Non-Linear Modeling for Speech Processing, autorii Raghunath S. Holambe și Mangesh S. Deshpande explorează tehnici avansate de estimare non-liniară, esențiale pentru depășirea limitărilor modelelor liniare tradiționale. Merită menționat că lucrarea se concentrează pe modelarea aeroacoustică non-liniară, o metodă capabilă să identifice structurile fine ale semnalului vocal pe care transformata Fourier pe termen scurt (STFT) nu le poate revela. Această abordare pune un accent deosebit pe operatorul de energie Teager (TEO), caracterizat printr-o rezoluție temporală înaltă, ideală pentru monitorizarea fluctuațiilor rapide de energie glotală.
Subliniem modul în care autorii propun trecerea de la coeficienții cepstrali clasici (LPCC și MFCC) — care ignoră spectrul de fază — către un model de modulare în amplitudine și frecvență (AM-FM). Pentru a demoda semnalul de vorbire, sunt analizați în detaliu algoritmi precum Energy Separation Algorithm (ESA) și transformata Hilbert (HTD). Abordarea diferă de Nonlinear Analyses and Algorithms for Speech Processing de Marcos Faundez-Zanuy prin faptul că este mai puțin abstractă și mult mai aplicabilă, oferind soluții concrete pentru dezvoltarea sistemelor de identificare a vorbitorului. De asemenea, spre deosebire de Robust Digital Processing of Speech Signals, care se axează pe robustețea semnalului în codare, acest volum prioritizează fuziunea dintre mecanismele de producție și cele de percepție a vorbirii.
Structura textului, publicat în seria SpringerBriefs in Speech Technology, este riguros organizată: pornește de la bazele anatomice ale producției vocale, trece prin modele autoregresive liniare și non-liniare, și culminează cu aplicații practice de suprimare a zgomotului. În contextul operei lui Raghunath S. Holambe, care a tratat anterior extragerea de trăsături în Iris Image Recognition, această lucrare continuă preocuparea pentru procesarea semnalelor complexe, transferând expertiza de la biometria imagistică la cea acustică.
Din seria SpringerBriefs in Speech Technology
-
Preț: 333.71 lei -
Preț: 364.75 lei -
Preț: 367.19 lei -
Preț: 366.74 lei -
Preț: 363.64 lei -
Preț: 362.88 lei -
Preț: 365.75 lei - 20%
Preț: 283.69 lei -
Preț: 363.38 lei -
Preț: 366.74 lei -
Preț: 366.49 lei -
Preț: 362.88 lei -
Preț: 367.72 lei -
Preț: 369.35 lei -
Preț: 368.82 lei -
Preț: 372.49 lei -
Preț: 363.71 lei -
Preț: 363.14 lei - 20%
Preț: 311.89 lei -
Preț: 365.31 lei -
Preț: 366.49 lei -
Preț: 366.24 lei -
Preț: 362.18 lei -
Preț: 366.49 lei -
Preț: 375.83 lei -
Preț: 426.93 lei -
Preț: 363.14 lei -
Preț: 363.87 lei -
Preț: 367.42 lei -
Preț: 362.64 lei -
Preț: 397.34 lei -
Preț: 365.06 lei - 20%
Preț: 285.73 lei -
Preț: 365.29 lei -
Preț: 361.37 lei -
Preț: 361.95 lei -
Preț: 363.41 lei
Preț: 365.51 lei
Carte tipărită la comandă
Livrare economică 19 iunie-03 iulie
Specificații
ISBN-10: 1461415047
Pagini: 116
Ilustrații: XIII, 102 p. 32 illus.
Dimensiuni: 155 x 235 x 7 mm
Greutate: 0.19 kg
Ediția:2012
Editura: Springer
Colecția SpringerBriefs in Speech Technology
Seria SpringerBriefs in Speech Technology
Locul publicării:New York, NY, United States
Public țintă
ResearchDe ce să citești această carte
Această lucrare este esențială pentru cercetătorii în telecomunicații și inginerie electronică care doresc să depășească barierele modelării liniare. Cititorul câștigă o înțelegere profundă a operatorului Teager și a modelelor AM-FM, instrumente critice pentru dezvoltarea unor sisteme de recunoaștere a vorbitorului mai precise și robuste în condiții de zgomot. Este un ghid tehnic concis care transformă teoria aeroacoustică în algoritmi aplicabili.
Descriere scurtă
Non-linear aeroacoustic modeling approach is used to estimate the important fine-structure speech events, which are not revealed by the short time Fourier transform (STFT). This aeroacostic modeling approach provides the impetus for the high resolution Teager energy operator (TEO). This operator is characterized by a time resolution that can track rapid signal energy changes within a glottal cycle.
The cepstral features like linear prediction cepstral coefficients (LPCC) and mel frequency cepstral coefficients (MFCC) are computed from the magnitude spectrum of the speech frame and the phase spectra is neglected. To overcome the problem of neglecting the phase spectra, the speech production system can be represented as an amplitude modulation-frequency modulation (AM-FM) model. To demodulate the speech signal, to estimation the amplitude envelope and instantaneous frequency components, the energy separation algorithm (ESA) and the Hilbert transform demodulation (HTD) algorithm are discussed.
Different features derived using above non-linear modeling techniques are used to develop a speaker identification system. Finally, it is shown that, the fusion of speech production and speech perception mechanisms can lead to a robust feature set.