Cantitate/Preț
Produs

Advances in Non-Linear Modeling for Speech Processing: SpringerBriefs in Speech Technology

Autor Raghunath S. Holambe, Mangesh S. Deshpande
en Limba Engleză Paperback – 21 feb 2012

În volumul Advances in Non-Linear Modeling for Speech Processing, autorii Raghunath S. Holambe și Mangesh S. Deshpande explorează tehnici avansate de estimare non-liniară, esențiale pentru depășirea limitărilor modelelor liniare tradiționale. Merită menționat că lucrarea se concentrează pe modelarea aeroacoustică non-liniară, o metodă capabilă să identifice structurile fine ale semnalului vocal pe care transformata Fourier pe termen scurt (STFT) nu le poate revela. Această abordare pune un accent deosebit pe operatorul de energie Teager (TEO), caracterizat printr-o rezoluție temporală înaltă, ideală pentru monitorizarea fluctuațiilor rapide de energie glotală.

Subliniem modul în care autorii propun trecerea de la coeficienții cepstrali clasici (LPCC și MFCC) — care ignoră spectrul de fază — către un model de modulare în amplitudine și frecvență (AM-FM). Pentru a demoda semnalul de vorbire, sunt analizați în detaliu algoritmi precum Energy Separation Algorithm (ESA) și transformata Hilbert (HTD). Abordarea diferă de Nonlinear Analyses and Algorithms for Speech Processing de Marcos Faundez-Zanuy prin faptul că este mai puțin abstractă și mult mai aplicabilă, oferind soluții concrete pentru dezvoltarea sistemelor de identificare a vorbitorului. De asemenea, spre deosebire de Robust Digital Processing of Speech Signals, care se axează pe robustețea semnalului în codare, acest volum prioritizează fuziunea dintre mecanismele de producție și cele de percepție a vorbirii.

Structura textului, publicat în seria SpringerBriefs in Speech Technology, este riguros organizată: pornește de la bazele anatomice ale producției vocale, trece prin modele autoregresive liniare și non-liniare, și culminează cu aplicații practice de suprimare a zgomotului. În contextul operei lui Raghunath S. Holambe, care a tratat anterior extragerea de trăsături în Iris Image Recognition, această lucrare continuă preocuparea pentru procesarea semnalelor complexe, transferând expertiza de la biometria imagistică la cea acustică.

Citește tot Restrânge

Din seria SpringerBriefs in Speech Technology

Preț: 36551 lei

Puncte Express: 548

Carte tipărită la comandă

Livrare economică 19 iunie-03 iulie


Specificații

ISBN-13: 9781461415046
ISBN-10: 1461415047
Pagini: 116
Ilustrații: XIII, 102 p. 32 illus.
Dimensiuni: 155 x 235 x 7 mm
Greutate: 0.19 kg
Ediția:2012
Editura: Springer
Colecția SpringerBriefs in Speech Technology
Seria SpringerBriefs in Speech Technology

Locul publicării:New York, NY, United States

Public țintă

Research

De ce să citești această carte

Această lucrare este esențială pentru cercetătorii în telecomunicații și inginerie electronică care doresc să depășească barierele modelării liniare. Cititorul câștigă o înțelegere profundă a operatorului Teager și a modelelor AM-FM, instrumente critice pentru dezvoltarea unor sisteme de recunoaștere a vorbitorului mai precise și robuste în condiții de zgomot. Este un ghid tehnic concis care transformă teoria aeroacoustică în algoritmi aplicabili.


Descriere scurtă

Advances in Non-Linear Modeling for Speech Processing includes advanced topics in non-linear estimation and modeling techniques along with their applications to speaker recognition.

Non-linear aeroacoustic modeling approach is used to estimate the important fine-structure speech events, which are not revealed by the short time Fourier transform (STFT). This aeroacostic modeling approach provides the impetus for the high resolution Teager energy operator (TEO). This operator is characterized by a time resolution that can track rapid signal energy changes within a glottal cycle.

The cepstral features like linear prediction cepstral coefficients (LPCC) and mel frequency cepstral coefficients (MFCC) are computed from the magnitude spectrum of the speech frame and the phase spectra is neglected. To overcome the problem of neglecting the phase spectra, the speech production system can be represented as an amplitude modulation-frequency modulation (AM-FM) model. To demodulate the speech signal, to estimation the amplitude envelope and instantaneous frequency components, the energy separation algorithm (ESA) and the Hilbert transform demodulation (HTD) algorithm are discussed.

Different features derived using above non-linear modeling techniques are used to develop a speaker identification system. Finally, it is shown that, the fusion of speech production and speech perception mechanisms can lead to a robust feature set.

Cuprins

From the Contents: Speech production mechanism.- Linear speech production model.- Nonlinearity in speech production.- Nonlinear dynamic system model.- Speech perception mechanism.- Summary.- Autoregressive models.- Linear autoregressive model.- Nonlinear autoregressive model.- Nonlinear measurement and modeling using Teager energy operator.- Teager energy operator (TEO).- Vocal tract aeroacoustic flow.- Energy measurement.- Energy separation.- Noise suppression using TEO.

Caracteristici

Nonlinear aspects of speech signals are covered in depth Covers nonlinear modeling techniques from the context of speaker identification New insight is explored to combine the speech production and speech perception systems Includes supplementary material: sn.pub/extras