Contemporary Methods for Speech Parameterization: SpringerBriefs in Speech Technology
Autor Todor Gancheven Limba Engleză Paperback – 10 aug 2011
Prin parcurgerea volumului Contemporary Methods for Speech Parameterization, cititorul va putea implementa și evalua riguros unsprezece metode avansate de extracție a trăsăturilor acustice, esențiale în sistemele moderne de procesare a semnalului vocal. Ne-a atras atenția rigoarea cu care Todor Ganchev analizează comparativ algoritmi bazați pe transformata Fourier discretă (DFT) și pe transformata wavelet discretă (DWPT), oferind o alternativă tehnică solidă la utilizarea standard a coeficienților MFCC.
Observăm că autorul păstrează o abordare orientată spre performanță și scalabilitate, teme recurente și în alte lucrări ale sale, precum Computational Bioacoustics, unde analiza semnalelor este aplicată în monitorizarea biodiversității. În acest volum, structura este una eminamente practică: după o trecere în revistă a conceptelor fundamentale, textul ghidează cititorul prin specificațiile matematice ale metodelor wavelet și Fourier, culminând cu secțiuni dedicate evaluării în sarcini de recunoaștere a monofoanelor și a identității vorbitorului. Apreciem în mod deosebit includerea link-urilor către cod, un detaliu care transformă expunerea teoretică într-un instrument de lucru imediat.
Complementar lucrării Application of Wavelets in Speech Processing de Mohamed Hesham Farouk, care se concentrează pe spectrul larg al aplicațiilor wavelet, volumul de față oferă o analiză comparativă specifică între wavelet și Fourier, punând accent pe eficiența relativă față de benchmark-ul MFCC. De asemenea, față de Modern Methods of Speech Processing, care oferă o privire de ansamblu asupra disciplinei, Contemporary Methods for Speech Parameterization se nișează pe etapa critică a parametrizării, oferind date empirice necesare pentru selecția algoritmului optim în funcție de scenariul de utilizare.
Din seria SpringerBriefs in Speech Technology
-
Preț: 364.75 lei -
Preț: 367.19 lei -
Preț: 366.74 lei -
Preț: 363.64 lei -
Preț: 362.88 lei -
Preț: 365.51 lei -
Preț: 365.75 lei - 20%
Preț: 283.69 lei -
Preț: 363.38 lei -
Preț: 366.74 lei -
Preț: 366.49 lei -
Preț: 362.88 lei -
Preț: 367.72 lei -
Preț: 369.35 lei -
Preț: 368.82 lei -
Preț: 372.49 lei -
Preț: 363.71 lei -
Preț: 363.14 lei - 20%
Preț: 311.89 lei -
Preț: 365.31 lei -
Preț: 366.49 lei -
Preț: 366.24 lei -
Preț: 362.18 lei -
Preț: 366.49 lei -
Preț: 375.83 lei -
Preț: 426.93 lei -
Preț: 363.14 lei -
Preț: 363.87 lei -
Preț: 367.42 lei -
Preț: 362.64 lei -
Preț: 397.34 lei -
Preț: 365.06 lei - 20%
Preț: 285.73 lei -
Preț: 365.29 lei -
Preț: 361.37 lei -
Preț: 361.95 lei -
Preț: 363.41 lei
Preț: 333.71 lei
Carte tipărită la comandă
Livrare economică 17 iunie-01 iulie
Specificații
ISBN-10: 1441984461
Pagini: 124
Ilustrații: X, 114 p. 32 illus., 23 illus. in color.
Dimensiuni: 155 x 235 x 8 mm
Greutate: 0.2 kg
Ediția:2011
Editura: Springer
Colecția SpringerBriefs in Speech Technology
Seria SpringerBriefs in Speech Technology
Locul publicării:New York, NY, United States
Public țintă
ResearchDe ce să citești această carte
Această lucrare din seria SpringerBriefs in Speech Technology este esențială pentru cercetătorii și inginerii care dezvoltă sisteme de recunoaștere vocală. Cititorul câștigă o înțelegere clară a avantajelor și limitărilor diverselor tehnici de parametrizare, având la dispoziție rezultate experimentale concrete și resurse de cod pentru a optimiza performanța sistemelor dincolo de metodele convenționale.
Descriere scurtă
Among these are five discrete wavelet packet transform (DWPT)-based, six discrete Fourier transform (DFT)-based speech features and some of their variants which have been used on the speech recognition, speaker recognition, and other related speech processing tasks. The main similarities and differences in their computation are discussed and empirical results from performance evaluation in common experimental conditions are presented. The recognition accuracy obtained on the monophone recognition, continuous speech recognition and speaker recognition tasks is contrasted against the one obtained for the well-known and widely used Mel Frequency Cepstral Coefficients (MFCC).
It is shown that many of these methods lead to speech features that do offer competitive performance on a certain speech processing setup when compared to the venerable MFCC. The last does not target the promotion of certain speech features but instead aims to enhance the common understanding about the advantages and disadvantages of the various speech parameterization techniques available today and to provide the basis for selection of an appropriate speech parameterization in each particular case.