1,720,966 research outputs found

    Multi-channel algorithms for improving speech recognition accuracy in adverse environments

    No full text
    Oggigiorno l’interazione uomo-macchina ha un ruolo fondamentale nella vita quotidiana delle persone. In particolare, per l’uomo, la voce rappresenta un modo naturale per comunicare e quindi anche una delle soluzione più adatte per interagire con diversi tipi di macchine. Questo spiega perché tecnologie basate su voce hanno guadagnato l’attenzione della comunità scientifica in questi anni. I sistemi di riconoscimento automatico del parlato sono i mezzi attraverso i quali l’interazione vocale con il computer può avvenire. Il riconoscimento vocale è un campo di ricerca molto am-pio: per esempio, la ricerca è rivolta allo sviluppo di algoritmi di ricerca efficienti, oltre che alle tecniche di addestramento discriminativo. In questo lavoro, l’attenzione è focalizzata sulle tecniche processamento per aumentare la ro-bustezza al rumore additivo ed al riverbero. In particolare vengono presentate tecniche che im-piegano un solo microfono (mono-canale) o più microfoni (multi-canale). Per quanto riguarda le tecniche mono-canale sono state proposte due migliorie di algoritmi basati su minimum mean square error. Tecniche basate sullo smoothing della funzione guadagno e su soft-decision origina-riamente proposte nel dominio della frequenza sono state sviluppate nel dominio cepstrale. Al fi-ne di ottenere un algoritmo computazionalmente efficiente è stato anche proposto uno stimatore nel dominio cepstrale basato sul criterio maximum a posteriori. Per quanto riguarda invece le tecniche multi-canale, sono stati proposti due diversi stimatori bayesiani nel dominio cepstrale. I risultati sperimentali hanno dimostrato l’efficacia delle soluzioni proposte nell’aumentare l’accuratezza del riconoscimento rispetto alla loro controparte mono-canale, evidenziando allo stesso tempo una riduzione del carico computazionale rispetto ai metodi nel dominio della fre-quenza. Oltre agli stimatori bayesiani è stato proposto un algoritmo di histogram equalization multi-canale nel quale la presenza di più canali audio viene sfruttata per ridurre la varianza del rumore ed ottenere una più affidabile stima della cumulative density function del segnale rumoro-so. Al fine di alleviare il problema del riverbero sono state analizzate tecniche di blind deconvolu-tion. In particolare, sono state studiate ed analizzate le basi teoriche dell’identificazione blind di risposte impulsive in sottobande. L’uso dell’identificazione blind di risposte impulsive in un fra-mework a sottobande non è stato ancora investigato in dettaglio e dunque rappresenta un tema di ricerca innovativo. In tal senso questo lavoro vuole essere un primo approccio per poter com-prendere meglio le questioni relative alla sua applicazione in situazioni realistiche. Per aumentare le prestazione di sistemi di riconoscimento automatico del parlato in scenari di tipo meeting viene inoltre presentata un’implementazione real-time di un framework esistente per la separazione e la dereverberazione del segnale vocale. L’innovazione sta nel superamento di di-versi limiti presenti in tale sistema che non consentono la sua applicazione in scenari reali. In par-ticolare, viene proposto un metodo iterativo di inverse filtering che riduce significativamente il costo computazionale, per sostituire la soluzione least square utilizzata nell’approccio di riferi-mento. Questo permette l’inversione di risposte impulsive lunghe anche in applicazioni real-time. È stato aggiunto anche un algoritmo di speaker diarization in modo da poter pilotare corretta-mente tutti gli altri stadi del framework, permettendo così che l’identificazione possa essere diret-tamente eseguita utilizzando le misture microfoniche. Lo studio di scenari innovativi per tecnologie vocali ha portato allo sviluppo di un front-end vocale per applicazioni su schermi da tavolo. Lo scenario applicativo prevede la presenza di quat-tro parlatori seduti attorno al tavolo che discutono tra loro. Il sistema cattura alcune parole chiave predefinite, e mostra sullo schermo immagini o parole legate all’argomento della conversazione. Tali stimoli sono utili a favorire e supportare la conversazione tra gli individui. In questo lavoro, ci si è occupati della definizione dei moduli dell’interfaccia vocale, con attenzione particolare ri-volta allo stadio di cattura delle parole chiave. Al fine di verificare l’adeguatezza del sistema pro-posto, sono stati condotti esperimenti su segnali acquisiti in condizioni realistiche

    Comparative Evaluation of Single-Channel MMSE-Based Noise Reduction Schemes for Speech Recognition

    Full text link
    One of the big challenges in the field of Automatic Speech Recognition (ASR) consists in developing suitable solutions able to work properly also in adverse acoustic conditions, like in presence of additive noise and/or in reverberant rooms. Recently a certain attention has been paid to deeply integrate the noise suppressor in the feature extraction pipeline. In this paper, different single-channel MMSE-based noise reduction schemes have been implemented both in the frequency and cepstral domains and the related recognition performances evaluated on the AURORA2 and AURORA4 databases, therefore providing a useful reference for the scientific community

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship
    corecore