1,720,979 research outputs found
Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control
Uncertainty quantification has been extensively used as a means to achieve efficient directed exploration in Reinforcement Learning (RL). However, state-of-the-art methods for continuous actions still suffer from high sample complexity requirements. Indeed, they either completely lack strategies for propagating the epistemic uncertainty throughout the updates, or they mix it with aleatoric uncertainty while learning the full return distribution (e.g., distributional RL). In this paper, we propose Wasserstein Actor-Critic (WAC), an actor-critic architecture inspired by the recent Wasserstein Q-Learning (WQL), that employs approximate Q-posteriors to represent the epistemic uncertainty and Wasserstein barycenters for uncertainty propagation across the state-action space. WAC enforces exploration in a principled way by guiding the policy learning process with the optimization of an upper bound of the Q-value estimates. Furthermore, we study some peculiar issues that arise when using function approximation, coupled with the uncertainty estimation, and propose a regularized loss for the uncertainty estimation. Finally, we evaluate our algorithm on standard MujoCo tasks as well as suite of continuous-actions domains, where exploration is crucial, in comparison with state-of-the-art baselines. Additional details and results can be found in the supplementary material with our Arxiv preprint
Wasserstein Actor-Critic: Directed Exploration via Optimism for Continuous-Actions Control
Uncertainty quantification has been extensively used as a means to achieve efficient directed exploration in Reinforcement Learning (RL). However, state-of-the-art methods for continuous actions still suffer from high sample complexity requirements. Indeed, they either completely lack strategies for propagating the epistemic uncertainty throughout the updates, or they mix it with aleatoric uncertainty while learning the full return distribution (e.g., distributional RL). In this paper, we propose Wasserstein Actor-Critic (WAC), an actor-critic architecture inspired by the recent Wasserstein Q-Learning (WQL), that employs approximate Q-posteriors to represent the epistemic uncertainty and Wasserstein barycenters for uncertainty propagation across the state-action space. WAC enforces exploration in a principled way by guiding the policy learning process with the optimization of an upper bound of the Q-value estimates. Furthermore, we study some peculiar issues that arise when using function approximation, coupled with the uncertainty estimation, and propose a regularized loss for the uncertainty estimation. Finally, we evaluate our algorithm on standard MujoCo tasks as well as suite of continuous-actions domains, where exploration is crucial, in comparison with state-of-the-art baselines. Additional details and results can be found in the supplementary material with our Arxiv preprint
Dealing with multiple experts and non-stationarity in inverse reinforcement learning: an application to real-life problems
In real-world applications, inferring the intentions of expert agents (e.g., human operators) can be fundamental to understand how possibly conflicting objectives are managed, helping to interpret the demonstrated behavior. In this paper, we discuss how inverse reinforcement learning (IRL) can be employed to retrieve the reward function implicitly optimized by expert agents acting in real applications. Scaling IRL to real-world cases has proved challenging as typically only a fixed dataset of demonstrations is available and further interactions with the environment are not allowed. For this reason, we resort to a class of truly batch model-free IRL algorithms and we present three application scenarios: (1) the high-level decision-making problem in the highway driving scenario, and (2) inferring the user preferences in a social network (Twitter), and (3) the management of the water release in the Como Lake. For each of these scenarios, we provide formalization, experiments and a discussion to interpret the obtained results
Driving exploration through particle Q-distributions
LAUREA MAGISTRALEI vari problemi decisionali sequenziali sono un oggetto di studio dell'intelligenza artificiale. L'apprendimento per rinforzo, è un framework che affronta questi problemi mediante un approccio "trial and error". In questo framework un agente interagisce con un ambiente e raccoglie esperienza da queste interazioni che a sua volta viene utilizzata per trovare la politica ottima da eseguire. Un elemento centrale dell'apprendimento è il segnale di ricompensa (reward) che l'agente riceve dall'ambiente comunicando all'agente se alcuni stati sono desiderati o dovrebbero essere evitati. Si assume che questa ricompensa sia ricevuta immediatamente dopo ogni azione e l'obiettivo dell'agente è quello di massimizzare la ricompensa cumulativa raccolta durante la sua attività nell'ambiente. De nito in questo modo, la funzione reward specifica l'attività che deve essere appresa dall'agente.
Il dilemma exploration vs. exploitation (esplorazione vs. sfruttamento) rimane un argomento principale in reinforcement learning. Il problema consiste nel bilanciare la massimizzazione della ricompensa usando le conoscenze acquisite al momento con l'esplorazione di nuove azioni per migliorare la conoscenza dell'ambiente. Tradizionalmente, l'esplorazione è stata esplicitamente incorporata negli algoritmi scegliendo occasionalmente le azioni in maniera casuale invece di fare afidamento sull'esperienza raccolta; tuttavia rimane una sfida importante nell'apprendimento rinforzato. Strategie di esplorazione comuni, come e-greedy non riescono a condurre esplorazioni estese o profonde. Ciò non solo comporta la necessità di quantità di dati esponenziale per gli algoritmi, ma soprattutto potrebbe causare una convergenza prematura degli algoritmi a una politica subottima o potrebbe impedire del tutto la convergenza. Tradizionalmente, l'apprendimento per rinforzo affronta questi problemi stimando la funzione di valore che quantifica quanto "desiderabili" siano gli stati (o le coppie di stati-azione nel caso di funzione azione-valore). Essendo che gli agenti interagiscono con un ambiente stocastico, la funzione valore è la ricompensa cumulativa attesa a lungo termine.
In questa tesi sviluppiamo un nuovo algoritmo di apprendimento model-free che si basa su lavori recenti che sostengono l'uso delle distribuzioni Q (Q-distributions) per guidare l'esplorazione. Modellando esplicitamente la distribuzione dei valori Q invece di valutare il valore medio, siamo in grado di prendere decisioni più consapevoli e utilizzare queste distribuzioni per guidare l'esplorazione.
Per testare l'algoritmo, iniziamo introducendo il nostro nuovo approccio in domini
finiti semplici, progettati per enfatizzare l'esplorazione, per poi estenderlo a domini continui. Confrontiamo il nostro approccio con algoritmi allo stato dell'arte nei domini Taxi, Loop, Chain, SixArms, RiverSwim e KnightQuest, nonché in vari giochi Atari dall'Arcade Learning Environment.The various sequential decision making problems are one object of study of Artificial Intelligence. Reinforcement learning addresses these problems in a trial and error way. An agent is required to interact with an environment and collect experience from these interactions which in turn are used to find the optimal policy to pursue. One core element of reinforcement learning is the reward signal that the agent receives from the environment telling the agent if some states are desired or they should be avoided.
This reward is assumed to be immediate after each action and the goal of the agent is to maximize the cumulative reward collected during its activity in the environment. Defined in this way, the reward function specifies the task to be learned by the agent.
The Exploitation- Exploration trade-off remains a main topic in reinforcement learning. The problem consists in balancing reward maximization using the knowledge acquired at the moment with exploring new actions to improve the knowledge of the environment.
Traditionally exploration has been explicitly added to algorithms by occasionally choosing
actions randomly instead of relying on the experience collected, nonetheless it remains
a major challenge in reinforcement learning.
Common exploration strategies, such as
greedy, fail to conduct temporally-extended or deep exploration. This not only causes
exponentially larger data requirements for the algorithms, but most importantly might
cause premature convergence of the algorithms to a suboptimal policy or might prevent
convergence altogether.
Traditionally reinforcement learning faces these problems by estimating the value function which estimates how "good" the states are (or action-states pairs in the case of action-value function). Being that the agents interact with an "uncertain" environment the value-function is the expected cumulative reward collected in the long term.
In this thesis we build on recent work advocating the use of Q-distributions to drive exploration. By explicitly modeling the distribution of the Q-values instead of just estimating the mean we are able to make more informed decisions and use these distributions to drive exploration. Starting from a prior distribution we can update our knowledge with each new sample using a Bayesian approach and we can also use these distributions to quantify the Exploration-Exploitation trade-off.
We start by introducing our new approach in simple finite domains, designed to emphasize exploration, for later extending it to continuous domains. We compare our approach with state of the art algorithms in Taxi , Loop, Chain, SixArms, RiverSwim and KnightQuest domains as well as in various Atari games from the Arcade Learning Environment
Open loop planning for Formula 1 race strategy identification
LAUREA MAGISTRALELa Formula 1 è una delle categorie più competitive nel motorsport, in cui veicoli monoposto ad altissima performance competono su circuiti chiusi.
Durante gli eventi di F1, le monoposto devono completare un ammontare di giri attorno ad un circuito nel minor tempo possibile.
Alla conclusione dell'evento, l'ordine di arrivo viene utilizzato per assegnare punti a ciascuno dei piloti classificati nelle prime dieci posizioni.
Pertanto, l'obiettivo per ogni pilota è quello di concludere la gara con il miglior piazzamento possibile.
Il risultato delle gare di F1 non è determinato solo dall'abilità dei piloti e dalla performance delle monoposto, ma anche dalla strategia di gara che viene impiegata dalla squadra.
La strategia di gara è costituita dall'ordine delle mescole che vengono montate su una monoposto durante la gara, nonché dal giro a cui vengono montate.
La sostituzione delle gomme, chiamata pit-stop, è obbligatoria e deve avvenire almeno una volta per ogni pilota durante la gara.
Montare la mescola giusta al momento giusto può permettere di guadagnare un vantaggio significativo sugli avversari o, viceversa, se viene adottata una strategia sbagliata, il tempo perso rispetto ai piloti avversari può essere considerevole.
Per questo motivo, le squadre di F1 investono ingenti risorse per simulare le situazioni di gara e ottenere predizioni dei risultati più probabili, in modo da poterle fornire ai propri strateghi nel più breve tempo possibile.
Gli strateghi devono spesso reagire a mosse degli avversari e situazioni di gara inaspettate, pertanto il processo di decisione può rivelarsi frenetico e la necessità di prendere decisioni in breve tempo può impedire al gruppo di strategia di considerare tutte le opzioni, o addirittura indurlo all'errore.
Considerando i fattori appena citati, crediamo che l'utilizzo di uno strumento per il supporto alle decisioni in grado di fornire suggerimenti sulla strategia di gara molto velocemente possa essere utile a migliorare la qualità e la competitività delle strategie di gara utilizzate dalle squadre.
L'obiettivo del nostro lavoro è quindi quello di progettare ed implementare un agente autonomo in grado di identificare le strategie di gara per la F1, considerando il problema della decisione se effettuare un pit-stop e quali gomme montare come un problema di decisione sequenziale.
Per offrire raccomandazioni in un tempo ragionevole, concentriamo la nostra ricerca sull'applicazione di algoritmi anytime di planning online per affrontare il problema.
Per gestire la natura stocastica e continua del problema, proponiamo un agente basato su un approccio open-loop che combini sia il campionamento Monte Carlo che un operatore di backup di tipo Temporal Difference.
Il nostro approccio innovativo si basa sulla modifica dell'algoritmo di MCTS UCT, sfruttando l'operatore di update di Q-Learning al posto dell'update Monte Carlo al fine di ridurre la varianza nella stima della funzione di valore per le coppie stato-azione, che, nel problema di identificazione delle strategie di gara, rappresenta una difficoltà significativa a causa della alta stocasticità del problema e dell'asimmetria nelle ricompense cumulative per le azioni.
Inoltre, per ridurre la difficoltà nel modellare lo scenario multi-agente, consideriamo uno scenario a singolo agente in cui i piloti avversari siano controllati dall'ambiente di pianificazione e seguano strategie prefissate, ottenute da articoli di opinione sportiva.
Per effettuare una valutazione del nostro approccio utilizziamo un ambiente di planning di nostra progettazione, basato su un simulatore di tempi sul giro ed in grado di offrire una replica di gare F1 avvenute negli anni passati.
Analizziamo pertanto la fattibilità di progettazione e realizzazione di un simulatore dei tempi basato su regressione effettuata su dati pubblicamente disponibili delle gare passate, osservandone le criticità.
Infine, sfruttando la disponibilità di un simulatore di gara probabilistico e modificandone il comportamento per essere consistente con la nostra applicazione, conduciamo un’attenta valutazione dell’algoritmo proposto, insieme a vari altri planner anytime presenti nella letteratura in ambito MCTS, su di un campione di gare appartenenti all’"era turbo-ibrida" della F1, mostrando che il nostro algoritmo è in grado di superare nella maggior parte delle gare considerate la performance di baseline basate su strategie reali e metodi automatici.Formula 1(F1) is one of the most competitive categories of motorsport racing, in which single-seater, high-performance cars compete around a closed circuit.
In F1 events, participating race cars have to complete a defined number of laps around a closed circuit.
The goal for a driver is to finish each race in the best possible placement consistently.
In addition to driver skills and car performance, the result in F1 competitions is often also determined by the tire strategy adopted by the team.
For this reason, Formula 1 teams invest considerable resources in race outcome simulation and prediction to supply their race engineers with fast predictions of most likely events.
In this work, we aim to provide an automated way of identifying tire strategies for F1 races by considering the problem of deciding when to perform a pit-stop and which compound to use as a sequential decision-making problem.
In order to provide recommendations in a reasonable time, we, therefore, investigate the application of anytime online planning algorithms to tackle this problem.
To cope with the stochastic and continuous nature of the problem, we propose an agent based on an open-loop approach combining both Monte Carlo sampling and a Temporal Difference backup operator.
To evaluate the proposed approach, we design a planning environment able to provide a replica of past F1 races, which we base on a lap time simulator.
To this end, we discuss the feasibility of designing and implementing a regression-based lap time simulator, using publicly available data of past races.
Finally, exploiting the availability of a fairly complete racing simulator, which we modify to be consistent with a planning application, we conduct a thorough evaluation of the proposed planner, as well as various anytime planners from the MCTS literature on a sample of races belonging to the "Turbo Hybrid era" of F1
Robotic arm control via curriculum deep reinforcement learning
LAUREA MAGISTRALEL’apprendimento per rinforzo (RL), in particolare l'apprendimento per rinforzo profondo (DRL), ha ottenuto un notevole successo in settori complessi come i giochi, la robotica e la guida autonoma. L'apprendimento del curriculum (CL) in RL, ispirato ai curricula educativi, prevede la formazione di agenti su compiti di difficoltà crescente per migliorare l'efficienza dell'apprendimento e la generalizzazione. Questa tesi affronta le sfide della RL applicando la CL sia manuale che automatica al controllo robotico nell'air hockey.
L'air hockey è modellato come un processo decisionale di Markov (MDP), utilizzando posizioni e velocità congiunte per gli spazi di stato e di azione. Il CL manuale inizia con un'attività di "Difesa", in cui la complessità dell'attività viene modificata in modo incrementale, seguita da un'attività di "Contrattacco" per sviluppare strategie offensive. L'approccio CL automatico utilizza un'architettura insegnante-studente per il compito "Hit", in cui l'insegnante assegna mini-compiti per guidare l'apprendimento dello studente.
I risultati empirici dimostrano che il CL manuale migliora efficacemente il perfezionamento delle competenze e l’adattamento al compito, mentre il CL automatico mostra il potenziale per strategie di formazione adattative. Questa ricerca fa avanzare le tecniche RL per il controllo robotico, offrendo approfondimenti su applicazioni pratiche in ambienti dinamici.Reinforcement learning (RL), especially deep reinforcement learning (DRL), has achieved remarkable success in complex domains like game playing, robotics, and autonomous driving. Curriculum learning (CL) in RL, inspired by educational curricula, involves training agents on tasks of increasing difficulty to enhance learning efficiency and generalization. This thesis addresses the challenges of RL by applying both manual and automatic CL to robotic control in air hockey.
Air hockey is modeled as a Markov Decision Process (MDP), using joint positions and velocities for state and action spaces. Manual CL begins with a "Defend" task, where task complexity is incrementally adjusted, followed by a "Counter-Attack" task to develop offensive strategies. The automatic CL approach employs a teacher-student architecture for the "Hit" task, where the teacher assigns mini-tasks to guide the student's learning.
Empirical results demonstrate that manual CL effectively improves skill refinement and task adaptation, while automatic CL shows potential for adaptive training strategies. This research advances RL techniques for robotic control, offering insights into practical applications in dynamic environments
Combining reinforcement learning with rule-based controllers for transparent and general decision-making in autonomous driving
The design of high-level decision-making systems is a topical problem in the field of autonomous driving. In this paper, we combine traditional rule-based strategies and reinforcement learning (RL) with the goal of achieving transparency and robustness. On the one hand, the use of handcrafted rule-based controllers allows for transparency, i.e., it is always possible to determine why a given decision was made, but they struggle to scale to complex driving scenarios, in which several objectives need to be considered. On the other hand, black-box RL approaches enable us to deal with more complex scenarios, but they are usually hardly interpretable. In this paper, we combine the best properties of these two worlds by designing parametric rule-based controllers, in which interpretable rules can be provided by domain experts and their parameters are learned via RL. After illustrating how to apply parameter-based RL methods (PGPE) to this setting, we present extensive numerical simulations in the highway and in two urban scenarios: intersection and roundabout. For each scenario, we show the formalization as an RL problem and we discuss the results of our approach in comparison with handcrafted rule-based controllers and black-box RL techniques
Truly Batch Model-Free Inverse Reinforcement Learning about Multiple Intentions
We consider Inverse Reinforcement Learning (IRL) about multiple intentions, ie the problem of estimating the unknown reward functions optimized by a group of experts that demonstrate optimal behaviors. Most of the existing algorithms either require access to a model of the environment or need to repeatedly compute the optimal policies for the hypothesized rewards. However, these requirements are rarely met in real-world applications, in which interacting with the environment can be expensive or even dangerous. In this paper, we address the IRL about multiple intentions in a fully model-free and batch setting. We first cast the single IRL problem as a constrained likelihood maximization and then we use this formulation to cluster agents based on the likelihood of the assignment. In this way, we can efficiently solve, without interactions with the environment, both the IRL and the clustering problem. Finally, we evaluate the proposed methodology on simulated domains and on a real-world social-network application
Exploiting and generalizing \\ Epistemic uncertainty in reinforcement learning and planning
Solving sequential decision-making problems with complex and non-linear dynamics has been a goal of Artificial Intelligence since the conception of the field. Reinforcement Learning (RL) offers an general framework for solving such problems. Its approach learning by direct interaction with the environment, allowing for speculation on the value of candidate solutions, testing, and counter-factual reasoning, has allowed researchers to achieve remarkable achievements in a multitude of challenging problems both simulated and real-world. Nonetheless, the successful application of RL to new problems requires a large degree of task-specific tuning.
One of the main open challenges in RL remains the exploration-exploitation dilemma. An agent that optimizes a cumulative objective in an unknown environment while learning faces the question of whether to trust the current information gathered and exploit it by executing the best-known strategies or take explorative strategies to gather more information with the hope of finding better strategies. The exploration problem has been thoroughly studied in the literature, and a multitude of solutions have been given for tabular domains or continuous domains with known structure. However, when moving to complex domains where neural networks are employed as function approximators, deep and directed exploration is still a challenge.
In this dissertation, we tackle the exploration problem in RL by proposing Wasserstein TD-Learning (WTD), a novel framework that models the uncertainty over the value function in a model-free manner and propagates it across the state-action space by employing variational updates that allow us enough control over the updates to show some desirable theoretical properties in the tabular setting while allowing the method to be easily scalable in the DeepRL setting. This allows us to adapt WTD in a multitude of different settings by adapting algorithms from the literature to handle the distributional nature of our value function, allowing for deep and directed exploration
- …
