1,721,202 research outputs found
Knowledge discovery techniques for understanding customer behaviour with incomplete data
Geen enkele onderneming die actief is in een competitieve en klantgerichte markt zal het belang van klantentevredenheid onderschatten zonder hiervoor een prijs te moeten betalen. Wetenschappelijk onderzoek heeft al meermaals de positieve invloed van klantentevredenheid op verschillende aspecten van een bedrijf aangetoond. Tevreden klanten zorgen voor minder klachten en minder kosten die hiermee gepaard gaan. Ze genereren positieve en onbetaalbare mondreclame, zijn bereid meer te betalen voor eenzelfde product en vertonen een grotere mate van loyaliteit wat zich uit in het heraankopen van het product. Daarom hoeft het ook geen betoog dat bedrijven een competitief voordeel kunnen uitbouwen als ze erin slagen hun klanten beter te begrijpen en meer tevreden kunnen maken dan hun directe concurrenten. Menig bedrijf maakt dan ook geld en tijd vrij om de informatie over hun klanten te analyseren en zo te achterhalen ‘wat’ hun klanten tevreden stelt. Er ontstaat echter een probleem wanneer de analysetechnieken worden toegepast op onvolledige data wat kan leiden tot onvolledige of zelfs foute conclusies betreffende klantentevredenheid. Onvolledige data tijdens het analyseren van klantentevredenheid komt vaker voor dan men op het eerste zicht verwacht. Vaak beschikken bedrijven slechts over twee soorten informatie als het op klantentevredenheid aankomt, i.e. ‘hoe tevreden is de klant met het product’ en ‘hoe goed presteerde het product volgens de klant’. Zulke data veronderstelt dat klantentevredenheid enkel gestuurd wordt door het performantieniveau van het product, wat tegengesproken wordt door de huidige idee¨ en en theori¨ en omtrent het klantentevredenheidsproces. Volgens het ‘Expectancy-Disconfirmation’ (ED) paradigma, dat ´e´en van de meest dominante theorie¨en is in de onderzoeksliteratuur, heeft de productperformantie slechts een indirect effect op klantentevredenheid. Volgens deze theorie wordt binnen het klantentevredenheidsproces de performantie vergeleken met een referentieniveau wat in de meeste gevallen leidt tot een disconfirmatie van deze referentie. Volgens het ED paradigma is het dit disconfirmatie- en referentieniveau die samen het tevredenheidsof ontevredenheidsgevoel veroorzaken. Hoe positiever de disconfirmatie is, des te groter de klant zijn tevredenheid zal zijn, ceteris paribus. Hoe hoger het referentieniveau is, des te hoger de klantentevredenheid zal zijn, ceteris paribus. Als een onderneming enkel performantie- en tevredenheidsdata ter beschikking heeft voor het analyseren van klantentevredenheid, ontbreekt er dus belangrijke informatie die een rol heeft gespeeld in het tevreden stellen van de klant. Maar zelfs als een onderneming tijdens het ondervragen van de klanten gepeild heeft naar het referentieniveau van de klant, kan de onderzoeker of marketeer nog steeds met onvolledige data achterblijven. Want hoewel de onderzoeksliteratuur de laatste twintig tot dertig jaar het ED paradigma uitgebreid heeft getest en een algemene consensus bestaat over de validiteit van deze theorie, blijkt uit het literatuuronderzoek in deze thesis dat de onderzoekswereld het nooit eens is geraakt over wat een klant als referentieniveau hanteert. Terwijl de oorspronkelijke invulling gebeurde door middel van de verwachte productperformantie heeft later onderzoek aangetoond dat onder andere het prestatieniveau van andere producten ook als referentieniveau kunnen gebruikt worden. Dus zelfs als de onderzoeker bijvoorbeeld de verwachtingen van de klant ter beschikking heeft, dan bestaat nog steeds de mogelijkheid dat dit niet de juiste referentie is in het tevredenheidsproces van die klant. Net als in het vorige scenario blijft de onderzoeker achter met onvolledige data. In het eerste deel van deze thesis werd een nieuwe analysetechniek ontworpen die toelaat om het klantentevredenheidsproces te modelleren met onvolledige data in overeenstemming met de richtlijnen van het ED paradigma. Deze techniek laat bedrijven toe om met enkel performantie- en tevredenheidsdata de klantentevredenheid te analyseren op een manier die overeenstemt met de theorie, i.e. het ED paradigma. Hiervoor werd het klantentevredenheidsproces eerst in drie stappen ontleed: • de evaluatie op productattribuutniveau van de productperformantie ten opzichte van een referentieniveau wat leidt tot disconfirmatie op attribuutniveau, • de aggregatie van de disconfirmaties op productattribuutniveau naar een algemene disconfirmatie, • de interactie tussen de algemene disconfirmatie en de initi¨ele klantentevredenheid die samen leiden tot een algemeen tevredenheidsgevoel. In plaats van iedere stap te vertalen naar ´e´en specifieke wiskundige functie werd ten gunste van de modelleringsflexibiliteit per stap een set van wiskundige eigenschappen gedefinieerd waaraan een wiskundige functie moet voldoen om de desbetreffende stap op een correcte wijze te modelleren. Dit leidt tot een modelleringsraamwerk dat het LIED-raamwerk wordt genoemd en heeft als voordeel dat gebruikers zelf kunnen beslissen welke aspecten van de theorie omtrent klantentevredenheid zij willen integreren in het wiskundig model. Verder werd in deze thesis ook aangetoond dat onder zwakke voorwaarden elke aggregatiefunctie behorende tot de familie van gegenereerde functies een geldige implementatie oplevert van het LIED-raamwerk. Door dit gegeven heeft de onderzoeker toegang tot een uitgebreide set van functies die reeds uitvoerig zijn bestudeerd vanuit een wiskundig perspectief binnen het onderzoeksdomein van aggregatiefuncties en die rechtstreeks kunnen toegepast worden om klantentevredenheid te modelleren met onvolledige data volgens de principes van het ED paradigma. De kracht van het LIED-raamwerk ligt in het feit dat het een duidelijke en verstaanbare vertaling aanbiedt aan marketeers tussen de verschillende aspecten van de theorie¨en omtrent klantentevredenheid enerzijds en de wiskundige eigenschappen van de modelleringsfuncties anderzijds. Naast de uitwerking van dit modelleringsraamwerk werd in het eerste deel van deze thesis ook een specifieke implementatie aangeboden en bestudeerd. Deze implementatie is gebaseerd op de evaluatieoperator van Dombi, een gegenereerde functie, en wordt de D-LIED implementatie genoemd. Deze implementatie heeft slechts ´e´en parameter waardoor het mogelijk wordt om voor iedere klant een apart model te schatten waardoor de onderzoeker in staat is het individueel verwachtingsniveau per klant te achterhalen. Het nadeel van deze implementatie is dat er slechts ´e´en verwachtingsniveau wordt gemodelleerd dat voor alle productattributen geldt. Dit nadeel werd in deze thesis omzeild door de hi¨erarchische structuur van de beschikbare data uit te buiten waardoor het mogelijk werd een verwachtingsniveau op productdimensieniveau te modelleren. Verder werden er verschillende experimenten uitgevoerd om de empirische validiteit van de schatter van het verwachtingsniveau te verifi¨eren. Al deze experimenten bevestigden dat de resultaten van de D-LIED implementie betrouwbaar zijn. Vervolgens werd aan de hand van twee gevalstudies de meerwaarde van informatie over de verwachtingen van een klant, afkomstig uit het model, aangetoond. Zo bleek dat sommige productdimensies die op basis van de performantiedata als significant slecht ge¨ ıdentificeerd waren, minder problematisch te zijn dan de performantiedata deed uitschijnen. Na analyse van de verwachtingen omtrent deze ‘slecht presterende’ dimensies bleek immers dat klanten niet veel verwachtten van deze dimensies en dat ze dus amper impact hadden op de klantentevredenheid. Anderzijds bleken sommige dimensies die op het eerste zicht zeer goed presteerde amper de verwachtingen te overtreffen. De D-LIED implementatie werd in deze thesis ook gebruikt om een nieuw type van ‘Importance-Performance Analysis’ (IPA) uit te werken. Traditionele vormen van IPA gebruiken een enquˆ ete of regressieanalyse om de belangrijkheid van een productattribuut te meten. Recent onderzoek heeft echter aangetoond dat zulke aanpak gebreken heeft. Het voornaamste probleem is dat de productattribuutbelangrijkheid vaak wordt voorgesteld aan de hand van een puntschatter terwijl empirisch onderzoek suggereert dat de belangrijkheid van een productattribuut in het klantentevredenheidsproces verandert naarmate het performantieniveau van dat attribuut verandert. De D-LIED implementatie, die een wiskundige voorstelling is van het klantentevredenheidsproces, laat toe de impact van een verandering in het performantieniveau te simuleren. Hierdoor konden er twee nieuwe IPA types gemaakt worden. Het eerste IPA type evalueert en visualiseert het aandeel van een productattribuut in de algemene tevredenheidsscore. Het tweede IPA type visualiseert de impact op tevredenheid bij een stijging of daling van het huidige prestatieniveau van ieder productattribuut. Tenslotte werd in deze thesis de schatting van het verwachtingsniveau, afgeleid met behulp van de D-LIED implementatie, gebruikt om de compatibiliteit tussen de verwachting van de klant en de performantie van het product te bepalen. De compatibiliteit betreft het absolute verschil tussen de verwachting en de performantie. Op basis van de ‘reinforcement learning’ theorie werden de hypotheses geformuleerd dat zowel het aanbevelen van een product door klanten bij derden als de neiging om het product opnieuw aan te kopen positief gerelateerd zijn met de compatibiliteit tussen performantie en verwachting. In deze thesis werden twee verschillende compatibiliteitsmaten gedefinieerd en empirisch onderzoek toonde aan dat beide positief gerelateerd zijn met klantenaanbeveling en klantenloyaliteit. Finaal werd aan de hand van een gevalstudie ook ge¨ ıllustreerd hoe een bedrijf deze compatibiliteitsmaat kan gebruiken om de gevolgen van klantentevredenheid, zoals aanbeveling bij derden en klantenloyaliteit, beter te begrijpen. Uit de verschillende experimenten en empirische resultaten in het eerste deel van deze thesis bleek dat het LIED-raamwerk en de D-LIED implementatie zeer krachtige technieken zijn om nieuwe kennis te extraheren uit ‘onvolledige’ klantentevredenheidsdata, i.e. wanneer het bedrijf enkel over performantie- en tevredenheidsdata beschikt. Het tweede deel van deze thesis verlaat het pad van klantentevredenheid en focust op een totaal andere vorm van onvolledige data in de analyse van klantengedrag. Dit deel van de thesis bestudeert het probleem van klantensegmentatie wanneer belangrijke en noodzakelijke observaties of variabelen ontbreken om de ware onderliggende klantensegmenten te detecteren. Een nieuwe fuzzy clustertechniek, PSO-CFC, werd ontwikkeld, dewelke de beperkingen van de data tracht te overstijgen door samen te werken met andere datasites zonder hierbij privacygevoelige data uit te wisselen. Deze clustertechniek is gebaseerd op ‘collaborative fuzzy clustering’ en gebruikt ‘particle swarm optimization’ om de mate van samenwerking tussen de verschillende datasites te bepalen. Ook werd aangetoond dat deze nieuwe PSO-CFC clustertechniek verschillende kenmerken deelt met andere gedistribueerde clustertechnieken en gepositioneerd kan worden binnen het domein van ‘ubiquitous knowledge discovery’. Experimenten voor zowel situaties waar observaties ontbreken als voor situaties waar belangrijke variabelen ontbreken werden uitgevoerd en de empirische resultaten toonden aan dat PSO-CFC de klassieke lokale clustering overtrof in verschillende experimenten. Wanneer belangrijke variabelen ontbreken, kan PSO-CFC de clusters significant verbeteren wanneer deze elkaar overlappen. Wanneer belangrijke observaties ontbreken, overtreft PSO-CFC lokale clustertechnieken zolang de data willekeurig getrokken is uit iedere cluster. In het bijzonder als de clusters niet in gelijke mate vertegenwoordigd zijn in de data zal PSO-CFC betere clusterresultaten opleveren
Knowledge discovery techniques for understanding customer behaviour with incomplete data
Geen enkele onderneming die actief is in een competitieve en klantgerichte markt zal het belang van klantentevredenheid onderschatten zonder hiervoor een prijs te moeten betalen. Wetenschappelijk onderzoek heeft al meermaals de positieve invloed van klantentevredenheid op verschillende aspecten van een bedrijf aangetoond. Tevreden klanten zorgen voor minder klachten en minder kosten die hiermee gepaard gaan. Ze genereren positieve en onbetaalbare mondreclame, zijn bereid meer te betalen voor eenzelfde product en vertonen een grotere mate van loyaliteit wat zich uit in het heraankopen van het product. Daarom hoeft het ook geen betoog dat bedrijven een competitief voordeel kunnen uitbouwen als ze erin slagen hun klanten beter te begrijpen en meer tevreden kunnen maken dan hun directe concurrenten. Menig bedrijf maakt dan ook geld en tijd vrij om de informatie over hun klanten te analyseren en zo te achterhalen ‘wat’ hun klanten tevreden stelt. Er ontstaat echter een probleem wanneer de analysetechnieken worden toegepast op onvolledige data wat kan leiden tot onvolledige of zelfs foute conclusies betreffende klantentevredenheid. Onvolledige data tijdens het analyseren van klantentevredenheid komt vaker voor dan men op het eerste zicht verwacht. Vaak beschikken bedrijven slechts over twee soorten informatie als het op klantentevredenheid aankomt, i.e. ‘hoe tevreden is de klant met het product’ en ‘hoe goed presteerde het product volgens de klant’. Zulke data veronderstelt dat klantentevredenheid enkel gestuurd wordt door het performantieniveau van het product, wat tegengesproken wordt door de huidige idee¨ en en theori¨ en omtrent het klantentevredenheidsproces. Volgens het ‘Expectancy-Disconfirmation’ (ED) paradigma, dat ´e´en van de meest dominante theorie¨en is in de onderzoeksliteratuur, heeft de productperformantie slechts een indirect effect op klantentevredenheid. Volgens deze theorie wordt binnen het klantentevredenheidsproces de performantie vergeleken met een referentieniveau wat in de meeste gevallen leidt tot een disconfirmatie van deze referentie. Volgens het ED paradigma is het dit disconfirmatie- en referentieniveau die samen het tevredenheidsof ontevredenheidsgevoel veroorzaken. Hoe positiever de disconfirmatie is, des te groter de klant zijn tevredenheid zal zijn, ceteris paribus. Hoe hoger het referentieniveau is, des te hoger de klantentevredenheid zal zijn, ceteris paribus. Als een onderneming enkel performantie- en tevredenheidsdata ter beschikking heeft voor het analyseren van klantentevredenheid, ontbreekt er dus belangrijke informatie die een rol heeft gespeeld in het tevreden stellen van de klant. Maar zelfs als een onderneming tijdens het ondervragen van de klanten gepeild heeft naar het referentieniveau van de klant, kan de onderzoeker of marketeer nog steeds met onvolledige data achterblijven. Want hoewel de onderzoeksliteratuur de laatste twintig tot dertig jaar het ED paradigma uitgebreid heeft getest en een algemene consensus bestaat over de validiteit van deze theorie, blijkt uit het literatuuronderzoek in deze thesis dat de onderzoekswereld het nooit eens is geraakt over wat een klant als referentieniveau hanteert. Terwijl de oorspronkelijke invulling gebeurde door middel van de verwachte productperformantie heeft later onderzoek aangetoond dat onder andere het prestatieniveau van andere producten ook als referentieniveau kunnen gebruikt worden. Dus zelfs als de onderzoeker bijvoorbeeld de verwachtingen van de klant ter beschikking heeft, dan bestaat nog steeds de mogelijkheid dat dit niet de juiste referentie is in het tevredenheidsproces van die klant. Net als in het vorige scenario blijft de onderzoeker achter met onvolledige data. In het eerste deel van deze thesis werd een nieuwe analysetechniek ontworpen die toelaat om het klantentevredenheidsproces te modelleren met onvolledige data in overeenstemming met de richtlijnen van het ED paradigma. Deze techniek laat bedrijven toe om met enkel performantie- en tevredenheidsdata de klantentevredenheid te analyseren op een manier die overeenstemt met de theorie, i.e. het ED paradigma. Hiervoor werd het klantentevredenheidsproces eerst in drie stappen ontleed: • de evaluatie op productattribuutniveau van de productperformantie ten opzichte van een referentieniveau wat leidt tot disconfirmatie op attribuutniveau, • de aggregatie van de disconfirmaties op productattribuutniveau naar een algemene disconfirmatie, • de interactie tussen de algemene disconfirmatie en de initi¨ele klantentevredenheid die samen leiden tot een algemeen tevredenheidsgevoel. In plaats van iedere stap te vertalen naar ´e´en specifieke wiskundige functie werd ten gunste van de modelleringsflexibiliteit per stap een set van wiskundige eigenschappen gedefinieerd waaraan een wiskundige functie moet voldoen om de desbetreffende stap op een correcte wijze te modelleren. Dit leidt tot een modelleringsraamwerk dat het LIED-raamwerk wordt genoemd en heeft als voordeel dat gebruikers zelf kunnen beslissen welke aspecten van de theorie omtrent klantentevredenheid zij willen integreren in het wiskundig model. Verder werd in deze thesis ook aangetoond dat onder zwakke voorwaarden elke aggregatiefunctie behorende tot de familie van gegenereerde functies een geldige implementatie oplevert van het LIED-raamwerk. Door dit gegeven heeft de onderzoeker toegang tot een uitgebreide set van functies die reeds uitvoerig zijn bestudeerd vanuit een wiskundig perspectief binnen het onderzoeksdomein van aggregatiefuncties en die rechtstreeks kunnen toegepast worden om klantentevredenheid te modelleren met onvolledige data volgens de principes van het ED paradigma. De kracht van het LIED-raamwerk ligt in het feit dat het een duidelijke en verstaanbare vertaling aanbiedt aan marketeers tussen de verschillende aspecten van de theorie¨en omtrent klantentevredenheid enerzijds en de wiskundige eigenschappen van de modelleringsfuncties anderzijds. Naast de uitwerking van dit modelleringsraamwerk werd in het eerste deel van deze thesis ook een specifieke implementatie aangeboden en bestudeerd. Deze implementatie is gebaseerd op de evaluatieoperator van Dombi, een gegenereerde functie, en wordt de D-LIED implementatie genoemd. Deze implementatie heeft slechts ´e´en parameter waardoor het mogelijk wordt om voor iedere klant een apart model te schatten waardoor de onderzoeker in staat is het individueel verwachtingsniveau per klant te achterhalen. Het nadeel van deze implementatie is dat er slechts ´e´en verwachtingsniveau wordt gemodelleerd dat voor alle productattributen geldt. Dit nadeel werd in deze thesis omzeild door de hi¨erarchische structuur van de beschikbare data uit te buiten waardoor het mogelijk werd een verwachtingsniveau op productdimensieniveau te modelleren. Verder werden er verschillende experimenten uitgevoerd om de empirische validiteit van de schatter van het verwachtingsniveau te verifi¨eren. Al deze experimenten bevestigden dat de resultaten van de D-LIED implementie betrouwbaar zijn. Vervolgens werd aan de hand van twee gevalstudies de meerwaarde van informatie over de verwachtingen van een klant, afkomstig uit het model, aangetoond. Zo bleek dat sommige productdimensies die op basis van de performantiedata als significant slecht ge¨ ıdentificeerd waren, minder problematisch te zijn dan de performantiedata deed uitschijnen. Na analyse van de verwachtingen omtrent deze ‘slecht presterende’ dimensies bleek immers dat klanten niet veel verwachtten van deze dimensies en dat ze dus amper impact hadden op de klantentevredenheid. Anderzijds bleken sommige dimensies die op het eerste zicht zeer goed presteerde amper de verwachtingen te overtreffen. De D-LIED implementatie werd in deze thesis ook gebruikt om een nieuw type van ‘Importance-Performance Analysis’ (IPA) uit te werken. Traditionele vormen van IPA gebruiken een enquˆ ete of regressieanalyse om de belangrijkheid van een productattribuut te meten. Recent onderzoek heeft echter aangetoond dat zulke aanpak gebreken heeft. Het voornaamste probleem is dat de productattribuutbelangrijkheid vaak wordt voorgesteld aan de hand van een puntschatter terwijl empirisch onderzoek suggereert dat de belangrijkheid van een productattribuut in het klantentevredenheidsproces verandert naarmate het performantieniveau van dat attribuut verandert. De D-LIED implementatie, die een wiskundige voorstelling is van het klantentevredenheidsproces, laat toe de impact van een verandering in het performantieniveau te simuleren. Hierdoor konden er twee nieuwe IPA types gemaakt worden. Het eerste IPA type evalueert en visualiseert het aandeel van een productattribuut in de algemene tevredenheidsscore. Het tweede IPA type visualiseert de impact op tevredenheid bij een stijging of daling van het huidige prestatieniveau van ieder productattribuut. Tenslotte werd in deze thesis de schatting van het verwachtingsniveau, afgeleid met behulp van de D-LIED implementatie, gebruikt om de compatibiliteit tussen de verwachting van de klant en de performantie van het product te bepalen. De compatibiliteit betreft het absolute verschil tussen de verwachting en de performantie. Op basis van de ‘reinforcement learning’ theorie werden de hypotheses geformuleerd dat zowel het aanbevelen van een product door klanten bij derden als de neiging om het product opnieuw aan te kopen positief gerelateerd zijn met de compatibiliteit tussen performantie en verwachting. In deze thesis werden twee verschillende compatibiliteitsmaten gedefinieerd en empirisch onderzoek toonde aan dat beide positief gerelateerd zijn met klantenaanbeveling en klantenloyaliteit. Finaal werd aan de hand van een gevalstudie ook ge¨ ıllustreerd hoe een bedrijf deze compatibiliteitsmaat kan gebruiken om de gevolgen van klantentevredenheid, zoals aanbeveling bij derden en klantenloyaliteit, beter te begrijpen. Uit de verschillende experimenten en empirische resultaten in het eerste deel van deze thesis bleek dat het LIED-raamwerk en de D-LIED implementatie zeer krachtige technieken zijn om nieuwe kennis te extraheren uit ‘onvolledige’ klantentevredenheidsdata, i.e. wanneer het bedrijf enkel over performantie- en tevredenheidsdata beschikt. Het tweede deel van deze thesis verlaat het pad van klantentevredenheid en focust op een totaal andere vorm van onvolledige data in de analyse van klantengedrag. Dit deel van de thesis bestudeert het probleem van klantensegmentatie wanneer belangrijke en noodzakelijke observaties of variabelen ontbreken om de ware onderliggende klantensegmenten te detecteren. Een nieuwe fuzzy clustertechniek, PSO-CFC, werd ontwikkeld, dewelke de beperkingen van de data tracht te overstijgen door samen te werken met andere datasites zonder hierbij privacygevoelige data uit te wisselen. Deze clustertechniek is gebaseerd op ‘collaborative fuzzy clustering’ en gebruikt ‘particle swarm optimization’ om de mate van samenwerking tussen de verschillende datasites te bepalen. Ook werd aangetoond dat deze nieuwe PSO-CFC clustertechniek verschillende kenmerken deelt met andere gedistribueerde clustertechnieken en gepositioneerd kan worden binnen het domein van ‘ubiquitous knowledge discovery’. Experimenten voor zowel situaties waar observaties ontbreken als voor situaties waar belangrijke variabelen ontbreken werden uitgevoerd en de empirische resultaten toonden aan dat PSO-CFC de klassieke lokale clustering overtrof in verschillende experimenten. Wanneer belangrijke variabelen ontbreken, kan PSO-CFC de clusters significant verbeteren wanneer deze elkaar overlappen. Wanneer belangrijke observaties ontbreken, overtreft PSO-CFC lokale clustertechnieken zolang de data willekeurig getrokken is uit iedere cluster. In het bijzonder als de clusters niet in gelijke mate vertegenwoordigd zijn in de data zal PSO-CFC betere clusterresultaten opleveren
Towards Confirmatory Process Discovery: Making Assertions About the Underlying System
The focus in the field of process mining, and process discovery in particular, has thus far been on exploring and describing event data by the means of models. Since the obtained models are often directly based on a sample of event data, the question whether they also apply to the real process typically remains unanswered. As the underlying process is unknown in real life, there is a need for unbiased estimators to assess the system-quality of a discovered model, and subsequently make assertions about the process. In this paper, an experiment is described and discussed to analyze whether existing fitness, precision and generalization metrics can be used as unbiased estimators of system fitness and system precision. The results show that important biases exist, which makes it currently nearly impossible to objectively measure the ability of a model to represent the system.The computational resources and services used in this work for both process discovery and process conformance tasks were provided by the VSC (Flemish Supercomputer Center), funded by the Research Foundation - Flanders (FWO) and the Flemish Government
Simulating Process Trees Using Discrete-Event Simulation
The Process Tree notation is an emerging language for modeling block-structured processes. A Process Tree is inherently sound and therefore proves to be the ideal input of a simulator as it can never deadlock. However, most business process simulation tools require a translation to Petri Nets. This technical paper proposes a simulation tool for Process Trees based on the principles of discrete-event simulation (DES) that accepts a Process Tree as input. The proposed implementation benefits from the extensive work that has already been done on DES, including software packages to execute DES simulation. The simulation algorithms and implementations are free to download and use
Data-Driven Process Simulation
Synonyms-Definition Data-driven process simulation is a technique which constructs a computer model that imitates the internal details of a business process and extensively uses real-life data-recorded by information systems supporting the actual process-to do so. The model is used to evaluate what-if scenarios in order to better understand the actual process behaviour and to predict the impact of potential changes to the process. This is a preprint version of an article published in the Encyclopedia of Big Data Technologies. The final authenticated version is available online at: https://doi.org/10
Calculating the Number of Unique Paths in a Block-Structured Process Model
Estimating the number of execution paths in a process model is a non-trivial task as one runs quickly into an combinatorial explosion of possible paths. This paper introduces a new algorithm to calculate the number of different execution paths for finite-behavior block-structured models in a computationally efficient way. Block functions are defined for the workflow constructs sequence, parallel, exclusive choice and finite loops, such that the amount of behavior in each block-construct can be computed efficiently. Subsequently, the block-structuredness of the model is exploited to efficiently calculate the number of unique paths in the model. The algorithm has been implemented for process trees, although the translation to other modeling notations is straightforward. An empirical analysis showed that the run-time of the algorithm is very low, and only slightly impacted by the complexity of the model.FW
A Rational Risk Policy? Why Path Dependence Matters
The Kelly criterion determines optimal bet sizes that maximize long-term growth. While growth is definitely an important consideration, the focus on growth alone can lead to significant drawdowns, leading to psychological discomfort for a risk-taker. Path-dependent risk measures, such as drawdown risk, provide a means to assess the risk of significant portfolio retracements. In this paper, we provide a flexible framework for assessing path dependent risk for a trading or investment operation. Given a certain set of profitable trading characteristics, a risk-taker who maximizes expected growth can still be faced with significant drawdowns to the point where a strategy becomes unsustainable. We demonstrate, through a series of experiments, the importance of path dependent risks in the case of outcomes subject to various return distributions. Based on Monte Carlo simulation, we analyze the medium-term behavior of different cumulative return paths and study the impact of different return outcome distributions. We show that in the case of heavier tailed outcomes, extra care is needed, and optimal might not be so optimal in the end
The Need for Interactive Data-Driven Process Simulation in Healthcare: A Case Study
In healthcare, more and more process execution information is stored in Hospital Information Systems. This data, in conjunction with data-driven process simulation, can be used, e.g. to support hospital management with Capacity Management decisions. However, real-life event logs in healthcare often suffer from data quality issues, affecting the reliability of simulation results. In this work, we illustrate the effects of disregarding data quality issues on simulation outcomes and the importance of domain knowledge using a case study at the radiology department of a hospital. Current literature on data-driven process simulation acknowledges the need for domain expertise but does not provide a framework for conceptualising the involvement of domain experts. Therefore, we propose a novel conceptual framework which interactively involves experts during data-driven simulation model development
Peak-to-valley drawdowns:insights into extreme path-dependent market risk
In this paper, we study risk from the perspective of peak-to-valley market draw-downs. The objective is to gain empirical insights into the drawdown behavior of various asset classes during several time intervals. While the existing literature on drawdown distributions has primarily focused on local drawdowns or consecutive daily drops in various asset classes, this paper focuses on extreme (cumulative) losses occurring over a daily, biweekly, monthly, quarterly and yearly period. The typical investor is mainly concerned with significant negative downward movements, especially when several of these movements happen within a specific time frame. The drawdown measure studied herein embodies this path-dependent risk better than a typical daily standard deviation or value-at-risk estimate due to its cumulative and path-dependent nature. The drawdowns over different periods are analyzed for 25 assets linked to equity indexes, commodities and foreign exchange rates. The tail observations of these drawdowns are fitted to the power law (Pareto distribution) and the stretched exponential (Weibull distribution). We find that the bulk of these observations are well fitted by both distributions. In addition, our analysis shows that the most extreme observations tend to fall between the Weibull and Pareto fits, suggesting that these can be used to define a lower and upper boundary for modeling future drawdowns
- …
