1,720,978 research outputs found
Simulating Process Trees Using Discrete-Event Simulation
The Process Tree notation is an emerging language for modeling block-structured processes. A Process Tree is inherently sound and therefore proves to be the ideal input of a simulator as it can never deadlock. However, most business process simulation tools require a translation to Petri Nets. This technical paper proposes a simulation tool for Process Trees based on the principles of discrete-event simulation (DES) that accepts a Process Tree as input. The proposed implementation benefits from the extensive work that has already been done on DES, including software packages to execute DES simulation. The simulation algorithms and implementations are free to download and use
Calculating the Number of Unique Paths in a Block-Structured Process Model
Estimating the number of execution paths in a process model is a non-trivial task as one runs quickly into an combinatorial explosion of possible paths. This paper introduces a new algorithm to calculate the number of different execution paths for finite-behavior block-structured models in a computationally efficient way. Block functions are defined for the workflow constructs sequence, parallel, exclusive choice and finite loops, such that the amount of behavior in each block-construct can be computed efficiently. Subsequently, the block-structuredness of the model is exploited to efficiently calculate the number of unique paths in the model. The algorithm has been implemented for process trees, although the translation to other modeling notations is straightforward. An empirical analysis showed that the run-time of the algorithm is very low, and only slightly impacted by the complexity of the model.FW
Calculating the Number of Unique Paths in a Block-Structured Process Model
Estimating the number of execution paths in a process model is a non-trivial task as one runs quickly into an combinatorial explosion of possible paths. This paper introduces a new algorithm to calculate the number of different execution paths for finite-behavior block-structured models in a computationally efficient way. Block functions are defined for the workflow constructs sequence, parallel, exclusive choice and finite loops, such that the amount of behavior in each block-construct can be computed efficiently. Subsequently, the block-structuredness of the model is exploited to efficiently calculate the number of unique paths in the model. The algorithm has been implemented for process trees, although the translation to other modeling notations is straightforward. An empirical analysis showed that the run-time of the algorithm is very low, and only slightly impacted by the complexity of the model.FW
Summary of the Process Discovery Contest 2016
Process Mining is a relatively young research discipline that aims to discover, monitor and improve processes based on real facts (and not assumptions) by extracting knowledge from event logs readily available in today’s (information) systems [1]. The lion’s share of attention of Process Mining has been devoted to Process Discovery,namely extracting process models - mainly business process models - from an event log. In the last decade, several new techniques for process discovery have been put forward. Each technique has been evaluated on separate event data, thus making it difficult to perform a comparative evaluation. However, in light of a continuously growing of strength and interest in Process Mining as a discipline, it becomes crucial to finally foster a comparison of existing discovery techniques. With this need at hand, we organized the first edition of the Process-Discovery contest, which was co-located with the BPM-2016 Conference in Rio de Janeiro (Brazil)
An Improved Way for Measuring Simplicity During Process Discovery
In the domain of process discovery, there are four quality dimensions for evaluating process models of which simplicity is one. Simplicity is often measured using the size of a process model, the structuredness and the entropy. It is closely related to the process model understandability. Researchers from the domain of business process management (BPM) proposed several metrics for measuring the process model understandability. A part of these understandability metrics focus on the control-flow perspective, which is important for evaluating models from process discovery algorithms. It is remarkable that there are more of these metrics defined in the BPM literature compared to the number of proposed simplicity metrics. To research whether the understandability metrics capture more understandability dimensions than the simplicity metrics, an exploratory factor analysis was conducted on 18 understandability metrics. A sample of 4450 BPMN models, both manually modelled and artificially generated, is used. Four dimensions are discovered: token behaviour complexity, node IO complexity, path complexity and degree of connectedness. The conclusion of this analysis is that process analysts should be aware that the measurement of simplicity does not capture all dimensions of the understandability of process models
A Framework to Evaluate and Compare Decision-Mining Techniques
\u3cp\u3eDuring the last decade several decision mining techniques have been developed to discover the decision perspective of a process from an event log. The increasing number of decision mining techniques raises the importance of evaluating the quality of the discovered decision models and/or decision logic. Currently, the evaluations are limited because of the small amount of available event logs with decision information. To alleviate this limitation, this paper introduces the ‘DataExtend’ technique that allows evaluating and comparing decision-mining techniques with each other, using a sufficient number of event logs and process models to generate evaluation results that are statistically significant. This paper also reports on an initial evaluation using ‘DataExtend’ that involves two techniques to discover decisions, whose results illustrate that the approach can serve the purpose.\u3c/p\u3
Empirically Evaluating Process Mining Algorithms: Towards Closing the Methodological Gap
Om competitief te blijven op een globale en snel veranderende markt, hebben bedrijven hun focus verlegd van de producten en diensten naar de manier waarop deze gemaakt en geleverd worden aan de klant. Een gevolg daarvan is dat het beheren van de bedrijsprocessen belangrijker is geworden. Bedrijven hebben steeds meer en meer data verzameld over de uitvoering van deze bedrijfsprocessen ondersteund door informatiesystemen. Dit heeft geleid tot een explosie van beschikbare procesdata.
Process mining technieken bieden de mogelijkheid om onontgonnen kennis uit zulke procesdata, ook wel event logs genoemd, te halen. Deze technieken reiken praktische inzichten en ideeën aan met het doel bedrijfsprocessen te verbeteren en hun performantie te verhogen. Het startpunt van process mining is het ontdekken van een procesmodel uit de event log, ook wel process discovery genoemd. Het ontdekte model biedt een objectieve weergave van de realiteit door de volgorde van de verschillende procesactiviteiten te visualiseren. Met behulp van het ontdekte model kan je twee andere types van process mining technieken toepassen, namelijk conformance checking en enhancement. Conformance checking technieken sporen afwijkingen op tussen een event log en het ontdekte model. Enhancement technieken voegen informatie toe aan het ontdekte model op basis van de gegevens in de event log. Voorbeelden hiervan zijn kosten, eigenschappen van de procesinstantie en klantgegevens. Een essentieel onderdeel van procesmodellen zijn de beslissingspunten waar bepaald wordt welk pad de procesinstantie doorheen het proces volgt. Zo kan een bedrijf bijvoorbeeld korting toekennen aan loyale klanten. Het ontdekte model bevat zulke informatie niet. Met behulp van decision mining technieken kan je op basis van de informatie in de event log leren hoe de beslissingen in het ontdekte model genomen worden.
Het stijgende aantal process discovery en decision mining technieken heeft er toe geleid dat het onderzoek omtrent het empirisch evalueren van deze technieken meer aandacht heeft gekregen. Deze evaluaties hebben als doel om inzichten te leveren over welke technieken goed werken bij welke soorten procesgedrag. Een empirische evaluatie van process discovery/decision mining technieken vereist de volgende vier stappen: het bepalen van het doel van de evaluatie, het selecteren van de procesdata, het kiezen van een geschikte kwaliteitsmaatstaf en het toepassen van de correcte statistische test. Elk van deze vier stappen biedt onopgeloste vraagstukken die het onderzoeksdomein verhinderen inzichten te verkrijgen in de sterktes en zwaktes van process discovery en decision mining technieken. Deze thesis spitst zich toe op de uitdagingen rond de selectie van procesdata, kwaliteitsmeting en statistische tests voor process discovery. Bovendien pakt deze thesis ook de uitdagingen rond procesdata en kwaliteitsmeting voor decision mining evaluatie aan.
Het selecteren van de procesdata biedt de eerste uitdaging voor process discovery evaluatie. Geen enkele van de bestaande evaluatiemethoden specifieert een methodologie voor het kiezen van de geschikte procesdata voor het evalueren van process discovery technieken. Bovendien bevat de bestaande verzameling van reële event logs, die vaak gebruikt wordt voor evaluatie, geen referentiemodellen waardoor ze niet toelaat om statistisch significante conclusies te veralgemenen naar een procespopulatie. Anderzijds zijn bestaande artificiële datageneratoren beperkt in de proceskarakteristieken die ze genereren en garanderen ze geen correct experimenteel ontwerp zodat de geldigheid van de statistische conclusies niet zeker is. De tweede uitdaging omvat het meten van de kwaliteit van de ontdekte modellen. De huidige evaluatiemethoden vertrouwen op maatstaven die sterk gelinkt zijn aan de modelnotatie en hierdoor de kwaliteitsresultaten beïnvloeden. De finale uitdaging betreft de statistische tests die uitgevoerd worden om algemene conclusies te trekken op basis van de resultaten. De huidige evaluatiemethoden gebruiken niet-willekeurige steekproeven waarvan men de populatie niet kan achterhalen en dus de resultaten niet veralgemeend kunnen worden naar de populatie.
De belangrijkste uitdaging bij het evalueren van decision mining technieken is het ontbreken van een standaardprocedure. Als gevolg daarvan zijn er maar enkele empirische evaluaties uitgevoerd die problemen ondervonden met de selectie van procesdata en het meten van de kwaliteit. Deze evaluaties gebruikten kleine niet-willekeurige steekproeven die niet veralgemeend kunnen worden naar een populatie. Bestaande artificiële datageneratoren zijn niet ontworpen voor het evalueren van decision mining technieken en bieden geen oplossing voor de bestaande uitdagingen. Bovendien hebben de huidige evaluatiemethoden verschillende kwaliteitsmaatstaven gebruikt die niet volledig objectief zijn. Tot slot heeft de beperking tot kleine steekproeven geleid tot het ontbreken van statistische analyses in de bestaande evaluaties.
Zolang het onderzoeksdomein de bestaande uitdagingen gerelateerd aan de evalatie van process discovery en decision mining technieken niet aanpakt, zal er geen consensus zijn over de kwaliteit van de bestaande technieken. Daarom is het hoofddoel van deze thesis het ontwerpen van empirische evaluatieprocedures voor zowel process discovery als decision mining die een objective vergelijking en veralgemening van de resultaten toelaten. Het hoofddoel is verder opgedeeld in drie onderzoeksdoelen.
Het eerste onderzoeksdoel omvat de Generating artificial Event Data (GED) methodologie voor het genereren van willekeurige procesmodellen en event logs voor empirische evaluatie van process discovery en decision mining technieken. De GED methodologie start met het definiëren van de procesmodelpopulatie. Deze definitie specifieert de procespatronen die de modellen in de populatie karakteriseren. In een volgende stap wordt een willekeurige steekproef bestaande uit procesmodellen getrokken uit de populatie. Deze steekproef wordt dan gesimuleerd in willekeurige event logs. De Process Tree and Log Generator (PTandLogGenerator) voorziet de nodige algoritmes en ondersteuning om de GED methodologie te implementeren en te automatiseren. De nieuwe algoritmes maken het mogelijk om procespatronen, i.e. langetermijnafhankelijkheden, meerkeuze en gedupliceerde activiteiten, te introduceren in de gegenereerde modellen die niet mogelijk waren in bestaande datageneratoren. De evaluatie van de PTandLogGenerator toont aan dat deze effectief de GED methodologie ondersteunt en leidt tot nieuwe inzichten over process discovery technieken. Bovendien maakt de uitbreiding, DataExtend genoemd, het mogelijk om procesinstantiekenmerken de beslissingspunten in een model te laten verklaren. Als gevolg daarvan kan men op die manieer ook decision mining technieken evalueren.
Het tweede onderzoeksdoel bestaat erin de GED methodologie te incorporeren in een nieuwe evaluatieprocedure voor process discovery technieken. De nieuwe procedure focust op het meten van de kwaliteit van een techniek om het onderliggende proces te herontdekken, onafhankelijk van de gebruikte procesnotatie. De procedure vertrekt vanuit een modelpopulatie van waaruit willekeurige referentiemodellen getrokken worden. Vervolgens, meet de procedure de kwaliteit van een discovery techniek met behulp van een classificatiemethode die de kennis van het referentiemodel hanteert. Twee experimenten met vier process discovery technieken die verschillende procesnotaties hanteren hebben aangetoond dat de nieuwe procedure de doelen van empirische process discovery evaluatie ondersteunt: het vergelijken van technieken en het analyseren van de impact van procespatronen op de kwaliteit van het ontdekte model. Bovendien kunnen de resultaten van de experimenten veralgemeend worden naar de modelpopulaties. Tot slot biedt de ontworpen implementatie van de nieuwe procedure onderzoekers de mogelijkheid om hun experimenten te delen zodat ze gemakkelijk gereproduceerd kunnen worden.
Het derde onderzoeksdoel omvat het uitbreiden van de evaluatieprocedure voor process discovery technieken tot de eerste evaluatieprocedure voor decision mining technieken. Deze nieuwe procedure integreert opnieuw de GED methodologie met de uitbreiding om referentiemodellen te genereren met procesinstantiekenmerken die de beslissingpunten beïnvloeden. In een volgende stap meet de procedure de kwaliteit van de decision mining technieken om de beslissingslogica te herontdekken op basis van de event log. De kwaliteitsmeting hanteert opnieuw een classificatiemethode die de kennis van het referentiemodel met beslissingslogica uitbuit. De experimenten tonen aan dat de nieuwe procedure toelaat om decision mining technieken te vergelijken en de impact van procespatronen, zoals het determinisme van beslissingspunten, op de kwaliteit van het ontdekte model met beslissingslogica te bepalen. Bovendien kan men, door het starten vanuit de modelpopulatie, de bekomen resultaten veralgemenen naar die populatie.
In zijn geheel beoogt deze thesis om het uitvoeren van evaluatie-experimenten te stimuleren en aan te zetten tot nog meer onderzoek naar empirische evaluatie van process discovery en decision mining technieken. Eerst en vooral ondersteunen de nieuwe evaluatieprocedures het vergelijken van technieken om onderzoekers te helpen de echte waardeverhoudingen tussen de verschillende technieken te bepalen. Dit biedt een antwoord op de vraag ``welke process discovery techniek presteert het beste op event logs met moeilijk te ontdekken procesgedrag?'', bijvoorbeeld gedupliceerde activiteiten. Die antwoorden helpen onderzoekers in het beoordelen van de kwaliteitsverbetering van nieuwe technieken ten opzichte van bestaande technieken. Ten tweede, ondersteunen de nieuwe evaluatieprocedures de analyse van de impact van bepaalde procespatronen, bijvoorbeeld het determinisme van de beslissingspunten, op de kwaliteit van de modellen/logica ontdekt door de geëvalueerde technieken. Zulke beoordelingen zijn van vitaal belang om te begrijpen waarom de process discovery en decision mining technieken werken in bepaalde situaties. Tot slot kan de verworven kennis evaluatie-experimenten het onderzoeksdomein bijstaan om aanbevelingen op te stellen over hoe de meest kwaliteitsvolle process discovery of decision mining techniek in de praktijk gekozen kan worden
Empirically Evaluating Process Mining Algorithms: Towards Closing the Methodological Gap
Om competitief te blijven op een globale en snel veranderende markt, hebben bedrijven hun focus verlegd van de producten en diensten naar de manier waarop deze gemaakt en geleverd worden aan de klant. Een gevolg daarvan is dat het beheren van de bedrijsprocessen belangrijker is geworden. Bedrijven hebben steeds meer en meer data verzameld over de uitvoering van deze bedrijfsprocessen ondersteund door informatiesystemen. Dit heeft geleid tot een explosie van beschikbare procesdata.
Process mining technieken bieden de mogelijkheid om onontgonnen kennis uit zulke procesdata, ook wel event logs genoemd, te halen. Deze technieken reiken praktische inzichten en ideeën aan met het doel bedrijfsprocessen te verbeteren en hun performantie te verhogen. Het startpunt van process mining is het ontdekken van een procesmodel uit de event log, ook wel process discovery genoemd. Het ontdekte model biedt een objectieve weergave van de realiteit door de volgorde van de verschillende procesactiviteiten te visualiseren. Met behulp van het ontdekte model kan je twee andere types van process mining technieken toepassen, namelijk conformance checking en enhancement. Conformance checking technieken sporen afwijkingen op tussen een event log en het ontdekte model. Enhancement technieken voegen informatie toe aan het ontdekte model op basis van de gegevens in de event log. Voorbeelden hiervan zijn kosten, eigenschappen van de procesinstantie en klantgegevens. Een essentieel onderdeel van procesmodellen zijn de beslissingspunten waar bepaald wordt welk pad de procesinstantie doorheen het proces volgt. Zo kan een bedrijf bijvoorbeeld korting toekennen aan loyale klanten. Het ontdekte model bevat zulke informatie niet. Met behulp van decision mining technieken kan je op basis van de informatie in de event log leren hoe de beslissingen in het ontdekte model genomen worden.
Het stijgende aantal process discovery en decision mining technieken heeft er toe geleid dat het onderzoek omtrent het empirisch evalueren van deze technieken meer aandacht heeft gekregen. Deze evaluaties hebben als doel om inzichten te leveren over welke technieken goed werken bij welke soorten procesgedrag. Een empirische evaluatie van process discovery/decision mining technieken vereist de volgende vier stappen: het bepalen van het doel van de evaluatie, het selecteren van de procesdata, het kiezen van een geschikte kwaliteitsmaatstaf en het toepassen van de correcte statistische test. Elk van deze vier stappen biedt onopgeloste vraagstukken die het onderzoeksdomein verhinderen inzichten te verkrijgen in de sterktes en zwaktes van process discovery en decision mining technieken. Deze thesis spitst zich toe op de uitdagingen rond de selectie van procesdata, kwaliteitsmeting en statistische tests voor process discovery. Bovendien pakt deze thesis ook de uitdagingen rond procesdata en kwaliteitsmeting voor decision mining evaluatie aan.
Het selecteren van de procesdata biedt de eerste uitdaging voor process discovery evaluatie. Geen enkele van de bestaande evaluatiemethoden specifieert een methodologie voor het kiezen van de geschikte procesdata voor het evalueren van process discovery technieken. Bovendien bevat de bestaande verzameling van reële event logs, die vaak gebruikt wordt voor evaluatie, geen referentiemodellen waardoor ze niet toelaat om statistisch significante conclusies te veralgemenen naar een procespopulatie. Anderzijds zijn bestaande artificiële datageneratoren beperkt in de proceskarakteristieken die ze genereren en garanderen ze geen correct experimenteel ontwerp zodat de geldigheid van de statistische conclusies niet zeker is. De tweede uitdaging omvat het meten van de kwaliteit van de ontdekte modellen. De huidige evaluatiemethoden vertrouwen op maatstaven die sterk gelinkt zijn aan de modelnotatie en hierdoor de kwaliteitsresultaten beïnvloeden. De finale uitdaging betreft de statistische tests die uitgevoerd worden om algemene conclusies te trekken op basis van de resultaten. De huidige evaluatiemethoden gebruiken niet-willekeurige steekproeven waarvan men de populatie niet kan achterhalen en dus de resultaten niet veralgemeend kunnen worden naar de populatie.
De belangrijkste uitdaging bij het evalueren van decision mining technieken is het ontbreken van een standaardprocedure. Als gevolg daarvan zijn er maar enkele empirische evaluaties uitgevoerd die problemen ondervonden met de selectie van procesdata en het meten van de kwaliteit. Deze evaluaties gebruikten kleine niet-willekeurige steekproeven die niet veralgemeend kunnen worden naar een populatie. Bestaande artificiële datageneratoren zijn niet ontworpen voor het evalueren van decision mining technieken en bieden geen oplossing voor de bestaande uitdagingen. Bovendien hebben de huidige evaluatiemethoden verschillende kwaliteitsmaatstaven gebruikt die niet volledig objectief zijn. Tot slot heeft de beperking tot kleine steekproeven geleid tot het ontbreken van statistische analyses in de bestaande evaluaties.
Zolang het onderzoeksdomein de bestaande uitdagingen gerelateerd aan de evalatie van process discovery en decision mining technieken niet aanpakt, zal er geen consensus zijn over de kwaliteit van de bestaande technieken. Daarom is het hoofddoel van deze thesis het ontwerpen van empirische evaluatieprocedures voor zowel process discovery als decision mining die een objective vergelijking en veralgemening van de resultaten toelaten. Het hoofddoel is verder opgedeeld in drie onderzoeksdoelen.
Het eerste onderzoeksdoel omvat de Generating artificial Event Data (GED) methodologie voor het genereren van willekeurige procesmodellen en event logs voor empirische evaluatie van process discovery en decision mining technieken. De GED methodologie start met het definiëren van de procesmodelpopulatie. Deze definitie specifieert de procespatronen die de modellen in de populatie karakteriseren. In een volgende stap wordt een willekeurige steekproef bestaande uit procesmodellen getrokken uit de populatie. Deze steekproef wordt dan gesimuleerd in willekeurige event logs. De Process Tree and Log Generator (PTandLogGenerator) voorziet de nodige algoritmes en ondersteuning om de GED methodologie te implementeren en te automatiseren. De nieuwe algoritmes maken het mogelijk om procespatronen, i.e. langetermijnafhankelijkheden, meerkeuze en gedupliceerde activiteiten, te introduceren in de gegenereerde modellen die niet mogelijk waren in bestaande datageneratoren. De evaluatie van de PTandLogGenerator toont aan dat deze effectief de GED methodologie ondersteunt en leidt tot nieuwe inzichten over process discovery technieken. Bovendien maakt de uitbreiding, DataExtend genoemd, het mogelijk om procesinstantiekenmerken de beslissingspunten in een model te laten verklaren. Als gevolg daarvan kan men op die manieer ook decision mining technieken evalueren.
Het tweede onderzoeksdoel bestaat erin de GED methodologie te incorporeren in een nieuwe evaluatieprocedure voor process discovery technieken. De nieuwe procedure focust op het meten van de kwaliteit van een techniek om het onderliggende proces te herontdekken, onafhankelijk van de gebruikte procesnotatie. De procedure vertrekt vanuit een modelpopulatie van waaruit willekeurige referentiemodellen getrokken worden. Vervolgens, meet de procedure de kwaliteit van een discovery techniek met behulp van een classificatiemethode die de kennis van het referentiemodel hanteert. Twee experimenten met vier process discovery technieken die verschillende procesnotaties hanteren hebben aangetoond dat de nieuwe procedure de doelen van empirische process discovery evaluatie ondersteunt: het vergelijken van technieken en het analyseren van de impact van procespatronen op de kwaliteit van het ontdekte model. Bovendien kunnen de resultaten van de experimenten veralgemeend worden naar de modelpopulaties. Tot slot biedt de ontworpen implementatie van de nieuwe procedure onderzoekers de mogelijkheid om hun experimenten te delen zodat ze gemakkelijk gereproduceerd kunnen worden.
Het derde onderzoeksdoel omvat het uitbreiden van de evaluatieprocedure voor process discovery technieken tot de eerste evaluatieprocedure voor decision mining technieken. Deze nieuwe procedure integreert opnieuw de GED methodologie met de uitbreiding om referentiemodellen te genereren met procesinstantiekenmerken die de beslissingpunten beïnvloeden. In een volgende stap meet de procedure de kwaliteit van de decision mining technieken om de beslissingslogica te herontdekken op basis van de event log. De kwaliteitsmeting hanteert opnieuw een classificatiemethode die de kennis van het referentiemodel met beslissingslogica uitbuit. De experimenten tonen aan dat de nieuwe procedure toelaat om decision mining technieken te vergelijken en de impact van procespatronen, zoals het determinisme van beslissingspunten, op de kwaliteit van het ontdekte model met beslissingslogica te bepalen. Bovendien kan men, door het starten vanuit de modelpopulatie, de bekomen resultaten veralgemenen naar die populatie.
In zijn geheel beoogt deze thesis om het uitvoeren van evaluatie-experimenten te stimuleren en aan te zetten tot nog meer onderzoek naar empirische evaluatie van process discovery en decision mining technieken. Eerst en vooral ondersteunen de nieuwe evaluatieprocedures het vergelijken van technieken om onderzoekers te helpen de echte waardeverhoudingen tussen de verschillende technieken te bepalen. Dit biedt een antwoord op de vraag ``welke process discovery techniek presteert het beste op event logs met moeilijk te ontdekken procesgedrag?'', bijvoorbeeld gedupliceerde activiteiten. Die antwoorden helpen onderzoekers in het beoordelen van de kwaliteitsverbetering van nieuwe technieken ten opzichte van bestaande technieken. Ten tweede, ondersteunen de nieuwe evaluatieprocedures de analyse van de impact van bepaalde procespatronen, bijvoorbeeld het determinisme van de beslissingspunten, op de kwaliteit van de modellen/logica ontdekt door de geëvalueerde technieken. Zulke beoordelingen zijn van vitaal belang om te begrijpen waarom de process discovery en decision mining technieken werken in bepaalde situaties. Tot slot kan de verworven kennis evaluatie-experimenten het onderzoeksdomein bijstaan om aanbevelingen op te stellen over hoe de meest kwaliteitsvolle process discovery of decision mining techniek in de praktijk gekozen kan worden
Generating Artificial Data for Empirical Analysis of Control-flowDiscovery Algorithms, A Process Tree and Log Generator
Within the process mining domain, research oncomparing control-flow (CF) discovery techniques hasgained importance. A crucial building block of empiricalanalysis of CF discovery techniques is obtaining theappropriate evaluation data. Currently, there is no answerto the question of how to collect such evaluation data. Thepaper introduces a methodology for generating artificialevent data (GED) and an implementation called the ProcessTree and Log Generator. The GED methodology and itsimplementation provide users with full control over thecharacteristics of the generated event data and an integra-tion within the ProM framework. Unlike existing approa-ches, there is no tradeoff between including long-termdependencies and soundness of the process. The contribu-tions of the paper provide a solution for a necessary step inthe empirical analysis of CF discovery algorithms
Een verbeterde methode om process discovery technieken te vergelijken
Process discovery is een deeldomein van process mining dat toelaat control-flow modellen te ontdekken uit event logs. In de afgelopen vijftien jaar introduceerden onderzoekers reeds vele process discovery technieken. Toch is het niet duidelijk in welke situatie men nu het best een bepaalde techniek hanteert. Daarom moeten process discovery technieken met elkaar vergeleken worden in uiteenlopende situaties. In deze masterproef wordt een algemene methodologie uitgewerkt voor het vergelijken van process discovery technieken. Die methodologie bestaat uit drie stappen: het genereren of verkrijgen van testdata, het evalueren van de prestaties van algoritmes en het uitvoeren van een statistische analyse. Er blijken al uitgewerkte methodes te bestaan ter ondersteuning van de laatste twee stappen, maar een methode voor het genereren of verkrijgen van testdata ontbreekt. Daarom introduceert deze masterproef een nieuwe methode voor het genereren of verkrijgen van artificiële data. De nieuwe methode, het randomization mechanisme, bestaat uit twee stappen. Eerst genereert men willekeurige procesmodellen vanuit een populatie van procesmodellen. Vervolgens trekt men een sample van event logs door de procesmodellen te simuleren. In een experiment werd de algemene methodologie, met inbegrip van de nieuwe methode, getest. De gevonden resultaten leunen aan bij de resultaten uit eerdere onderzoeken op basis van reële data. Dit duidt erop dat de algemene methodologie rond artificiële data de goede richting uitgaat
- …
