63 research outputs found

    Usando aprendizagem de m?quina na cria??o de modelos para predizer resultados da Liga Nacional de Futsal do Brasil

    Full text link
    Based on the tremendous technological advances, the data volume has increased accordingly. Machine learning has gained relevance, helping many areas ?nd patterns in large volumes of data. Sportisoneofthisarea. Researchesareusinglearningtechniquestopredictmatchresults and predict game situations. In this paper, we will present the steps to create ten models, based ontechniquesandconceptsofmachinelearning,topredicttheresultsofmatchesintheNational Futsal League of Brazil. The models use data from the ?rst half of a match and historical factorsoftheteam. Duringthemodelingphase,featuresbasedonhistoricalfactorswerecreated that improved the performance of the model. The experiments performed show the models have good results concerning the accuracy, especially Random Forest and Gradient Boosting. Another contribution of this work is the committees of models. We use the committees to improve the overall accuracy, and we get better results about the individual performances. The predictions for the winning of the local team shows that the committees are essential in the prediction phase.Com base nos grandes avan?os tecnol?gicos atuais, o volume de informa??es em forma de dados se torna cada vez maior. Atrelada a isso, a aprendizagem de m?quina ganhou relev?ncia, ajudando muitas ?reas a encontrar padr?es em grandes volumes de dados para auxiliar em problemas espec??cos. Uma dessas ?reas, o esporte, vem utilizando t?cnicas de aprendizado para predizerresultadosdepartidas, otimizardesempenhoepreversitua??esdejogo. Nestetrabalho em especial, ser?o apresentadas as etapas para cria??o de dez modelos de predi??o, baseados em t?cnicas e conceitos de aprendizado de m?quina, onde tais modelos t?m por objetivo prever resultados de partidas da Liga Nacional de Futsal do Brasil, com base em dados do primeiro tempo e fatores hist?ricos da equipe. Durante a etapa de modelagem foram criadas features baseadas em fatores hist?ricos que melhoraram o desempenho do modelo. Os experimentos realizados mostraram bons resultados em rela??o ? acur?cia individual, principalmente os algoritmos Random Forest e Gradient Boosting, os quais tiveram maior destaque segundo os experimentos realizados. Ainda como resultado deste trabalho, foram analisados os resultados de comit?s de modelos em determinados cen?rios, o que caracterizou signi?cativa melhora em rela??o ? an?lise individual dos algoritmos, principalmente para previs?es na classe mandante, concretizando assim a contribui??o deste trabalho

    Unknown Author Letter : April 8, 1865

    No full text
    This is a letter from an unknown Union soldier to an unknown recipient. It is possible that the author is Dexter Denio. The writer mostly talks about his experiences with the rebels. They are well fed and talk of murder and thievery. When his company won a recent fight, they all had a large amount of the rebel's livestock to choose from for their dinners. The author also shows his strong loyalty and patriotism to the North's cause

    An?lise explorat?ria dos t?picos no Stack Overflow usando LDA (Latent Dirichlet Allocation)

    Full text link
    Topic modeling is a machine learning problem, which aims to extract, given a collection of documents, the main topics that represent the subjects covered by the collection. Documents can be generated from different distributions on topics, the topics being formed by a probabilistic distribution of words. To infer the set of topics that generated a collection of documents, apply probabilistic techniques that make the process reverse. In this work, an exploratory analysis is performed in the Stack Overflow database, and for this purpose, it is used the topic modeling to extract the desired information, applying the Latent Dirichlet Allocation (LDA) to extract the topics from the database. As a result, the topics that represent the collection are obtained, with more recurring themes related to web programming, textit mobile, and version control. In addition, the values of topics are compared, evaluated from metrics that verify the coherence of their words, identifying, among the analyzed values, the number of 50 topics with the best results to represent the collectionA modelagem de t?picos ? um problema de aprendizado de m?quina, que visa extrair, dada uma cole??o de documentos, os principais t?picos que representem os assuntos abordados pela cole??o. Os documentos podem ser gerados a partir de diferentes distribui??es sobre t?picos, sendo os t?picos formados por uma distribui??o probabil?stica de palavras. Para inferir o conjunto de t?picos que geraram uma cole??o de documentos, usam-se t?cnicas probabil?sticas que fazem o processo reverso. Nesse trabalho, realiza-se uma an?lise explorat?ria na base de dados do Stack Overflow, e para tal, utiliza-se da modelagem de t?picos para a extra??o das informa??es desejadas, aplicando o LDA (Latent Dirichlet Allocation) para extrair os t?picos da base de dados. Como resultado, s?o obtidos os t?picos que representam a cole??o, sendo mais recorrentes assuntos ligados ? programa??o web, mobile e controle de vers?o. Al?m disso, s?o comparados os valores de t?picos, avaliados a partir de m?tricas que verificam a coer?ncia entre suas palavras, identificando, dentre os valores analisados, o n?mero de 50 t?picos com os melhores resultados para representar a cole??o

    Aplica??o de aprendizado de m?quina para identificar o meio de transporte baseado em localiza??es de GPS

    Full text link
    The global use of geolocation dispositives, for example, GPS(Global Position System), has created a new demand for applications that manage the massive amount of data representing user?s location, called mobile data. As an example, product and places recommendation and urban planning. The mobile data contains much information about user behavior: mean of transportation, userlocation, userspeed, amongothers. Thispaperaimstobuildaclassi?cation model to predict user means of transportation. The work intends to estimate the results and compare them with the baseline, even it uses di?erent metrics and methods. The experiments have good results, mainly in the Random Forest model, with an accuracy of over 80%. As additional results, this paper presents the more easily predicted? category, besides the more informative attributes for the creation of the model.Apopulariza??odedispositivoscontroladoresdegeolocaliza??o, comooGPS(Global Position System), criou uma nova demanda para aplica??es que utilizem deste grande volume de dados, chamados dados m?veis. Um exemplo ? a recomenda??o de produtos, a partir de lugares frequentados, rastreamento ou at? planejamento urbano. Estes dados podem possuir diversas informa??es sobre o usu?rio, por exemplo, o m?todo de locomo??o utilizado, a partir de sua localiza??o, velocidade de seu trajeto e o pr?prio trajeto executado. A partir dessas informa??o ? poss?vel descobrir qual o meio de transporte utilizado pelo usu?rio. Este trabalho ent?o, busca a cria??o de um modelo de predi??o classi?cat?ria de m?todos de transporte, atrav?s de um conjunto de dados formado por dados m?veis. Assim como a cria??o do modelo, este trabalhotamb?mavaliaosresultadosobtidosecomparacomtrabalhosrelacionados,mesmoque tais trabalhos utilizem m?tricas e m?todos diferentes. Os experimentos obtiveram resultados considerados bons, principalmente no modelo Random Forest, com uma acur?cia de acerto acima de 80%. Como resultados sat?lites, este trabalho apresenta as classes que s?o mais facilmente preditas, al?m dos atributos mais informativos para a cria??o do modelo

    Aprendizado de m?quina aplicado ? previs?o da efetividade de substitui??es de jogadores no Campeonato Brasileiro de Futebol s?rie A

    No full text
    Substitutions of players are determining resources for the outcome of a football match. Due to the relevance and limitation of substitutions in o?cial matches, several studies have been conducted to propose an optimal way to substitute a player. That is the best moment or the best strategy. This work proposes to apply and compare machine learning algorithms to classify the second and third substitution of the visiting team as e?ective or not, through the creation of two distinct models. As the input data set, we use data from four years of the Brazilian Soccer Championship (2015-2018). Using 30% of the data set to test the models, the results show that it is possible to predict the e?ectiveness of the second substitution with 78.39% accuracy and the third with 86.93% accuracy.As substitui??es de jogadores s?o recursos determinantes para o resultado de uma partida de futebol. Dado sua relev?ncia e limita??o em partidas o?cias, as substitui??es foram assunto de diversos estudos, com o intuito de fornecer dados de forma estruturada para aux?lio na tomada de decis?o, por parte das equipes t?cnicas. Este trabalho, prop?e aplicar e comparar algoritmos de aprendizado de m?quina, no sentido de classi?car a segunda e a terceira substitui??o do time visitante como efetiva ou n?o, atrav?s da cria??o de dois modelos distintos. Como conjunto de dados, utilizou-se os dados hist?ricos de cinco anos do Campeonato Brasileiro de Futebol. Os resultados do experimento com 30% dos dados destinados para teste, demonstram que foi poss?vel predizer a efetividade da segunda substitui??o com 78.39% de acur?cia, j? a terceira com 86.93%

    Avalia??o de abordagens probabil?sticas de extra??o de t?picos em documentos curtos

    Full text link
    Devido ao amplo uso das redes sociais, textos pequenos se popularizaram na Web. A possibilidade de intera??o entre usu?rios, como coment?rios, fez com que um grande n?mero de textos curtos surgissem dia ap?s dia. Extrair t?picos de uma grande quantidade de textos curtos tornou-se uma tarefa cr?tica e desafiadora em tarefas de an?lise de conte?do. Foram propostos novos meios de inferir t?picos de conjuntos de dados de textos curtos em vez do uso ferramentas j? conhecidas na modelagem de t?picos. Este trabalho avaliar? o uso de algumas destas abordagens probabil?sticas na extra??o de t?picos em documentos curtos

    An?lise explorat?ria de tweets utilizando modelagem de t?picos para textos curtos: caso Olimp?adas Rio 2016

    Full text link
    Topic modeling is a data mining problem that aims to extract, given a document collection, the main topics that represent the subjects covered in the collection documents. A document, which can be short or long, can be de?ned as a mixture of topics, being a set of words ordered by their probability of occurrence. Conventional approaches for topic modeling such as LDA and PSLA have been used in long documents and when used it in short texts may not work well since conventional topic models suffer from the severe data sparsity. So, in this paper, an exploratory analysis is performed in the Twitter database applying the Biterm Topic Model (BTM) to discover the main topics discussed during the Rio 2016 Olympic Games. As a result, the topics obtained represents the collection of documents and re?ects the events that occurred at the Olympic Games, especially those that made reference to Brazil.A modelagem de t?picos ? uma forma de minera??o de texto que visa extrair, dada uma cole??o de documentos, os principais t?picos que representem os assuntos abordados nos documentos da cole??o. Um documento, que pode ser curto ou longo, pode ser de?nido como uma mistura de t?picos, sendo um conjunto de palavras ordenadas por suas probabilidades de ocorr?ncia. Abordagens convencionais de modelagem de t?picos como LDAe PSLA foram desenvolvidas para serem aplicadas em documentos longos e, quando aplicados em textos curtos, n?o s?o t?o e?cientes pelo fato de n?o conseguir lidar bem com a dispers?o dos dados. Sendo assim, para a extra??o de t?picos em textos curtos, se faz necess?rio a utiliza??o de modelos de t?picos espec??cos para tal. Posto isso, neste trabalho ser? realizada uma an?lise explorat?ria na base de dados do Twitter, fazendo a utiliza??o do modelo BTM (Biterm Topic Model) para descobrir os principais t?picos discutidos durante o per?odo das Olimp?adas Rio 2016. Como resultado, os t?picos obtidos representaram a cole??o e re?etiram os acontecimentos ocorridos nos Jogos Ol?mpicos, principalmente os que ?zeram refer?ncia ao Brasil

    Estudo comparativo entre plataformas de deep learning

    Full text link
    Deep learning techniques has been showing advances in various Machine learning tasks. However, the implementation of these techniques is very complex. Thus, to help the implementation of Deep learning projects, software tools are being proposed. A considerable amount of these tools already exists. This leads to a difficulty on the choice of who is looking to start a project. In order, to assist in this choice, this work brings a comparative study between the open source and distributed Apache Singa, Graphlab and H2O platforms. Detailed test results using a database composed of images and another composed of alphanumeric attributes were produced. And aspects such as training time, prediction time, hardware resource utilization and accuracy of the algorithms of each platform were evaluated.T?cnicas de Deep learning vem mostrando avan?os em v?rias tarefas de Machine learning. Por?m a implementa??o dessas t?cnicas ? muito complexa. Assim, para ajudar na implementa??o de projetos de Deep learning, softwares est?o sendo criados. J? existe uma quantidade consider?vel desses softwares dispon?vel, o que acaba trazendo uma dificuldade na escolha de quem procura come?ar um projeto. Com o objetivo de auxiliar nessa escolha, esse trabalho traz um estudo comparativo entre as plataformas open source e distribu?das Apache Singa, Graphlab e H2O. Resultados detalhados de testes com uma base de dados compostas por imagens e outra composta por atributos alfanum?ricos foram produzidos. Aspectos como o tempo de treinamento, tempo de predi??o, utiliza??o de recursos e acur?cia dos algoritmos de cada plataforma foram avaliados

    Avalia??o da sensibilidade de m?tricas de avalia??o de t?picos

    Full text link
    The growing tendency of store all the knowledge and content produced digitally makes it increasingly dif?cult to ?nd all this information and organize it. Topical modeling algorithms allows to extract topics from vast collections of documents. A document, which maybe short or long, can be de?ned as a mixture of topics, which are a set of words sorted by their probability ofoccurrence. Evaluating the quality of a topic is atask that can be simple for humans,al though it is very expensive when dealing with large amounts of data. Thus, computational methods, known as coherence metrics, are used to measure the quality of topics from the co-occurrence between the words that compose them. However, different metrics can generate different results when applied to the same topic. This work will evaluate the sensitivity of some of these metrics by applying them to a set of topics that have been created, adulterated by inserting intrusive words, and validated by humans. As result, in general, the metric CUICI was shown to be the most sensitive, while the metrics CV and CUMASS were shown to be the least sensitive.A crescente tend?ncia de armazenar todo o conhecimento e conte?do produzido de forma digital di?culta cada vez mais a tarefa de buscar e organizar as informa??es. Os algoritmos de modelagem de t?picos permitem extrair temas/assuntos, em forma de t?picos, de vastas cole??es de documentos. Um documento, que pode ser curto ou longo, pode ser de?nido como uma mistura de t?picos, que s?o um conjunto de palavras ordenadas por suas probabilidades de ocorr?ncia. Avaliar a qualidade de um t?pico ? uma tarefa que pode ser simples para seres humanos, tornando-se muito custosa em se tratando de grandes quantidades de dados. Dessa forma, m?todos computacionais, conhecidos como m?tricas de coer?ncia, s?o utilizados para medir a qualidade de t?picos a partir da co-ocorr?ncia entre as palavras que os comp?em. Por?m, diferentes m?tricas podem gerar diferentes resultados quando aplicadas a um mesmo t?pico. Neste trabalho ser? realizada uma avalia??o da sensibilidade de algumas dessas m?tricas, aplicando-as em um conjunto de t?picos que foram criados, deturpados atrav?s da inser??o de palavras intrusas, e validados por seres humanos. Como resultado, de modo geral, a m?trica CUCI se mostrou ser a mais sens?vel, enquanto as m?tricas CV e CUMASS se mostraram as menos sens?veis

    An?lise explorat?ria sobre registros eletr?nicos de sa?de do setor de unidade de terapia intensiva utilizando modelagem de t?picos

    Full text link
    The rapid growth of electronic health record systems brings the increase of available information about patients in hospitals. This massive amount of text information is suitable for the extraction of unknown information about medical history, medication, deseases, allergies, among others. Topic modeling is a machine learning problem, which aims to extract, given a collection of documents, the main topics that represent the subjects covered by a text collection. In the topic model, the documents can be composed of a mixture of topics with a certain probability. This work aims to make an exploratory analysis of two collections of electronic records health from an intensive care unit. The collection is split into two subcollections: discharged patients and patients who progressed to death. We apply the Latent Dirichlet Allocation (LDA) algorithm in both collections, setting the number of topics to 11. As a result, discharged patients collection shows the following predominant topics: respiratory system, renal system, neurological system, prematurity, and cardiac system. On the other hand, the death collection presents as main topics subjects about the hepatic system, cardiovascular, neurological, and respiratory system. We also analyze the correlation of the topics inter collections, and we observed that the infection as a significant contributing factor to progress to death.O r?pido crescimento dos registros eletr?nicos de sa?de traz o aumento de informa??es dispon?veis sobre pacientes em hospitais. Essa massiva quantidade de informa??es em texto ? adequada para a extra??o de informa??es desconhecidas sobre hist?rico m?dico, medicamentos, doen?as, alergias, entre outras. A modelagem de t?picos ? um problema de aprendizado de m?quina que visa extrair, dada uma cole??o de documentos, os principais t?picos que representam os assuntos abordados pela cole??o. Em modelagem de t?picos, um documento pode ser definido como uma mistura de t?picos, sendo estes gerados a partir de diferentes distribui??es probabil?sticas de palavras, permitindo assim extrair assuntos em forma de t?picos de cole??es de documentos. O objetivo deste trabalho foi realizar uma an?lise explorat?ria sobre duas cole??es de registros eletr?nicos de sa?de separados por interna??es que obtiveram alta e interna??es que evolu?ram a ?bito no setor de Unidade de Terapia Intensiva utilizando modelagem de t?picos a fim de identificar os assuntos presentes nas cole??es. Ap?s a execu??o do modelo Latent Dirichlet Allocation (LDA) foram extra?dos 11 t?picos para cada cole??o de documentos ?bito e alta. Como resultado, para a cole??o de altas os assuntos com maior predomin?ncia s?o sistema respirat?rio, sistema renal, sistema neurol?gico, prematuridade e sistema card?aco. Por outro lado, a cole??o de ?bitos apresenta os principais assuntos como sistema hep?tico, sistema cardiovascular, sistema neurol?gico e sistema respirat?rio. Foram analisadas as disjun??es e intersec??es dos assuntos definidos em cada cole??o, e observado a infec??o como importante fator contribuinte para evolu??o a ?bito
    corecore