1,720,975 research outputs found

    Методи і засоби отримання інформації про персоналії з авторефератів дисертацій

    No full text
    The problem of extraction of data about a person from scarce data collection is studied. The data collections are public resources on the internet. When these data are collected and parsed they present additional value for users. Collecting such data is problematic because of it’s weak structure restrictions. Thus the system is suggested to automate information gathering and parsing. The initial task is to process personal data from thesis documents publicly available on the internet. This data presents information about scientists which can’t be obtained from other sources. The goal is to be able to make requests to the data having its semantics in mind and not only plain text.The prototype system is developed with PHP and XPath able to collect raw documents from digital repository of National Library of Ukraine by V. I. Vernadskiy. The system also extracts data from the collected documents and stores them locally in RDF data model suitable for specific data and for future exposition to the Semantic Web. The collection of more than 63000 documents was processed to test the system. В работе рассмотрены подходы к решению задачи сбора и извлечения разрозненных данных о персона-лиях из слабоструктурированных и неструктурированных документов, представленных в общедоступ-ных каталогах авторефератов диссертаций. На языке PHP с применением XPath разработана система, которая позволяет автоматически собирать первичные документы из электронного каталога Нацио-нальной библиотеки Украины им. В.И. Вернадского, извлекать из этих документов данные и сохранять их в локальном хранилище. Для хранения выбрана модель данных RDF с учётом особенностей данных и возможностью последующего представления в семантической сети. В роботі розглянуті підходи до вирішення завдання збору та вилучення розрізнених даних про персоналії з слабоструктурованих і неструктурованих документів, представлених в загальнодоступних каталогах авторефератів дисертацій. На мові PHP із застосуванням XPath розроблена система, яка дозволяє автоматично збирати первинні документи з електронного каталогу Національної бібліотеки України ім. В. І. Вернадського, витягувати з цих документів дані і зберігати їх в локальному сховищі. Для зберігання обрана модель даних RDF з урахуванням особливостей даних і можливістю подальшого представлення в семантичній мережі. 

    A method for extracting data from semis-tructured documents

    No full text
    Linguistic method to solve the problem of data extraction from weakly structured documents is developed, approved, and described in detail in the paper. Sample data were taken from thesis catalogue of Vernadsky National Library of Ukraine. The sequence of all stages is described: document collection choice; document preparation; writing grammar rules for data extraction from text; writing rules for morphology verification; creation of interpretations or bindings rules to data; analysis of parsing results. Linguistic method of data extraction showed many advantages in comparison to the method of data extraction with regular expressions described earlier.Problems in programming 2020; 1: 25-3

    Methods and tools for extracting personal data from theses abstracts

    No full text
    The problem of extraction of data about a person from scarce data collection is studied. The data collections are public resources on the internet. When these data are collected and parsed they present additional value for users. Collecting such data is problematic because of it’s weak structure restrictions. Thus the system is suggested to automate information gathering and parsing. The initial task is to process personal data from thesis documents publicly available on the internet. This data presents information about scientists which can’t be obtained from other sources. The goal is to be able to make requests to the data having its semantics in mind and not only plain text.The prototype system is developed with PHP and XPath able to collect raw documents from digital repository of National Library of Ukraine by V. I. Vernadskiy. The system also extracts data from the collected documents and stores them locally in RDF data model suitable for specific data and for future exposition to the Semantic Web. The collection of more than 63000 documents was processed to test the system.

    Overview of global open access resource aggregation services and their requirements for data providers

    Full text link
    The paper presents an overview of modern global aggregators of open access documents. Their statistical characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of application programming interface to obtain data. The types of data providers, such as institutional repositories, open journals, publishers, scientific repositories of preprints, thematic digital libraries, and systems that are also aggregators, are analysed. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about their data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data exchange protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a certain number of scientific digital libraries, we are already registered as data providers in some of these systems. Therefore, we are familiar with their requirements in the practical sense. In this paper, we have attempted to summarise these requirements.Prombles in programming 2025; 1: 38-5

    Про технологію використання зовнішніх даних при створенні і редагуванні енциклопедичних текстів

    No full text
    The paper discusses developing of  Wikidata project, the query web service and the query language. The workflow of the web service, query language and result output forms are demonstrated with plenty of examples. Wikidata usage technology by third-party systems is developed.In this concern ExternalData extension which is part of MediaWiki software is considered. Additionally the instruction for installation and configuration of  the extension is presented. During test period ExternalData extension was improved. procedure for automatic list generation in wiki page is developed.Problems in programming 2017; 1: 67-82В работе обсуждается развивающийся проект Викиданные, веб-сервис запросов и язык запросов. Работа веб-сервиса, языка запросов и форм вывода результатов демонстрируется на многочисленных примерах. Разработана технология использования Викиданных сторонними системами. Учитывая это, рассматривается расширение ExternalData, разработанное для программного обеспечения MediaWiki. В ходе тестовой эксплуатации расширение ExternalData было доработано. Расширение используется для вставки запросов данных к внешним источникам, в нашем случае к базе знаний Викиданные, и их результатов в викиразметку создаваемых текстов статей. Разработана процедура создания страницы-списка.Problems in programming 2017; 1: 67-82 У роботі обговорюється проект Вікідані, веб-сервіс запитів і мова запитів. Робота веб-сервісу, мова запитів і форм виведення результатів демонструється на численних прикладах. Розроблено технологію використання Вікіданих сторонніми системами. У зв’язку з цим розглядається розширення ExternalData, розроблене для програмного забезпечення MediaWiki. В ході тестової експлуатації розширення ExternalData було доопрацьовано. Розширення використовується для вставки запитів даних до зовнішніх джерел, в нашому випадку, до бази знань Вікідані і їх результатів у вікі-розмітку, створюваних текстів статей. Розроблена процедура створення сторінки-списку.Problems in programming 2017; 1: 67-8

    Global open access resource aggregation services and their requirements for data providers

    Full text link
    The paper looks at the modern global aggregators of open access documents BASE, OpenAIRE and CORE. Their quantitative characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of an application programming interface for data retrieval. The composition and types of their data providers, such as institutional repositories, open journals, publishing houses, scientific repositories of preprints, thematic digital libraries, as well as systems that are also aggregators, are considered. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data communication protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a number of open access scientific digital libraries, we are already registered as data providers in these systems. Therefore, we are familiar with their requirements in practice. In this article, we have tried to summarise these requirements to some extent, namely: support for standard data transfer protocols, support for standard metadata sets, support for standard character encodings for content, and others.Prombles in programming 2024; 2-3: 449-456

    Глобальні служби агрегації ресурсів відкритого доступу та їх вимоги до постачальників даних

    Full text link
    The paper looks at the modern global aggregators of open access documents BASE, OpenAIRE and CORE. Their quantitative characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of an application programming interface for data retrieval. The composition and types of their data providers, such as institutional repositories, open journals, publishing houses, scientific repositories of preprints, thematic digital libraries, as well as systems that are also aggregators, are considered. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data communication protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a number of open access scientific digital libraries, we are already registered as data providers in these systems. Therefore, we are familiar with their requirements in practice. In this article, we have tried to summarise these requirements to some extent, namely: support for standard data transfer protocols, support for standard metadata sets, support for standard character encodings for content, and others.Prombles in programming 2024; 2-3: 449-456 У роботі розглянуті сучасні глобальні агрегатори документів відкритого доступу BASE, OpenAIRE та CORE. Проаналізовані їхys кількісні характеристики, такі як кількість зібраних описів документів та повних текстів, кількість постачальників даних, наявність інтерфейсу прикладного програмування для отримання даних. Розглянуто склад і види їх постачальників даних, такі як інституційні репозитарії, відкриті журнали, видавництва, наукові репозитарії препринтів, тематичні електронні бібліотеки, а також системи, які в свою чергу теж є агрегаторами. Досліджено також, яку саме інформацію про документи збирають ці агрегатори, як вона представлена в інтерфейсі користувача, а також яка інформація збирається про постачальників даних, і теж, яким чином вона представлена у інтерфейсі користувача. Як відбувається взаємодія агрегатора з постачальниками даних, які протоколи обміну даних підтримуються, з якою частотою відбувається оновлення зібраних даних. Також сучасні агрегатори на базі зібраних корпусів даних, використовуючи методи машинного навчання, методи бібліометрії, вебометрики, альтиметрії, семантометрії надають цілий ряд корисних сервісів науковцям. Ми як розробники низки наукових електронних бібліотек з відкритим доступом вже зареєстровані як провайдери даних у цих системах. Тому знайомі з їхніми вимогами у практичній площині. В цій роботі ми спробували дещо узагальнити ці вимоги, а саме − підтримка стандартних протоколів передачі даних, підтримка стандартних наборів метаданих, підтримка стандартних кодувань символів для вмісту та інші.Prombles in programming 2024; 2-3: 449-456

    About technologies of use of external data on creating and editing of encyclopedic texts

    No full text
    The paper discusses developing of  Wikidata project, the query web service and the query language. The workflow of the web service, query language and result output forms are demonstrated with plenty of examples. Wikidata usage technology by third-party systems is developed.In this concern ExternalData extension which is part of MediaWiki software is considered. Additionally the instruction for installation and configuration of  the extension is presented. During test period ExternalData extension was improved. procedure for automatic list generation in wiki page is developed.Problems in programming 2017; 1: 67-8

    Про один метод витягу даних з слабоструктурованих документів

    No full text
    Linguistic method to solve the problem of data extraction from weakly structured documents is developed, approved, and described in detail in the paper. Sample data were taken from thesis catalogue of Vernadsky National Library of Ukraine. The sequence of all stages is described: document collection choice; document preparation; writing grammar rules for data extraction from text; writing rules for morphology verification; creation of interpretations or bindings rules to data; analysis of parsing results. Linguistic method of data extraction showed many advantages in comparison to the method of data extraction with regular expressions described earlier.Problems in programming 2020; 1: 25-32В работе разработан, подробно описан и практически опробован лингвистический метод решения задачи извлечения данных на примере извлечения данных о персоналиях из слабоструктурированных документов, представленных в общедоступном каталоге авторефератов диссертаций Национальной библиотеки Украины им. В.И. Вернадского. Описана вся последовательность шагов: выбор коллекции документов; подготовка документов; написание правил грамматики для извлечения данных из текста; написание правил проверки морфологии; создание интерпретаций или привязок правил к данным; анализ результатов разбора. Лингвистический метод извлечения выявил ряд преимуществ по сравнению с описанным ранее методом извлечения данных с помощью регулярных выражений.Problems in programming 2020; 1: 25-32В роботі розроблений, докладно описаний і практично випробуваний лінгвістичний метод вирішення задачі витягу даних на прикладі витягу даних про персоналії з слабоструктурованих документів, представлених в загальнодоступному каталозі авторефератів дисертацій Національної бібліотеки України ім. В.І. Вернадського. Описана вся послідовність кроків: вибір колекції документів; підготовка документів; написання правил граматики для отримання даних з тексту; написання правил перевірки морфології; створення інтерпретацій або прив'язок правил до даних; аналіз результатів розбору. Лінгвістичний метод витягу даних виявив ряд переваг в порівнянні з описаним раніше методом отримання даних за допомогою регулярних виразів.Problems in programming 2020; 1: 25-3

    Огляд глобальних служб агрегації ресурсів відкритого доступу та їхніх вимог до постачальників даних

    Full text link
    The paper presents an overview of modern global aggregators of open access documents. Their statistical characteristics are analysed, such as the number of collected document descriptions and full texts, the number of data providers, and the availability of application programming interface to obtain data. The types of data providers, such as institutional repositories, open journals, publishers, scientific repositories of preprints, thematic digital libraries, and systems that are also aggregators, are analysed. We also investigate what kind of information about documents these aggregators collect and how it is presented in the user interface, as well as what information is collected about their data providers and how it is presented in the user interface. How the aggregator interacts with data providers, what data exchange protocols are supported, and how often the collected data is updated. Also, modern aggregators based on collected data corpora, using machine learning methods, bibliometrics, webometrics, altmetrics, semantometrics, provide a range of useful services to researchers. As developers of a certain number of scientific digital libraries, we are already registered as data providers in some of these systems. Therefore, we are familiar with their requirements in the practical sense. In this paper, we have attempted to summarise these requirements.Prombles in programming 2025; 1: 38-54У роботі представлено огляд сучасних глобальних агрегаторів документів відкритого доступу. Проана лізовані їхні кількісні характеристики, такі як кількість зібраних описів документів та повних текстів, кількість постачальників даних, наявність інтерфейсу прикладного програмування для отримання даних. Проаналізовано склад і види їхніх постачальників даних, такі як інституційні репозитарії, відкриті жур нали, видавництва, наукові репозитарії препринтів, тематичні електронні бібліотеки, а також системи, які в свою чергу теж є агрегаторами. Досліджено також яку саме інформацію про документи збирають ці агрегатори, як вона представлена в інтерфейсі користувача, а також яка інформація збирається про їхніх постачальників даних та яким чином вона представлена у інтерфейсі користувача. Як саме відбувається взаємодія агрегатора з постачальниками даних, які протоколи обміну даних підтримуються, з якою час тотою відбувається оновлення зібраних даних. Також сучасні агрегатори на базі зібраних корпусів даних, використовуючи методи машинного навчання, методи бібліометрії, вебометрики, альтиметрії, семанто метрії надають науковцям цілий ряд корисних сервісів. Ми як розробники низки наукових електронних бібліотек з відкритим доступом вже зареєстровані як провайдери даних у деяких з цих систем. Тому зна йомі з їхніми вимогами у практичній площині. В цій роботі ми спробували дещо узагальнити ці вимоги.Prombles in programming 2025; 1: 38-54
    corecore