1,721,538 research outputs found

    BASICS DATASET: Broad Quality Assessment of Static Point Clouds in a Compression Scenario

    No full text
    <p>Point clouds have become increasingly prevalent in representing 3D scenes within virtual environments, alongside 3D meshes. Their ease of capture has facilitated a wide array of applications on mobile devices, including smartphones and other microcontrollers. Notably, point cloud compression has reached an advanced stage and being standardized. However, the availability of quality assessment datasets, which are essential for the development of improved objective quality metrics, remains limited.<br>We introduce BASICS, a large-scale quality assessment dataset tailored for static point clouds. The BASICS dataset comprises 75 unique point clouds, each compressed with four different algorithms, resulting in the evaluation of nearly 1500 point clouds by 3500 unique participants.</p> <div>For a detailed explanation of the dataset and the analysis done, please refer to the related publication:</div> <div> </div> <div>@ARTICLE{10403987,<br>  author={Ak, Ali and Zerman, Emin and Quach, Maurice and Chetouani, Aladine and Smolic, Aljosa and Valenzise, Giuseppe and Le Callet, Patrick},<br>  journal={IEEE Transactions on Multimedia}, <br>  title={BASICS: Broad Quality Assessment of Static Point Clouds in a Compression Scenario}, <br>  year={2024},<br>  pages={1-13},<br>  doi={10.1109/TMM.2024.3355642}}</div> <div> </div> <div>BASICS paper is accepted to be published in IEEE TMM. The above article will be updated later on with the correct DOI.</div> <p><br>The BASICS dataset was previously used for the ICIP 2023 ICIP PCQVA Grand Challenge. Since the challenge is over, we are making it public for the community to build upon! Check the link below for the ICIP 2023 PCQVA Challenge Page:<br>https://sites.google.com/view/icip2023-pcvqa-grand-challenge/</p> <p> </p&gt

    Optimisation perceptuelle et réduction de complexité d’encodage vidéo dans un contexte temps-réel

    No full text
    Cette thèse explore l’optimisation perceptuelle et la réduction de la complexité afin d’améliorer les schémas de compression vidéo dans un contexte d’encodage temps réel. Le travail est divisé en trois parties qui proposent plusieurs types d’amélioration. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre est paramétrable pour plusieurs conditions de visualisation, nous proposons des réglages optimisés pour deux conditions standards. Une étude sur la précision de différentes métriques de qualité visuelle dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d’encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d’évaluer et piloter le gain perceptuel à un débit donné, plusieurs métriques de qualité visuelle ont ensuite été caractérisées et comparées. Ceci a été mené pour plusieurs niveaux de qualité du point de vue de l’incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique basée sur RF, perceptuellement plus précise, a été introduite pour la formation des classificateurs. Le troisième ensemble de contributions se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : les critères de décision pour le partitionnement Multi-Type Tree. Une nouvelle méthode de décision de partitionnement basée Apprentissage Machine est proposée couvrant tous les types de partitionnement en intra et inter et particulièrement appropriée pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une approche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding framework context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve real-time video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of different objective quality metric’s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate. Also, a new, subjectively more accurate RFbased fusion metric has been introduced for ground truth dataset annotation of classifiers. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning decision criteria is proposed covering all standard partitioning possibilities for both intra and inter, especially suitable for realtime hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types

    Représentations perceptuelles de l'Information structurelle et géométrique des images : approches bio inspirées et par apprentissage machine : application à la qualité visuelle de médias immersifs

    No full text
    Ce travail vise à mieux évaluer la qualité perceptuelle des images contenant des distorsions structurelles et géométriques notamment dans le contexte de médias immersifs. Nous proposons et explorons un cadre algorithmique hiérarchique de la perception visuelle. Inspiré par le système visuel humain, nous investiguons plusieurs niveaux de représentations des images : bas niveau (caractéristiques élémentaires comme les segments), niveau intermédiaire (motif complexe, encodage de contours), haut niveau (abstraction et reconnaissance des données visuelles). La première partie du manuscrit traite des représentations bas niveau pour la structure et texture. U n modèle basé filtre bilatéral est d’abord introduit pour qualifier les rôles respectifs de l’information texturale et structurelle dans diverses tâches d’évaluation (utilité, qualité. . . ). Une mesure de qualité d’image/vidéo est proposée pour quantifier les déformations de structure spatiales et temporelles perçues en utilisant une métrique dite élastique. La seconde partie du mémoire explore les représentations de niveaux intermédiaires. Un modèle basé « schetch token » et un autre basé sur codage d’un arbre de contexte sont présentés pour évaluer la qualité perçue. La troisième partie traite des représentations haut niveau. Deux approches d’apprentissage machine sont proposées pour apprendre ces représentations : une basée sur un technique de convolutional sparse coding, l’autre sur des réseaux profonds de type generative adversarial network. Au long du manuscrit, plusieurs expériences sont menées sur différentes bases de données pour plusieurs applications (FTV, visualisation multi-vues, images panoramiques 360. . . ) ainsi que des études utilisateurs.This work aims to better evaluate the perceptual quality of image/video that contains structural and geometric related distortions in the context of immersive multimedia. We propose and explore a hierarchical framework of visual perception for image/video. Inspired by representation mechanism of the visual system, low-level (elementary visual features, e.g. edges), mid-level (intermediate visual patterns, e.g. codebook of edges), and higher-level (abstraction of visual input, e.g. category of distorted edges) image/video representations are investigated for quality assessment. The first part of this thesis addresses the low-level structure and texture related representations. A bilateral filter-based model is first introduced to qualify the respective role of structure and texture information in various assessment tasks (utility, quality . . . ). An image quality/video quality measure is proposed to quantify structure deformation spatially and temporally using new elastic metric. The second part explores mid-level structure related representations. A sketch-token based model and a context tree based model are presented in this part for the image and video quality evaluation. The third part explores higher-level structure related representations. Two machine learning approaches are proposed to learn higher-level representation: a convolutional sparse coding based and a generative adversarial network. Along the thesis, experiments an user studies have been conducted on different databases for different applications where special structure related distortions are observed (FTV, multi-view rendering, omni directional imaging . . . )

    Utilisation de lattention visuelle pour la prédiction de qualité visuelle à échelle spatio-temporelle fine : de la pondération perceptuelle à une nouvelle mesure de disruption visuelle

    No full text
    Cette thèse revisite les relations entre les processus attentionnels visuels et la perception de qualité. Nous nous intéressons à la perception de dégradation dans des séquences d’images et leur impact sur la perception de qualité. Plutôt qu’un approcha globale, nous travaillons à une échelle spatio temporelle fine, plus adaptée aux décisions des encodeurs vidéo. Deux approches liant attention visuelle et qualité perçue sont explorées. La première, suit une approche classique, de type pondération des distorsions. Ceci est mis en relation avec des scénarios d’usage comme le streaming interactif ou la visualisation de contenus omnidirectionnels. Une seconde approche nous amène à introduire le concept de disruption visuelle (DV) et sa relation avec la perception de qualité. Nous proposons d’abord des techniques permettant d’étudier les saccades résultantes de la DV à partir par de données expérimentales oculométriques. Nous proposons ensuite un modèle computationnel de prédiction de la DV. Une nouvelle mesure objective de qualité est ainsi introduite nommée "Disruption Metric" permettant l’évaluation de la qualité locale de vidéos. Les résultats obtenus trouvent leurs applications dans de nombreux domaines tels que l’évaluation de qualité, la compression, la transmission perpétuellement optimisée de contenus visuel ou le rendu/visualisation foéval.This thesis revisits the relationship between visual attentional processes and the perception of quality. We mainly focus on the perception of degradation in video sequences and their overall impact on our perception of quality. Rather than a global approach, we work in a very localized spatio-temporal scale, more adapted to the decision-process in video encoders. Two approaches linking visual attention and perceived quality are explored in the thesis. The first follows a classical approach, of the distortion weighting type. This is very useful in certain scenarios such as interactive streaming or visualization of omni-directional content. The second approach leads us to the introduction of the concept of visual disruption(DV), and explore its relation to perceived quality. We first propose techniques for studying the saccades related to DV from experimental oculometric data. Then, a computational model for the prediction of DV is proposed. A new objective measurement of quality is therefore born, which we call the "Disruption Metric" : that allows the evaluation of the local quality of videos. The results obtained, find their applications in many fields such as quality evaluation, compression, perpetually optimized transmission of visual content or foveated rendering / transmission

    Computational understanding of image memorability : towards the integration of emotional and extrinsic information

    No full text
    La mémorabilité des images est un sujet de recherche récent en vision par ordinateur. Les premières tentatives ont reposé sur l’utilisation d’algorithmes d’apprentissage pour inférer le degré de mémorabilité d’une image d’un ensemble de caractéristiques de bas niveau. Dans cette thèse, nous revenons sur les fondements théoriques de la mémorabilité des images, en insistant sur les émotions véhiculées par les images, étroitement liées à leur mémorabilité. En considération de cet éclairage théorique, nous proposons d’inscrire la prédiction de la mémorabilité des images dans un cadre de travail plus large, qui embrasse les informations intrinsèques mais également extrinsèques de l’image, liées à leur contexte de présentation et aux observateurs. En conséquence, nous construisons notre propre base de données pour l’étude de la mémorabilité des images ; elle sera utile pour éprouver les modèles existants, entraînés sur l’unique vérité terrain disponible jusqu’alors. Nous introduisons ensuite l’apprentissage profond pour la prédiction de la mémorabilité des images : notre modèle obtient les meilleures performances de prédiction à ce jour. En vue d’amender ces prédictions, nous cherchons alors à modéliser les effets contextuels et individuels sur la mémorabilité des images. Dans une dernière partie, nous évaluons la performance de modèles computationnels d’attention visuelle, de plus en plus utilisés pour la prédiction de la mémorabilité, pour des images dont le degré de mémorabilité et l’information émotionnelle varient. Nous présentons finalement le film interactif « émotionnel », qui nous permet d’étudier les liens entre émotion et attention visuelle dans les vidéos.The study of image memorability in computer science is a recent topic. First attempts were based on learning algorithms, used to infer the extent to which a picture is memorable from a set of low-level visual features. In this dissertation, we first investigate theoretical foundations of image memorability; we especially focus on the emotions the images convey, closely related to their memorability. In this light, we propose to widen the scope of image memorability prediction, to incorporate not only intrinsic, but also extrinsic image information, related to their context of presentation and to the observers. Accordingly, we build a new database for the study of image memorability; this database will be useful to test the existing models, trained on the unique database available so far. We then introduce deep learning for image memorability prediction: our model obtains the best performance to date. To improve its prediction accuracy, we try to model contextual and individual influences on image memorability. In the final part, we test the performance of computational models of visual attention, that attract growing interest for memorability prediction, for images which vary according to their degree of memorability and the emotion they convey. Finally, we present the "emotional" interactive movie, which enable us to study the links between emotion and visual attention for videos

    Qualité du streaming vidéo haut de gamme dans des conditions réelles : mesurer et prédire le taux d’utilisateurs satisfaits

    No full text
    L’œil humain ne peut percevoir de petits changements de pixels dans les images ou les vidéos jusqu’à ce qu’un certain seuil de distorsion soit atteint. Dans le contexte de la compression vidéo, la Différence Juste Perceptible (JND) est le plus petit niveau de distorsion à partir duquel l’œil humain peut percevoir la différence entre une vidéo de référence et la vidéo déformée/compressée. La courbe du Taux d’Utilisateurs Satisfaits (SUR) est la fonction de distribution cumulative (complémentaire) des JND individuels d’un groupe de observateurs. Les JND et SUR ont été largement étudiés pour les images et vidéos compressées afin d’utiliser les ressources minimales sans compromettre la Qualité de l’Expérience. Dans cette thèse, nous introduisons un nouveau protocole AtHome pour les études subjectives, qui combine les approches en laboratoire et de crowdsourcing. Nous optimisons les méthodes de recherche JND, réduisant ainsi le temps des tests subjectifs, et collectons de nouveaux ensembles de données JND pour vidéos HDSDR et UHD-HDR. Nous améliorons la fiabilité des données avec une méthode appelée ZREC et proposons des méthodes pour estimer les intervalles de confiance pour SUR. Nous menons également une étude longitudinale basée sur le protocole AtHome. Nous développons un pipeline pour prédire SUR en utilisant les VQMs comme proxy et des modèles basés sur les paramètres d’encodage comme proxy, améliorant ainsi la praticité pour les services de streaming. Enfin, nous démontrons comment l’intégration de JND et SUR dans l’optimisation de l’échelle de débit peut économiser le débit et le stockage.The human eye cannot perceive small pixel changes in images or videos until a certain threshold of distortion. In the context of video compression, Just Noticeable Difference (JND) is the smallest distortion level from which the human eye can perceive the difference between reference video and the distorted/ compressed one. Satisfied-User-Ratio (SUR) curve is the (complementary) cumulative distribution function of the individual JNDs of a viewer group. JND and SUR have been widely investigated for compressed image and video to use the least resources without damaging the Quality of Experience. In this thesis, we introduce a new AtHome protocol for subjective studies, which combines in-lab and crowdsourcing methodologies. We optimize JND search methods, reducing subjective test time, and collect new JND datasets for HD-SDR and UHD-HDR videos. We improve data reliability with a screening method named ZREC and propose methods for estimating confidence intervals for SUR. We further conduct a longitudinal study based on the AtHome protocol. We develop a pipeline to predict SUR using VQMs as proxy and parameterdriven models to predict SUR using encoding parameters as proxy, enhancing practicality for streaming services. Finally, we demonstrate how integrating JND and SUR into bitrate ladder optimization can save bitrate and storage

    Différences perceptuelles visuelles locales dans les sequences d'images : méthodes psychophysiques, prédiction algorithmique, et pplication à l'encodage perceptuel dans les codées vidéo ouverts

    No full text
    Développer une métrique qui fonctionne à un horizon spatio-temporel localisé est hautement souhaitable pour piloter les décisions de codage. Si VMAF est très efficace dans certains cas d’usage, il est développé et validé pour de larges horizons spatio-temporels, présidant généralement à la qualité d’une sous-région/bloc d’une vidéo entière. Agir localement dans le codage vidéo offre d’avantages de degrés de liberté pour l’optimisation de la compression. Un codage perceptuel conduit à une qualité vidéo améliorée et à une meilleure efficacité de transmission. Ce travail présente d’abord les Unités Perceptuelles (PU). Ce nouveau concept explore de petits horizons spatio-temporels inspirés de comment le système visuel humain explore le contenu avec le regard et des saccades. Nous étudions de nombreux paradigmes et méthodologies d’évaluation de la qualité pour collecter des données subjectives en vidéo à l’échelle PU vers un ensemble de données à grande échelle d’évaluation des distorsions locales. Ce vaste ensemble de données sert à explorer la pertinence de caractéristiques basées apprentissage machine ou de substrats de la perception visuel humaine pour entraîner une métrique frugale pour la prédiction des Différences de Perception (PD). La dernière contribution est l’intégration de cette métrique de qualité locale dans l’encodeur AV1 pour un meilleur encodage perceptuel.Developing a metric that operates at a localized spatio-temporal horizon is highly desirable to drive video encoding decisions. While VMAF is very efficient in some use cases, it is developed and validated for large spatiotemporal horizons, generally pre- siding over the quality of a sub-region/block of an entire video. Acting locally in video coding offers more degrees of freedom for perceptual optimization. This perceptual encoding can lead to improved video quality and better transmission efficiency. This thesis first introduces Perceptual Units (PU). This novel concept explores a spatio-temporal range inspired by how the Human Visual System explores content with gazes and saccades. We investigate numerous quality assessment paradigms and methodologies to collect subjective data in video at the PU scale towards a large-scale dataset of local distortion evaluation. These investigations led to innovations in tools to collect data efficiently, be robust in crowd- sourcing scenarios to outliers, and report on the discriminability of a subjective test. This large dataset serves to explore the relevance of handcrafted and deep features to train a lightweight metric for Perceptual Differences (PD) prediction. The final contribution is integrating this local quality metric in the AV1 encoder for better perceptual encoding

    IPI-VUGC: Acceptance/Annoyance and Video Quality of Vertically Oriented User Generated Videos

    No full text
    <p>IPI-VUGC is a publicly available dataset of vertically oriented user generated video content that are typically found in online social media platforms. </p> <p>It consists of 48 unique SRCs compressed at 6 different rates, resulting in 336 videos in total. Two sets of experiments were conducted to collect both Quality of Experience labels in Acceptance/Annoyance paradigm and traditional video quality scores. The experiments were conducted in laboratory conditions at the facilities of Nantes University, France. All collected individual and mean opinion scores are shared with the community. More information regarding the dataset can be found in the ReadMe file. For further questions, please send an email to the author emails listed in the ReadMe File. </p> <p> </p> <p> </p> <p> </p&gt

    IPI-VUGC: Acceptance/Annoyance and Video Quality of Vertically Oriented User Generated Videos

    No full text
    <p>IPI-VUGC is a publicly available dataset of vertically oriented user generated video content that are typically found in online social media platforms. </p> <p>It consists of 48 unique SRCs compressed at 6 different rates, resulting in 336 videos in total. Two sets of experiments were conducted to collect both Quality of Experience labels in Acceptance/Annoyance paradigm and traditional video quality scores. The experiments were conducted in laboratory conditions at the facilities of Nantes University, France. All collected individual and mean opinion scores are shared with the community. More information regarding the dataset can be found in the ReadMe file. For further questions, please send an email to the author emails listed in the ReadMe File. </p> <p> </p> <p> </p> <p> </p&gt

    Quality Assessment of Post-Processed Images

    No full text
    The vast majority of the work done in the field of quality assessment during last two decades has been dedicated to the quantification of the distortion caused by the processing of an image. The original image was, therefore, always considered to be of the best possible quality. In this kind of scenario, the notion of quality can be expressed as the fidelity of the processed version to the reference. However, some post-processing algorithms enable to adjust aesthetic properties of an image in order to enhance the perceived quality. In such cases, the best possible quality image is not available and the classical fidelity approach is no longer applicable. The goal of this thesis is to revise the quality assessment methodologies to cope with the challenges brought by the post-processing into the quality evaluation. The post-processing algorithms, relevant to the topic of this thesis, come from two groups – image enhancement, represented by image sharpening, and dynamic range compression (also known as tone-mapping) techniques. Both subjective and objective quality assessment methodologies applicable in these areas are studied and the suitable solutions, outperforming the state-of-the-art methods, are proposed. Moreover, a novel methodology for evaluating the performance of objective quality metrics, overcoming the shortcomings of the currently available methods, is presented
    corecore