Semantic content effects on the perception of movieclips

Kesoglou, Anastasia Maria

dc.contributor.advisor	Μικελλίδου, Κυριακή
dc.contributor.author	Kesoglou, Anastasia Maria
dc.contributor.other	Κεσόγλου, Αναστασία Μαρία
dc.coverage.spatial	Κύπρος	el_GR
dc.date.accessioned	2024-02-20T09:40:43Z
dc.date.available	2024-02-20T09:40:43Z
dc.date.copyright	2023-08-23
dc.date.issued	2023-05
dc.identifier.other	COS/2023/00020	el_GR
dc.identifier.uri	http://hdl.handle.net/11128/5772
dc.description	Includes bibliographical references.	el_GR
dc.description.abstract	Our brain is skilled with the ability to perceive and process multimodal stimuli. This process known as crossmodal perceptual integration, has been in the research spotlight for a long time, providing evidence for the integration of information coming from different modalities. Prior experiments on the field mostly utilized pictures and were limited in the semantic content of a single sound or word. The present study aims to investigate crossmodal perceptual integration in realistic conditions using short movieclips (1500ms) and auditory meaningful three-word sentences in cases of target detection judgments. This study (N=36) is the first to introduce trials without a target that always include target-related information, which was present, either only through vision or audition (incongruent movieclips) or through both (congruent movieclips). For each target condition (present or absent) the movieclips were made up of a combination of 12 videos and 12 sentences, which were repeated in a pseudorandomized order four times for each participant (total trials= 288). The results from the two-way repeated measures ANOVA indicate a similar pattern between the two modalities for semantically incongruent movieclips, with statistically lower accuracy scores in trials where the target was present only in one modality (Maudio=0.647, SDaudio=0.305; Mvisual=0.841, SDvisual=0.235), whereas in target absent trials both showed superior performance (Maudio=0.931, SDaudio=0.038; Mvisual= 0.986, SDvisual=0.018). On the other hand, we observed the opposite pattern for semantically congruent movieclips (Target present trials: Maudiovisual=0.981, SDaudiovisual= 0.036 vs. Target absent trials: Maudiovisual=0.898, SDaudiovisual=0.111). Reaction times were the same for the two modalities (F(2,70)=0.384, p=0.683). In accordance with previous research using images and single words, our results show that when auditory and visual information is congruent, performance is superior and when the target is only present through audio but visual information is incongruent, performance is evidently compromised, and vice versa. Regarding the role of semantics, when the audio sentence included a target-related noun accompanied by a semantically incongruent video, accuracy in judgements was statistically better compared to when it was a verb (tincVerb vs. incNoun=-8.428, p< .001; tconVeb vs. incNoun=-4.256, p< .001). The present results could provide more evidence regarding the role of complexity of semantics, and especially the different role verbs and nouns could play in crossmodal perceptual integration in more realistic situations. Our findings can enrich the content of learning techniques, as well as the design of AI models, by taking advantage of the supporting role of semantic audiovisual information, while taking into consideration the confusion that the complexity in semantic information could cause to perception experience.	el_GR
dc.format.extent	47 σ. ; 30 εκ.	el_GR
dc.language	en	el_GR
dc.language.iso	en	el_GR
dc.publisher	Ανοικτό Πανεπιστήμιο Κύπρου	el_GR
dc.rights	info:eu-repo/semantics/openAccess	el_GR
dc.subject	Οπτικοακουστική ολοκλήρωση	el_GR
dc.subject	Audiovisual integration	el_GR
dc.subject	Σημασιολογικά οπτικοακουστικά βίντεο	el_GR
dc.subject	Semantic audiovisual movieclips	el_GR
dc.title	Semantic content effects on the perception of movieclips	el_GR
dc.type	Μεταπτυχιακή Διατριβή	el_GR
dc.description.translatedabstract	Ο εγκέφαλός μας έχει την ικανότητα να αντιλαμβάνεται και να επεξεργάζεται πολυαισθητηριακά ερεθίσματα. Αυτή η διαδικασία γνωστή ως διατροπική αντιληπτική ολοκλήρωση, ήταν στο επίκεντρο της έρευνας για μεγάλο χρονικό διάστημα, παρέχοντας στοιχεία για την ενσωμάτωση πληροφοριών που προέρχονται από διαφορετικά αισθητηριακά μέσα. Τα προηγούμενα πειράματα χρησιμοποιούσαν κυρίως εικόνες και περιορίζονταν στο σημασιολογικό περιεχόμενο ενός μόνο ήχου ή λέξης. Η παρούσα μελέτη στοχεύει στη διερεύνηση της διατροπικής αντιληπτικής ολοκλήρωσης σε ρεαλιστικές συνθήκες χρησιμοποιώντας σύντομα βίντεο κλιπ (1500ms) και ακουστικές νοηματικές προτάσεις τριών λέξεων σε περιπτώσεις κρίσεως ανίχνευσης στόχου. Η μελέτη μας (N=36) είναι η πρώτη που εισήγαγε δοκιμασίες χωρίς στόχο που περιλαμβάνουν όμως πάντα πληροφορίες σχετικές με το στόχο, οι οποίες ήταν παρούσες, είτε μόνο μέσω της όρασης ή ακοής (σημασιολογικά αντικρουόμενα βίντεο) είτε μέσω και των δύο (σημασιολογικά σύμφωνα βίντεο). Για κάθε συνθήκη στόχου (παρών ή απών) τα κλιπ ταινιών αποτελούνταν από έναν συνδυασμό 12 βίντεο και 12 προτάσεων, οι οποίες επαναλήφθηκαν με ψευδοτυχαία σειρά τέσσερις φορές για κάθε συμμετέχοντα (σύνολο δοκιμασιών = 288). Τα αποτελέσματα που προέκυψαν από την Ανάλυση Διακύμανσης Επαναλαμβανόμενων Μετρήσεων με δύο μεταβλητές (ANOVA), υποδείχνουν ένα παρόμοιο μοτίβο μεταξύ των δύο αισθητηριακών οδών για τα σημασιολογικά αντικρουόμενα βίντεο κλιπ, με στατιστικά χαμηλότερες βαθμολογίες στην ακρίβεια σε δοκιμασίες όπου ο στόχος ήταν παρών μόνο σε μία αισθητηριακή οδό (Maudio= 0.647, SDaudio= 0.305; Mvisual=0.841, SDvisual= 0.235), ενώ σε δοκιμασίες εν απουσία στόχου και οι δύο έδειξαν ανώτερη απόδοση (Maudio= 0.931, SDaudio= 0.038; Mvisual= 0.986, SDvisual= 0.018). Από την άλλη πλευρά, παρατηρήσαμε το αντίθετο μοτίβο για σημασιολογικά σύμφωνα βίντεο κλιπ (Δοκιμές εν παρουσία στόχου: Maudiovisual= 0.981, SDaudiovisual= 0.036 vs. Δοκιμές εν απουσία στόχου: Maudiovisual= 0.898, SDaudiovisual= 0.111). Οι χρόνοι αντίδρασης ήταν οι ίδιοι για τις δύο οδούς (F(2,70)=0.384, p=0.683). Σε συμφωνία με την εώς τώρα έρευνα βασισμένη στην χρήση εικόνων και μεμονωμένων λέξεων, τα αποτελέσματά μας δείχνουν ότι όταν οι ακουστικές και οπτικές πληροφορίες είναι σύμφωνες, η απόδοση είναι καλύτερη και όταν ο στόχος είναι παρών μόνο μέσω ήχου αλλά η οπτική πληροφορία είναι ασύμβατη, η απόδοση αποδεδειγμένα υποβαθμίζεται και το αντίστροφο. Όσον αφορά στο σημασιολογικό περιεχόμενο, παρατηρήσαμε ότι όταν η ηχητική πρόταση περιλάμβανε ένα ουσιαστικό που σχετίζεται με τον στόχο συνοδευόμενη από το σημασιολογικά αντικρουόμενο βίντεο του, η ακρίβεια στις κρίσεις ήταν στατιστικά καλύτερη σε σύγκριση με όταν περιλάμβανε ρήμα (tincVerb vs. incNoun=-8.428, p< .001; tconVeb vs. incNoun=-4.256, p< .001). Τα παρόντα αποτελέσματα θα μπορούσαν να παρέχουν περισσότερες ενδείξεις σχετικά με το ρόλο της πολυπλοκότητας της σημασιολογίας, και ειδικά τον διαφορετικό ρόλο που θα μπορούσαν να παίξουν τα ρημάτα και τα ουσιαστικά στη διατροπική αντιληπτική ολοκλήρωση υπό πιο ρεαλιστικές καταστάσεις. Τα ευρήματά μας μπορούν να εμπλουτίσουν το περιεχόμενο των τεχνικών μάθησης, καθώς και το σχεδιασμό μοντέλων τεχνητής νοημοσύνης, εκμεταλλευόμενοι τον υποστηρικτικό ρόλο των σημασιολογικών σύμφωνων οπτικοακουστικών πληροφοριών, λαμβάνοντας παράλληλα υπόψη τη σύγχυση που θα μπορούσε να προκαλέσει η πολυπλοκότητα στη σημασιολογία στην εμπειρία αντίληψης.	el_GR
dc.format.type	pdf	el_GR

Files in this item

Name:: COS-2023-00020.pdf
Size:: 4.602Mb
Format:: PDF

View/Open

This item appears in the following Collection(s)

Cognitive Systems (in English)

Show simple item record