Την άνοιξη του 2023, καθώς η Ελλάδα κατευθυνόταν προς μια ιδιαίτερα αμφίρροπη διπλή εκλογική αναμέτρηση, το iMEdD επιχείρησε κάτι διαφορετικό: ξεκίνησε μια καινοτόμο, πειραματική πρωτοβουλία για να καταγράψει και να αναλύσει τον τρόπο με τον οποίο μιλούσαν οι πολιτικοί αρχηγοί, τι αναδείκνυαν ως προτεραιότητα και πώς η γλώσσα τους διαμόρφωνε τον δημόσιο διάλογο –συνδυάζοντας τους τομείς της δημοσιογραφίας, και της πολιτικής επιστήμης και εργαλεία τεχνητής νοημοσύνης. και εργαλεία τεχνητής νοημοσύνης.
Η ομάδα εργασίας
| Ιδέα & Συντονισμός Έργου: Θανάσης Τρομπούκης, Κέλλυ Κική (iMEdD) Δημοσιογραφική Έρευνα/Ανάλυση: Νότα Βαφέα, Κατερίνα Βουτσινά, Στεφανία Ιμπρισίμοβα, Αθηνά Θανάση, Κέλλυ Κική, Χρυσούλα Μαρίνου, Γιώργος Σχοινάς, Θανάσης Τρομπούκης (iMEdD) Υποστήριξη ΙΤ: Χρήστος Νομικός, Νίκος Σαράντος (iMEdD) Επιστημονικός Σύμβουλος για θέματα Πολιτικής Θεωρίας: Αντώνης Γαλανόπουλος, Υποψήφιος Διδάκτορας Πολιτικής Επιστήμης, ΑΠΘ Ανάπτυξη λογισμικού/ Ανάλυση δεδομένων: Παύλος Σερμπέζης, Στέλιος Καραμανίδης, Δημήτριος-Παντελεήμων Γιακάτος, Ηλίας Δημητριάδης (Datalab, Τμήμα Πληροφορικής, ΑΠΘ) Διευθύντρια Datalab (Τμήμα Πληροφορικής, ΑΠΘ): Καθηγήτρια Αθηνά Βακάλη Μετάφραση: Ανατολή Σταυρουλοπούλου |
Σχεδόν τρία χρόνια αργότερα, εκείνη η προσπάθεια έχει ξεπεράσει τα όρια του newsroom. Αυτό που ξεκίνησε ως ένα δημοσιογραφικό πείραμα έχει πλέον εξελιχθεί σε επιστημονική μελέτη, σηματοδοτώντας τη μετάβαση από τη data-driven δημοσιογραφία σε πιο δομημένη ακαδημαϊκή έρευνα.
Η μελέτη με τίτλο «AgoraSpeech: a multi-annotated comprehensive dataset of political discourse through the lens of humans and AI», μια πρωτοβουλία της ερευνητικής ομάδας του Datalab, που δημοσιεύθηκε στο Journal of Computational Social Science, βασίζεται άμεσα σε εκείνο το αρχικό πρότζεκτ, μετατρέποντας τη μεθοδολογία και τα ευρήματά του σε έναν ερευνητικό πόρο με χρήσιμα συμπεράσματα για ανάλογες πρωτοβουλίες στο μέλλον.
Το πρότζεκτ του 2023: χαρτογραφώντας τον πολιτικό λόγο
Το σημείο εκκίνησης το 2023 ήταν απλό: τι χαρακτηρίζει τον πολιτικό λόγο στην Ελλάδα κατά την προεκλογική περίοδο;
Για να απαντηθεί αυτό το ερώτημα, η δημοσιογραφική ομάδα που ασχολήθηκε με το πρότζεκτ συγκέντρωσε σε πραγματικό χρόνο ομιλίες έξι βασικών πολιτικών αρχηγών, καλύπτοντας ολόκληρη την προεκλογική περίοδο και των δύο εκλογικών αναμετρήσεων. Στόχος δεν ήταν απλώς η καταγραφή δηλώσεων, αλλά η ανάδειξη μοτίβων: επαναλαμβανόμενα θέματα, μεταβολές στον τόνο και ρητορικές στρατηγικές που διατρέχουν την προεκλογική εκστρατεία.
Η ανάλυση εστίασε σε τέσσερις βασικούς άξονες: τα θέματα που κυριάρχησαν στην ατζέντα, τον συναισθηματικό τόνο των ομιλιών, τον βαθμό πόλωσης και την παρουσία λαϊκιστικών αφηγημάτων.
Η τεχνητή νοημοσύνη είχε σημαντικό ρόλο, αλλά όχι ανεξάρτητο. Γλωσσικά μοντέλα χρησιμοποιήθηκαν για την επεξεργασία και κατηγοριοποίηση μεγάλου όγκου κειμένων, ενώ τα αποτελέσματα ελέγχονταν και ερμηνεύονταν από δημοσιογράφους, επιστήμονες δεδομένων και έναν πολιτικό επιστήμονα. Η τεχνολογία δεν αντικατέστησε τη δημοσιογραφική κρίση, αλλά λειτούργησε ως εργαλείο πειραματικής ανάλυσης μέσα σε ένα επιβλεπόμενο πλαίσιο.
Το πρότζεκτ παρήγαγε, σε πραγματικό χρόνο, χρήσιμα ευρήματα για την προεκλογική περίοδο. Ταυτόχρονα, άνοιξε μια ευρύτερη συζήτηση για τον ρόλο της τεχνητής νοημοσύνης στην ανάλυση πολιτικού λόγου και ειδικά για το σημείο όπου η αυτοματοποιημένη επεξεργασία συναντά την ανθρώπινη ερμηνεία.
Μπορείτε να δείτε την αναλυτική μεθοδολογία που ακολουθήθηκε εδώ
Από το πρότζεκτ στη δημοσίευση: το dataset AgoraSpeech
Η νέα δημοσίευση έρχεται να συστηματοποιήσει και να επεκτείνει αυτή τη δουλειά.
Στον πυρήνα της βρίσκεται το AgoraSpeech, ένα dataset που περιλαμβάνει 171 ομιλίες από τις εκλογές του 2023, καλύπτοντας τόσο την περίοδο πριν από τις εκλογές του Μαΐου όσο και εκείνη του Ιουνίου. Κάθε ομιλία έχει χωριστεί σε παραγράφους και έχει επισημανθεί (annotated) σε πολλαπλές διαστάσεις, όπως θεματολογία, συναίσθημα, οντότητες, πόλωση και λαϊκισμός.
Συνολικά, το dataset περιλαμβάνει περισσότερες από 31.000 επισημάνσεις. Αυτές προκύπτουν από τον συνδυασμό αυτοματοποιημένων αποτελεσμάτων και εκτενούς ανθρώπινης επιβεβαίωσης, διατηρώντας τη «υβριδική» προσέγγιση του αρχικού πρότζεκτ.
Αυτός ο συνδυασμός –τεχνητή νοημοσύνη για κλίμακα και συνέπεια, ανθρώπινη παρέμβαση για ακρίβεια και ερμηνεία– αποτελεί κεντρικό στοιχείο της μελέτης. Δείχνει πώς μια πειραματική δημοσιογραφική διαδικασία μπορεί να μετατραπεί σε ένα δομημένο, διαφανές και επαναχρησιμοποιήσιμο ερευνητικό εργαλείο.
Στην έρευνα για τον πολιτικό λόγο, ένα από τα μεγαλύτερα εμπόδια είναι τα δεδομένα. Τα ποιοτικά, annotated datasets είναι σπάνια –ιδίως όταν επιχειρούν να αποτυπώσουν τη γλωσσική και ιδεολογική πολυπλοκότητα, και όχι απλώς λέξεις-κλειδιά.
Το AgoraSpeech αποτελεί ένα βήμα προς αυτή την κατεύθυνση. Προσφέρει:
- ένα σημείο αναφοράς για ερευνητές της πολιτικής επικοινωνίας
- ένα απτό παράδειγμα ενσωμάτωσης της τεχνητής νοημοσύνης σε δημοσιογραφικές πρακτικές
- έναν πιο διαφανή τρόπο κατανόησης του πώς η πολιτική γλώσσα διαμορφώνει τον δημόσιο διάλογo
