Text analysis and machine learning classification of defendants’ testimonies in greek courtroom in order to create their linguistic profile

Η δικανική ή εγκληματολογική γλωσσολογία επιχειρεί να αναλύσει τη γλώσσα που σχετίζεται με το νόμο, είτε στην περίπτωση που η γλώσσα αποτελεί κάποιο αποδεικτικό στοιχείο μιας εγκληματικής πράξης είτε στην περίπτωση της γλώσσας ως νομικoύ λόγου. Η γλώσσα ως νομικός λόγος περιλαμβάνει, μεταξύ άλλων, τ...

Full description

Saved in:
Bibliographic Details
Main Author: Κατρανίδου, Αναστασία
Other Authors: Φραντζή, Αικατερίνη
Language:English
Published: 2022
Subjects:
Online Access:http://hdl.handle.net/11610/23462
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Η δικανική ή εγκληματολογική γλωσσολογία επιχειρεί να αναλύσει τη γλώσσα που σχετίζεται με το νόμο, είτε στην περίπτωση που η γλώσσα αποτελεί κάποιο αποδεικτικό στοιχείο μιας εγκληματικής πράξης είτε στην περίπτωση της γλώσσας ως νομικoύ λόγου. Η γλώσσα ως νομικός λόγος περιλαμβάνει, μεταξύ άλλων, το λόγο μέσα στη δικαστική αίθουσα. Το εγκληματικό προφίλ, το οποίο στη διεθνή βιβλιογραφία καταγράφεται και ως προφίλ του παραβάτη/δράστη, είναι ένας από τους σημαντικότερους τομείς έρευνας στην εγκληματολογική γλωσσολογία και θα έπρεπε να είναι και από τα κύρια καθήκοντά του, καθώς εξετάζοντας μια εγκληματική συμπεριφορά μπορεί κανείς να αξιολογήσει ή ακόμη και να προβλέψει μελλοντικές εγκληματικές ενέργειες. Για να προσδιοριστούν συγκεκριμένα χαρακτηριστικά του ατόμου που διαπράττει ένα έγκλημα, απαιτείται μια διεξοδική και συστηματική διαδικασία παρατήρησης και ανάλυσης της σκηνής του εγκλήματος, του θύματος, των αποδεικτικών στοιχείων και των γεγονότων του εγκλήματος. Σε αυτήν τη διατριβή, χρησιμοποιώντας τεχνικές ανάλυσης φυσικής γλώσσας από το ερευνητικό πεδίο της δημιουργίας προφίλ του συγγραφέα (author profiling), όπου μπορεί κανείς να εξάγει πληροφορίες σχετικά με την ηλικία, την εκπαίδευση, το φύλο κ.α. του συγγραφέα ενός συγκεκριμένου κειμένου, επιχειρούμε να καθορίσουμε το γλωσσικό προφίλ μιας συγκεκριμένης κατηγορίας εγκληματιών, αυτής των ανθρωποκτόνων και, σε μεταγενέστερο στάδιο, να αναπτύξουμε ένα μοντέλο κατηγοριοποίησης ή ταξινόμησης (classifier) μηχανικής μάθησης που θα προβλέπει εάν ένα κείμενο ανήκει σε αυτήν την κατηγορία των εγκληματιών ή όχι, δηλαδή αν έχει γραφτεί ή ειπωθεί από έναν ανθρωποκτόνο ή όχι. Αρχικά, δημιουργήσαμε τρία σώματα κειμένου (corpora) από κείμενα που προήλθαν εξ ολοκλήρου από καταθέσεις που έγιναν σε πραγματικές δίκες σε αίθουσες των ελληνικών δικαστηρίων από τις αντίστοιχες δικογραφίες. Το πρώτο σώμα κειμένου που κατασκευάσαμε αφορά σε απολογίες κατηγορουμένων που κατηγορούνταν για ανθρωποκτονία, το δεύτερο δημιουργήθηκε από καταθέσεις μαρτύρων που κατέθεταν στις ίδιες δικαστικές υποθέσεις των κατηγορουμένων, και το τελευταίο αποτελείται από καταθέσεις των κατηγορουμένων στον ανακριτή, κατά την προανακριτική διαδικασία, πριν ακόμα παραπεμφθούν σε δίκη. Είναι προφανές ότι η δημιουργία αυτής της διατριβής δε θα ήταν εφικτή χωρίς την κατοχή αυτών των δικογραφιών, στις οποίες η πρόσβαση ήταν δύσκολη και η απόκτησή τους ήταν μια διαδικασία χρονοβόρα και απαιτητική. Το τελευταίο είναι ο κύριος λόγος που μέχρι στιγμής δεν έχει γίνει αντίστοιχη έρευνα στην Ελλάδα. Έχοντας δημιουργήσει τα παραπάνω σώματα κειμένων από τις δικογραφίες, ποσοτικοποιήσαμε τον τρόπο με τον οποίο οι κατηγορούμενοι μιλούν μέσα σε μια ελληνική δικαστική αίθουσα κατά τη διάρκεια της απολογίας τους, μελετώντας τα κυριότερα υφολογικά χαρακτηριστικά της γλώσσας που χρησιμοποιούν και συγκρίνοντάς τα με την καθομιλουμένη γλώσσα και τη γλώσσα των μαρτύρων που καταθέτουν στις ίδιες δικαστικές υποθέσεις. Ως εκ τούτου, καταφέραμε να εξάγουμε ορισμένα γλωσσικά μοτίβα που χρησιμοποιούν οι ανθρωποκτόνοι στις καταθέσεις τους. Επιπλέον, μερικά από τα προαναφερθέντα υφολογικά χαρακτηριστικά αποδείχτηκαν πιο καθοριστικά, από κάποια άλλα, όσον αφορά στην ικανότητα τους να μπορούν να περιγράψουν το γλωσσικό προφίλ του ομιλητή μιας κατάθεσης. Τα αποτελέσματα από την ποσοτική ανάλυση που εξήγαμε αναφορικά με το γλωσσικό προφίλ των ανθρωποκτόνων και γνωρίζοντας ότι οι δικαστικές διαδικασίες και οι αστυνομικές έρευνες στην Ελλάδα δε διαθέτουν κατάλληλα και εύχρηστα εργαλεία που να μπορούν να δώσουν μια επιπλέον βοήθεια στην αξιολόγηση των καταθέσεων των κατηγορουμένων, μας οδήγησαν στην ιδέα της κατασκευής ενός αυτοματοποιημένου μοντέλου ταξινόμησης κειμένων, χρησιμοποιώντας για δεδομένα εκπαίδευσης τα πιο χρήσιμα υφολογικά χαρακτηριστικά που εξήγαμε από τις καταθέσεις των κατηγορουμένων. Η αυτοματοποιημένη ταξινόμηση κειμένου έχει θεωρηθεί ως μια μέθοδος ζωτικής σημασίας για τη διαχείριση τεράστιου αριθμού εγγράφων που βρίσκονται σε ψηφιακή μορφή, καθώς στόχος της είναι η κατασκευή ενός μοντέλου ταξινόμησης που να είναι σε θέση να εκχωρεί αυτόματα ετικέτες σε ηλεκτρονικά κείμενα μαθαίνοντας από συγκεκριμένα χαρακτηριστικά της κάθε κατηγορίας. Σε κάθε περίπτωση, η στατιστική αφορά περισσότερο στη δοκιμή υποθέσεων, ενώ η μηχανική μάθηση έχοντας ως δεδομένο πιθανές υποθέσεις, προσπαθεί να διαμορφώσει μια διαδικασία γενίκευσης. Επομένως, παρουσιάζουμε ένα μοντέλο μηχανικής μάθησης ταξινόμησης κειμένων, το μοντέλο ταξινόμησης GDCT, το οποίο εκπαιδεύτηκε χρησιμοποιώντας τα κατάλληλα, όπως αποδείχτηκαν από τη μελέτη μας, υφολογικά χαρακτηριστικά από τη γλώσσα που χρησιμοποιούν οι ανθρωποκτόνοι και οι μάρτυρες στις καταθέσεις τους. Τα αποτελέσματα από τα πειράματα που έγιναν στα σώματα κειμένων μας, τα οποία αποτελούνται από τις μαρτυρίες 269 κατηγορουμένων και μαρτύρων συνολικά, επιβεβαιώνουν την αποτελεσματικότητα της μεθόδου μας. Συγκεκριμένα, αποδεικνύουμε ότι το μοντέλο ταξινόμησης GCDT μπορεί να χαρακτηρίσει ένα άτομο που καταθέτει, ως ένοχο ή όχι, με ακρίβεια 93%. Το μοντέλο μας δεν επιδιώκει σε καμία περίπτωση να αντικαταστήσει το ρόλο ενός δικαστή ή ανακριτή, αλλά μπορεί να προσφέρει στη δικαστική διαδικασία ένα επιπλέον εργαλείο για την αξιολόγηση της κατάθεσης ενός δολοφόνου. Η συγκεκριμένη έρευνα αποτελεί μια πρωτοπόρα μέθοδο τόσο για την ελληνική δικανική γλωσσολογία όσο και για την ελληνική δικαστική διαδικασία.