Ανάπτυξη πράκτορα αυτόνομης οδήγησης με βαθιά ενισχυτική μάθηση για τον έλεγχο αγωνιστικού οχήματος σε προσαρμόσιμο εικονικό ψηφιακό περιβάλλον
Σκοπός της διπλωματικής εργασία είναι η υλοποίηση ενός συστήματος το οποίο θα παρέχει την δυνατότητα εκπαίδευσης δύο State of the Art αλγορίθμων στον τομέα της βαθιάς ενισχυτικής μάθησης καθώς και η εφαρμογή των αλγορίθμων για την εκπαίδευση αγωνιστικών οχημάτων με στόχο την ελαχιστοποίηση του χρόνο...
Saved in:
| Main Authors: | , |
|---|---|
| Other Authors: | |
| Language: | el_GR |
| Published: |
2022
|
| Subjects: | |
| Online Access: | http://hdl.handle.net/11610/23553 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | Σκοπός της διπλωματικής εργασία είναι η υλοποίηση ενός συστήματος το οποίο θα παρέχει την δυνατότητα εκπαίδευσης δύο State of the Art αλγορίθμων στον τομέα της βαθιάς ενισχυτικής μάθησης καθώς και η εφαρμογή των αλγορίθμων για την εκπαίδευση αγωνιστικών οχημάτων με στόχο την ελαχιστοποίηση του χρόνου για την ολοκλήρωση γύρου σε μία αγωνιστική πίστα, σε περιβάλλον που μπορεί να δημιουργηθεί από διάφορα δομικά στοιχεία που παρέχουμε από την εφαρμογή. Η βασική μεθοδολογία μας είναι η δημιουργία ενός νευρωνικού δικτύου ικανό να οδηγεί αυτόνομα ένα αγωνιστικό αυτοκίνητο χωρίς να του έχουμε γνωστοποιήσει τη δυναμική του οχήματος καθώς και την ελαχιστοποίηση του χρόνου που χρειάζεται για την ολοκλήρωση της κούρσας. Παρέχοντας του μόνο την πληροφορία των ενεργειών που μπορεί να πάρει καθώς και ένα διάνυσμα παρατηρήσεων θα μελετήσουμε τους αλγορίθμους SAC και PPO, θα συγκρίνουμε τις αποδόσεις μεταξύ τους και με τις αποδόσεις ανθρώπων-χειριστών μέσω πειραμάτων που θα μας αποδείξουν την ικανότητα των αλγορίθμων να ελαχιστοποιούν τον χρόνο που χρειάζεται για την ολοκλήρωση γύρων και την προσαρμοστικότητα τους σε διαφορετικές καταστάσεις, όπως διαφορετικές κούρσες και ρυθμίσεις του οχήματος. Από τα πειράματα μας
συμπεράναμε πως και οι δύο αλγόριθμοι έχουν τα δυνατά σημεία και τις αδυναμίες τους. Συγκεκριμένα ο PPO είναι πολύ πιο συντηρητικός στην οδήγηση του ενώ ο SAC πολύ πιο αποδοτικός και έχει αποδόσεις πιο κοντά στις ανθρώπινες αλλά δεν έχει την ίδια σταθερότητα στις αποδόσεις σε πίστες που δεν έχει εκπαιδευτεί. |
|---|