Ενίσχυση Εκμάθηση Vs. Βαθιά Ενίσχυση Μάθηση: Ποια είναι η Διαφορά;

Περιεχόμενο

Τι είναι η ενίσχυση της μάθησης;
No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας
Τι είναι η εκμάθηση βαθιάς ενίσχυσης;

Πάρε μακριά:

Πήγαμε στους εμπειρογνώμονες και τους ζητήσαμε να απαντήσουν στις σημαντικές διαφορές μεταξύ της μάθησης ενίσχυσης και της βαθιάς ενίσχυσης της μάθησης

Οι αλγόριθμοι μηχανικής μάθησης μπορούν να διευκολύνουν τη ζωή και την εργασία, απελευθερώνοντάς μας από περιττές εργασίες, ενώ εργαζόμαστε γρηγορότερα - και πιο έξυπνα - από ολόκληρες ομάδες ανθρώπων. Ωστόσο, υπάρχουν διαφορετικοί τύποι μηχανικής μάθησης. Για παράδειγμα, υπάρχει μάθηση ενδυνάμωσης και μάθηση βαθιάς ενίσχυσης.

"Παρά το γεγονός ότι η ενίσχυση της μάθησης και η μακρόχρονη ενίσχυση της μάθησης είναι τεχνικές μηχανικής μάθησης που μαθαίνουν αυτόνομα, υπάρχουν κάποιες διαφορές", δήλωσε ο Dr. Kiho Lim, επίκουρος καθηγητής πληροφορικής στο Πανεπιστήμιο William Paterson στο Wayne, New Jersey. "Η μάθηση ενδυνάμωσης δυναμικά μάθησης με μια μέθοδο δοκιμής και σφάλματος για τη μεγιστοποίηση του αποτελέσματος, ενώ η μακρά ενίσχυση της μάθησης μαθαίνει από τις υπάρχουσες γνώσεις και την εφαρμόζει σε ένα νέο σύνολο δεδομένων".

Αλλά τι ακριβώς σημαίνει αυτό; Πήγαμε στους ειδικούς - και τους ζήτησαν να δώσουν πολλά παραδείγματα!

Τι είναι η ενίσχυση της μάθησης;

Όπως λέει ο Lim, η ενίσχυση της μάθησης είναι η πρακτική της μάθησης με δοκιμές και λάθη και πρακτική. "Σε αυτό το μάθημα, ένα μοντέλο μαθαίνει στην ανάπτυξη με την προοδευτική επιβράβευση για μια σωστή πρόβλεψη και τιμωρείται για λανθασμένες προβλέψεις", σύμφωνα με τον Hunaid Hameed, εκπαιδευόμενο στην έρευνα δεδομένων Data Science Dojo στο Redmond, WA. (Διαβάστε την Ενδυνάμωση Μάθησης μπορεί να δώσει μια Νίκαια Δυναμική Spin στο μάρκετινγκ.)

"Η μάθηση για την ενίσχυση είναι συνήθως εμφανής στα παιχνίδια AI και στη βελτίωση του παιχνιδιού με την πάροδο του χρόνου."

Τα τρία βασικά συστατικά της μάθησης οπλισμού είναι ένας παράγοντας, δράση και ανταμοιβή. "Η μάθηση για την ενίσχυση ενισχύει μια συγκεκριμένη μεθοδολογία και καθορίζει τα καλύτερα μέσα για να επιτύχει το καλύτερο αποτέλεσμα", δήλωσε ο Δρ. Ankur Taly, επικεφαλής της επιστήμης των δεδομένων στο Fiddler Labs στο Mountain View, CA. "Είναι πολύ παρόμοια με τη δομή του πώς παίζουμε ένα βιντεοπαιχνίδι, στο οποίο ο χαρακτήρας (πράκτορας) συμμετέχει σε μια σειρά από δοκιμές (ενέργειες) για να αποκτήσει το υψηλότερο σκορ (ανταμοιβή)."

Ωστόσο, είναι ένα αυτόνομο σύστημα αυτοδιδασκαλίας. Χρησιμοποιώντας το παράδειγμα του τηλεοπτικού παιχνιδιού, η Taly λέει ότι οι θετικές ανταμοιβές μπορεί να προέρχονται από την αύξηση της βαθμολογίας ή των πόντων, ενώ αρνητικές ανταμοιβές μπορεί να προκύψουν από την εμφάνιση εμποδίων ή τη δημιουργία δυσμενών κινήσεων.

Ο Chris Nicholson, Διευθύνων Σύμβουλος του Σαν Φρανσίσκο, βασίζεται στο Skymind και βασίζεται στο παράδειγμα του τρόπου με τον οποίο μαθαίνουν αλγόριθμοι με δοκιμές και λάθη. "Φανταστείτε να παίζετε για πρώτη φορά το Super Mario Brothers και να προσπαθείτε να μάθετε πώς να κερδίσετε: πατάτε, πηδάτε, χτυπάτε ένα νόμισμα, προσγειώνετε σε μια χελώνα και στη συνέχεια βλέπετε τι συμβαίνει. "

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Με την εκμάθηση των καλών ενεργειών και των κακών ενεργειών, το παιχνίδι σας διδάσκει πώς να συμπεριφέρεστε. "Η μάθηση ενδυναμώνει σε κάθε περίπτωση: βιντεοπαιχνίδια, επιτραπέζια παιχνίδια, προσομοιώσεις πραγματικών περιπτώσεων χρήσης πραγματικού κόσμου". Ο Nicholson υποστηρίζει ότι ο οργανισμός χρησιμοποιεί μάθηση και προσομοιώσεις ενίσχυσης για να βοηθήσει τις επιχειρήσεις να βρουν την καλύτερη πορεία απόφασης μέσα από μια περίπλοκη κατάσταση.

Στην ενίσχυση της μάθησης, ένας πράκτορας κάνει αρκετές μικρότερες αποφάσεις για να επιτύχει μεγαλύτερο στόχο. Ακόμα ένα άλλο παράδειγμα είναι η διδασκαλία ενός ρομπότ να περπατήσει. "Αντί να ακολουθήσετε σκληρές οδηγίες για να σηκώσετε ένα πόδι, να λυγίζετε το γόνατο, να το βάζετε κάτω και ούτω καθεξής, μια προσέγγιση μάθησης ενίσχυσης μπορεί να έχει το πείραμα ρομπότ με διαφορετικές ακολουθίες κινήσεων και να μάθετε ποιες συνδυασμοί είναι οι πιο επιτυχείς στο να το κάνετε προχωρήστε προς τα εμπρός ", λέει ο Stephen Bailey, ειδικός του εργαλείου δεδομένων και ειδικών εργαλείων ανάλυσης στο Immuta στο College Park, MD.

Εκτός από τα βιντεοπαιχνίδια και τη ρομποτική, υπάρχουν και άλλα παραδείγματα που μπορούν να σας βοηθήσουν να εξηγήσετε πώς λειτουργεί η ενίσχυση της ενίσχυσης. Ο Brandon Haynie, επικεφαλής των δεδομένων επιστήμονας στη Babel Street στην Ουάσινγκτον, το συγκρίνει με έναν άνθρωπο που μαθαίνει να οδηγεί ποδήλατο. "Εάν είστε σταματημένοι και ανυψώνετε τα πόδια σας χωρίς πετάλι, μια πτώση - ή ποινή - είναι επικείμενη."

Ωστόσο, εάν αρχίσετε να πετάτε, τότε θα παραμείνετε στην μοτοσικλέτα - ανταμοιβή - και θα προχωρήσετε στην επόμενη κατάσταση.

"Η ενίσχυση της μάθησης έχει εφαρμογές που καλύπτουν διάφορους τομείς, συμπεριλαμβανομένων των οικονομικών αποφάσεων, της χημείας, της κατασκευής και, φυσικά, της ρομποτικής", λέει ο Haynie.

Τι είναι η εκμάθηση βαθιάς ενίσχυσης;

Ωστόσο, είναι δυνατόν οι αποφάσεις να γίνουν πολύ περίπλοκες για την προσέγγιση ενισχυμένης μάθησης. Ο Hayie λέει ότι μπορεί να είναι συντριπτική για τον αλγόριθμο να μάθει από όλες τις πολιτείες και να καθορίσει τη διαδρομή ανταμοιβής. "Αυτό είναι όπου η βαθιά μάθηση ενίσχυσης μπορεί να βοηθήσει: το" βαθύ "τμήμα αναφέρεται στην εφαρμογή ενός νευρικού δικτύου για την εκτίμηση των καταστάσεων αντί να χρειάζεται να χαρτογραφήσει κάθε λύση, δημιουργώντας ένα πιο διαχειρίσιμο χώρο λύσης στη διαδικασία λήψης αποφάσεων.

Δεν είναι μια νέα έννοια. Ο Hayney λέει ότι υπήρχε από τη δεκαετία του '70. "Αλλά με την εμφάνιση φτηνών και ισχυρών υπολογιστών, τα πρόσθετα πλεονεκτήματα των νευρωνικών δικτύων μπορούν τώρα να βοηθήσουν στην αντιμετώπιση περιοχών για να μειωθεί η πολυπλοκότητα μιας λύσης", εξηγεί. (Διαβάστε Ποια είναι η διαφορά μεταξύ της τεχνητής νοημοσύνης και των νευρωνικών δικτύων;)

Λοιπόν, πώς λειτουργεί αυτό; Σύμφωνα με τον Peter MacKenzie, η ομάδα AI οδηγεί, την Αμερική στο Teradata, υπάρχουν πάρα πολλές πληροφορίες για αποθήκευση σε τραπέζια και οι πινακοκεντρικές μέθοδοι απαιτούν από τον πράκτορα να επισκέπτεται κάθε συνδυασμό πολιτικών και δράσεων.

Εντούτοις, η εκμάθηση βαθιάς οπλισμού αντικαθιστά τις πίνακες μεθόδων εκτίμησης των τιμών κατάστασης με προσέγγιση των λειτουργιών. "Η προσέγγιση των λειτουργιών όχι μόνο εξαλείφει την ανάγκη αποθήκευσης όλων των ζευγών κατάστασης και τιμών σε έναν πίνακα, επιτρέπει στον παράγοντα να γενικεύει την τιμή των καταστάσεων που δεν έχει δει ποτέ πριν ή έχει μερικές πληροφορίες σχετικά με τις τιμές παρόμοιων καταστάσεων" Λέει ο MacKenzie.

"Πολλές από τις συναρπαστικές εξελίξεις στην εκμάθηση βαθιάς ενίσχυσης έχουν προκύψει εξαιτίας της ισχυρής ικανότητας των νευρωνικών δικτύων να γενικεύονται σε τεράστιους κρατικούς χώρους". Και ο MacKenzie σημειώνει ότι η μακρά ενίσχυση της ενίσχυσης έχει χρησιμοποιηθεί σε προγράμματα που έχουν κερδίσει μερικούς από τους καλύτερους ανθρώπινους ανταγωνιστές σε παιχνίδια όπως το Σκάκι και το Go, και είναι επίσης υπεύθυνοι για πολλές από τις εξελίξεις στη ρομποτική. (Διαβάστε 7 γυναίκες ηγέτες στο AI, μηχανική μάθηση και ρομποτική.)

Η Bailey συμφωνεί και προσθέτει: "Νωρίτερα φέτος, ένας πράκτορας AI που ονομάζεται AlphaStar κτύπησε τον καλύτερο παίκτη του StarCraft II στον κόσμο - και αυτό είναι ιδιαίτερα ενδιαφέρον γιατί σε αντίθεση με παιχνίδια όπως το Chess and Go, οι παίκτες στο StarCraft δεν ξέρουν τι κάνει ο αντίπαλός τους". Αντ 'αυτού, λέει ότι έπρεπε να κάνουν μια αρχική στρατηγική και στη συνέχεια να προσαρμοστούν καθώς ανακάλυψαν τι σχεδίαζε ο αντίπαλός τους.

Αλλά πώς είναι δυνατόν; Αν ένα μοντέλο έχει ένα νευρωνικό δίκτυο με περισσότερα από πέντε στρώματα, η Hameed λέει ότι έχει την ικανότητα να εξυπηρετεί δεδομένα μεγάλης διαστάσεως. "Εξαιτίας αυτού, το μοντέλο μπορεί να μάθει να αναγνωρίζει τα μοτίβα από μόνο του χωρίς να έχει έναν ανθρώπινο μηχανικό καθαρισμό και να επιλέγει τις μεταβλητές που πρέπει να εισάγονται στο μοντέλο για να μάθουν" εξηγεί.

Σε ανοιχτά σενάρια, μπορείτε πραγματικά να δείτε την ομορφιά της βαθιάς ενίσχυσης της μάθησης. Το Taly χρησιμοποιεί το παράδειγμα της κράτησης ενός τραπέζι σε ένα εστιατόριο ή την τοποθέτηση μιας παραγγελίας για ένα αντικείμενο - καταστάσεις στις οποίες ο πράκτορας πρέπει να ανταποκριθεί σε οποιαδήποτε εισροή από το άλλο άκρο.

"Η εκμάθηση βαθιάς ενίσχυσης μπορεί να χρησιμοποιηθεί για να εκπαιδεύσει έναν συνομιλητή άμεσα από το ηχητικό σήμα από το άλλο άκρο", λέει. "Όταν χρησιμοποιείτε ένα σήμα ήχου, ο πράκτορας μπορεί επίσης να μάθει να παίρνει τα λεπτές ενδείξεις στον ήχο, όπως οι παύσεις, ο ήχος, κ.λπ. - αυτή είναι η δύναμη της βαθιάς μάθησης οπλισμού".

Και νέες εφαρμογές μάθησης βαθιάς ενίσχυσης συνεχίζουν να αναδύονται. Ο MacKenzie δηλώνει ότι «η κατάσταση και οι ενέργειες θα μπορούσαν να περιλαμβάνουν όλους τους συνδυασμούς προϊόντων, προσφορών και μηνυμάτων σε όλα τα διαφορετικά κανάλια, με εξατομικευμένη μορφή - λέξεις, εικόνες, χρώματα, γραμματοσειρές».

Ένα άλλο παράδειγμα είναι η βελτιστοποίηση της αλυσίδας εφοδιασμού, για παράδειγμα, η παράδοση ευπαθών προϊόντων σε όλες τις ΗΠΑ. "Οι πιθανές καταστάσεις περιλαμβάνουν την τρέχουσα θέση όλων των διαφόρων τύπων μεταφοράς, την απογραφή σε όλα τα εργοστάσια, τις αποθήκες και τα καταστήματα λιανικής πώλησης, τα καταστήματα ", λέει ο MacKenzie.

"Χρησιμοποιώντας τη βαθιά εκμάθηση για να αντιπροσωπεύσει το κράτος και το χώρο δράσης, επιτρέπει στον πράκτορα να λαμβάνει καλύτερες υλικοτεχνικές αποφάσεις, οι οποίες οδηγούν σε πιο έγκαιρες αποστολές με χαμηλότερο κόστος".