Ποια είναι τα Πλεονεκτήματα του πλαισίου Hadoop 2.0 (YARN);

Συγγραφέας: Roger Morrison
Ημερομηνία Δημιουργίας: 18 Σεπτέμβριος 2021
Ημερομηνία Ενημέρωσης: 1 Ιούλιος 2024
Anonim
Ποια είναι τα Πλεονεκτήματα του πλαισίου Hadoop 2.0 (YARN); - Τεχνολογία
Ποια είναι τα Πλεονεκτήματα του πλαισίου Hadoop 2.0 (YARN); - Τεχνολογία

Περιεχόμενο


Πηγή: Jim Hughes / Dreamstime.com

Πάρε μακριά:

Το YARN είναι μια σημαντική βελτίωση σε σχέση με το πλαίσιο Hadoop 1.0. Εδώ εξετάζουμε μερικά από τα πλεονεκτήματα που έχει πάνω από τον προκάτοχό του.

Από τότε που εισήχθη η έννοια των μεγάλων δεδομένων, έχει περάσει από πολλαπλές φάσεις εξέλιξης. Ο Hadoop εισήχθη το 2005 με ορισμένα αρχικά χαρακτηριστικά όπως ο μηχανισμός επεξεργασίας MapReduce, ο οποίος επέτρεψε μεγάλης κλίμακας φόρτο εργασίας επεξεργασίας δεδομένων που διανέμονται σε ομάδες. Η ίδια η Hadoop έχει βιώσει πολλές αλλαγές και έχει αναπτύξει προηγμένα πλαίσια και μεθόδους.

Το YARN αποτελεί βασικό συστατικό του Hadoop 2.0. Βασικά διαχειρίζεται τους πόρους σε ένα συγκεντρωτικό περιβάλλον. Ο μεσίτης YARN αλληλεπιδρά με τους υπολογιστικούς πόρους (εξ ονόματος των εφαρμογών) και εκχωρεί πόρους σε κάθε εφαρμογή βάσει διαφορετικών κριτηρίων φιλτραρίσματος.

Σε αυτό το άρθρο, θα εξετάσουμε τα κορυφαία πλεονεκτήματα του YARN πάνω από τον Hadoop 1.0.


Τι είναι το πλαίσιο YARN;

Υet ΕΝΑόχι Rπηγή Νο διαγωνιζόμενος είναι ένα βασικό συστατικό του Hadoop 2.0, το οποίο διαχειρίζεται πόρους σε ένα συγκεντρωμένο περιβάλλον. Το πλαίσιο Hadoop YARN είναι μια προηγμένη έκδοση του Hadoop 1.0 που παρέχει βελτιωμένες επιδόσεις, κάτι που είναι επωφελές για το οικοσύστημα Hadoop και για το σύνολο των τεχνολογιών που σχετίζονται με αυτό. Τώρα που είμαστε λίγο πιο εξοικειωμένοι με το YARN, ας ρίξουμε μια πιο προσεκτική ματιά στο Hadoop 1.0 και στο YARN.

Περιορισμοί του πλαισίου Hadoop 1.0

Για να κατανοήσουμε τα πλεονεκτήματα του πλαισίου YARN, είναι πολύ σημαντικό να κατανοήσουμε πώς λειτουργεί το Hadoop 1.0 και ποιοι είναι οι περιορισμοί αυτού του πλαισίου.

Εδώ εισέρχεται ο ρόλος του JobTracker. Διαχειρίζεται και τους πόρους των συμπλεγμάτων και καθορίζει την εκτέλεση της εργασίας MapReduce. Με λίγα λόγια, το JobTracker προγραμματίζει και διατηρεί τις υποδοχές εργασιών και διαμορφώνει και παρακολουθεί κάθε εργασία που εκτελεί. Εάν αποτύχει μια εργασία, ανακατανέμει μια νέα υποδοχή για την εκκίνηση της εργασίας. Μόλις ολοκληρωθεί μια εργασία, το JobTracker απελευθερώνει την υποδοχή για άλλες εργασίες και καθαρίζει τους προσωρινούς πόρους.


Σημαντικά μειονεκτήματα της παραπάνω προσέγγισης:

  • Διαθεσιμότητα - Το JobTracker είναι το μόνο διαθέσιμο σημείο στο Hadoop 1.0. Αυτό σημαίνει ότι εάν αποτύχει το JobTracker, όλες οι εργασίες θα επανεκκινηθούν από προεπιλογή.
  • Περιορισμένη δυνατότητα κλιμάκωσης - Επειδή το JobTracker εκτελεί πολλαπλές εργασίες και εκτελείται σε ένα μόνο μηχάνημα, οι άλλες διαθέσιμες μηχανές δεν χρησιμοποιούνται. ως εκ τούτου, με αποτέλεσμα την περιορισμένη δυνατότητα κλιμάκωσης.
  • Χρήση πόρων - Στην παραπάνω προσέγγιση, οι υποδοχές χαρτών και οι μειώσεις των υποδοχών είναι προκαθορισμένες. Μπορεί να συμβεί ότι μία από τις υποδοχές είναι πλήρης, αλλά οι άλλες υποδοχές μηχάνημα είναι κενές. Δεδομένου ότι τα κενά διαθέσιμα slots είναι αποκλειστικά, θα κάθονται σε αδράνεια αντί για συμβιβασμούς για τις πλήρεις θέσεις. Αυτό μπορεί να προκαλέσει πρόβλημα χρήσης πόρων.
  • Εκτέλεση μη εφαρμογών MapReduce - Το JobTracker είναι μια εφαρμογή που είναι κατασκευασμένη για το πλαίσιο MapReduce. Το πρόβλημα προκύπτει όταν μια εφαρμογή μη MapReduce προσπαθεί να εκτελεστεί σε αυτό το πλαίσιο. Η εφαρμογή πρέπει να συμμορφώνεται με τον προγραμματισμό πλαισίου MapReduce προκειμένου να λειτουργήσει με επιτυχία. Ορισμένα από τα κοινά προβλήματα που αντιμετωπίζουν εξαιτίας αυτού περιλαμβάνουν προβλήματα με:
    • Ad-hoc ερώτημα
    • Ανάλυση σε πραγματικό χρόνο
    • διερχόμενη προσέγγιση
  • Αποτυχία κατά τη διαδοχική καμπάνια - Ένα από τα σημαντικότερα ζητήματα σε αυτό το πλαίσιο συμβαίνει όταν ο αριθμός των κόμβων είναι μεγαλύτερος από 4000. Σε ένα τέτοιο σενάριο εμφανίζεται μια αποτυχημένη αστοχία, με αποτέλεσμα την υποβάθμιση ολόκληρου του συμπλέγματος.

Αυτοί είναι μερικοί από τους σημαντικούς περιορισμούς που αντιμετωπίζουμε κατά την εργασία με αυτό το πλαίσιο. Υπάρχουν και άλλοι περιορισμένοι περιορισμοί, οι οποίοι δεν αναφέρονται. Το πλαίσιο YARN εισήχθη για να ξεπεραστούν αυτοί οι περιορισμοί.

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

YARN Framework και τα πλεονεκτήματά του

Το πλαίσιο YARN, που εισήχθη στο Hadoop 2.0, αποσκοπεί να μοιραστεί τις ευθύνες του MapReduce και να φροντίσει για το έργο διαχείρισης των συμπλεγμάτων. Αυτό επιτρέπει στο MapReduce να εκτελεί μόνο επεξεργασία δεδομένων και επομένως να εξορθολογεί τη διαδικασία.

Το YARN φέρνει την έννοια της κεντρικής διαχείρισης των πόρων. Αυτό επιτρέπει σε πολλαπλές εφαρμογές να τρέχουν σε Hadoop, μοιράζοντας μια κοινή διαχείριση πόρων.

Μερικά από τα κύρια συστατικά του πλαισίου YARN είναι:

  • ResourceManager - Το στοιχείο ResourceManager είναι ο διαπραγματευτής σε ένα σύμπλεγμα για όλους τους πόρους που υπάρχουν σε αυτό το σύμπλεγμα. Επιπλέον, αυτό το στοιχείο κατατάσσεται σε διαχειριστή εφαρμογών, ο οποίος είναι υπεύθυνος για τη διαχείριση των θέσεων εργασίας των χρηστών. Από το Hadoop 2.0 οποιαδήποτε εργασία MapReduce θα θεωρείται ως εφαρμογή.
  • ApplicationMaster - Αυτό το στοιχείο είναι ο τόπος όπου υπάρχει μια εργασία ή μια εφαρμογή. Διαχειρίζεται επίσης όλες τις εργασίες MapReduce και ολοκληρώνεται μετά την ολοκλήρωση της επεξεργασίας της εργασίας.
  • NodeManager - Το στοιχείο διαχειριστή κόμβου λειτουργεί ως διακομιστής για το ιστορικό εργασιών. Είναι υπεύθυνη για την εξασφάλιση της πληροφόρησης για τις ολοκληρωμένες εργασίες. Επίσης, παρακολουθεί τις εργασίες των χρηστών μαζί με τη ροή εργασίας τους για έναν συγκεκριμένο κόμβο.

Έχοντας κατά νου ότι το πλαίσιο YARN έχει διαφορετικά στοιχεία για να διαχειριστεί τις διαφορετικές εργασίες, ας δούμε πώς αντισταθμίζει τους περιορισμούς του Hadoop 1.0.

  • Καλύτερη αξιοποίηση των πόρων - Το πλαίσιο YARN δεν διαθέτει καθορισμένες θέσεις για τις εργασίες. Παρέχει έναν κεντρικό διαχειριστή πόρων ο οποίος σας επιτρέπει να μοιράζεστε πολλαπλές εφαρμογές μέσω ενός κοινού πόρου.
  • Εκτέλεση εφαρμογών μη MapReduce - Στο YARN, οι δυνατότητες προγραμματισμού και διαχείρισης πόρων διαχωρίζονται από το στοιχείο επεξεργασίας δεδομένων. Αυτό επιτρέπει στον Hadoop να εκτελεί ποικίλους τύπους εφαρμογών οι οποίες δεν συμμορφώνονται με τον προγραμματισμό του πλαισίου Hadoop. Τα clusters Hadoop είναι τώρα σε θέση να εκτελούν ανεξάρτητες διαλογικές ερωτήσεις και να εκτελούν καλύτερη ανάλυση σε πραγματικό χρόνο.
  • Συμβατότητα προς τα πίσω - Το YARN έρχεται ως ένα συμβατό προς τα πίσω πλαίσιο, πράγμα που σημαίνει ότι οποιαδήποτε υπάρχουσα εργασία του MapReduce μπορεί να εκτελεστεί στο Hadoop 2.0.
  • Το JobTracker δεν υπάρχει πια - Οι δύο κύριοι ρόλοι του JobTracker ήταν η διαχείριση των πόρων και ο προγραμματισμός της εργασίας. Με την εισαγωγή του πλαισίου YARN, αυτά διαχωρίζονται τώρα σε δύο ξεχωριστά στοιχεία:
    • NodeManager
    • ResourceManager

συμπέρασμα

Η εισαγωγή του πλαισίου YARN έχει καταστήσει ευκολότερη την κατασκευή εφαρμογών για προγραμματιστές Hadoop. Τώρα, οι εφαρμογές δεν χρειάζεται πλέον να υλοποιούνται με εργαλεία τρίτου μέρους. Το YARN είναι μια τεράστια αλλαγή που θα επιτρέψει στους χρήστες να εξετάσουν το Hadoop 2.0 για να δημιουργούν εφαρμογές και να χειρίζονται δεδομένα πιο αποτελεσματικά. Με τον καιρό, θα υπάρξουν περαιτέρω εξελίξεις για να βελτιωθεί η χρηστικότητα του Hadoop. Προς το παρόν, το πλαίσιο YARN θα διαδραματίσει σημαντικό ρόλο στην αντιμετώπιση των υφιστάμενων προβλημάτων και θα δημιουργήσει ένα περιβάλλον χωρίς δυσκολίες, το οποίο θα είναι πιο ευέλικτο από την παλαιότερη έκδοση του μοντέλου MapReduce.