Οι 10 πιο σημαντικοί όροι Hadoop που πρέπει να ξέρετε και να καταλάβετε

Βίντεο: Technology Stacks - Computer Science for Business Leaders 2016

Περιεχόμενο

Αλλά πρώτα, μια ματιά στο πώς λειτουργεί ο Hadoop
Hadoop Common
Το σύστημα κατανομής αρχείων Hadoop (HDFS)
ΜΕΙΩΣΗ ΧΑΡΤΗ
HBase
Κυψέλη
No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας
Apache Pig
Apache Spark
Apache Cassandra
Ένας άλλος διαπραγματευτής πόρων (YARN)
Impala

Πηγή: Trueffelpix / Dreamstime.com

Πάρε μακριά:

Για να κατανοήσετε πραγματικά τα μεγάλα δεδομένα, πρέπει να καταλάβετε λίγο το Hadoop και τη γλώσσα γύρω από αυτό.

Τα μεγάλα δεδομένα, το ελκυστικό όνομα για τεράστιους όγκους δομημένων, αδόμητων ή ημιδομημένων δεδομένων, είναι δύσκολο να καταγραφούν, να αποθηκευτούν, να διαχειριστούν, να μοιραστούν, να αναλυθούν και να απεικονιστούν, χρησιμοποιώντας τουλάχιστον παραδοσιακές εφαρμογές βάσεων δεδομένων και λογισμικού. Αυτός είναι ο λόγος για τον οποίο οι μεγάλες τεχνολογίες δεδομένων έχουν τη δυνατότητα να διαχειρίζονται και να επεξεργάζονται τεράστιους όγκους δεδομένων αποτελεσματικά και αποτελεσματικά. Και το Apache Hadoop που παρέχει το πλαίσιο και τις συναφείς τεχνολογίες για την επεξεργασία μεγάλων συνόλων δεδομένων σε ομάδες υπολογιστών με κατανεμημένο τρόπο. Έτσι, για να καταλάβετε πραγματικά τα μεγάλα δεδομένα, θα πρέπει να καταλάβετε λίγο το Hadoop. Εδώ μπορείτε να ρίξετε μια ματιά στους κορυφαίους όρους που θα ακούσετε σχετικά με τον Hadoop - και τι σημαίνουν.

Αλλά πρώτα, μια ματιά στο πώς λειτουργεί ο Hadoop

Πριν πάτε στο οικοσύστημα Hadoop, πρέπει να κατανοήσετε ξεκάθαρα δύο θεμελιώδη πράγματα. Το πρώτο είναι πώς αποθηκεύεται ένα αρχείο στο Hadoop. η δεύτερη είναι η επεξεργασία των αποθηκευμένων δεδομένων. Όλες οι τεχνολογίες που σχετίζονται με το Hadoop λειτουργούν κυρίως σε αυτούς τους δύο τομείς και καθιστούν πιο φιλική προς το χρήστη. (Λάβετε τα βασικά στοιχεία για τον τρόπο με τον οποίο ο Hadoop λειτουργεί στο How Hadoop βοηθά στην επίλυση του μεγάλου προβλήματος δεδομένων.)

Τώρα, σύμφωνα με τους όρους.

Hadoop Common

Το πλαίσιο Hadoop έχει διαφορετικές ενότητες για διαφορετικές λειτουργίες και αυτές οι ενότητες μπορούν να αλληλεπιδρούν μεταξύ τους για διάφορους λόγους. Το Hadoop Common μπορεί να οριστεί ως μια κοινή βιβλιοθήκη βοηθητικών προγραμμάτων για την υποστήριξη αυτών των μονάδων στο οικοσύστημα Hadoop. Αυτά τα βοηθητικά προγράμματα είναι βασικά αρχεία με βάση το Java, αρχειοθετημένα (JAR). Αυτά τα βοηθητικά προγράμματα χρησιμοποιούνται κυρίως από προγραμματιστές και προγραμματιστές κατά τη διάρκεια του χρόνου ανάπτυξης.

Το σύστημα κατανομής αρχείων Hadoop (HDFS)

Το Κατανεμημένο Σύστημα Αρχείων Hadoop (HDFS) είναι ένα υπο-έργο του Apache Hadoop στο πλαίσιο του Apache Software Foundation. Αυτή είναι η ραχοκοκαλιά της αποθήκευσης στο πλαίσιο Hadoop. Πρόκειται για ένα κατανεμημένο, κλιμακωτό και ανθεκτικό σε σφάλματα σύστημα αρχείων το οποίο εκτείνεται σε πολλαπλά υλικά βασικών προϊόντων γνωστά ως cluster Hadoop. Ο στόχος του HDFS είναι να αποθηκεύει αξιόπιστα έναν τεράστιο όγκο δεδομένων με υψηλή πρόσβαση σε δεδομένα εφαρμογών. Το HDFS ακολουθεί την κύρια / υποτελική αρχιτεκτονική, όπου ο κύριος είναι γνωστός ως NameNode και οι σκλάβοι είναι γνωστοί ως DataNodes.

ΜΕΙΩΣΗ ΧΑΡΤΗ

Το Hadoop MapReduce είναι επίσης ένα υποέργο του Apache Software Foundation. MapReduce είναι στην πραγματικότητα ένα πλαίσιο λογισμικού καθαρά γραμμένο σε Java. Ο πρωταρχικός στόχος του είναι να επεξεργαστεί μεγάλα σύνολα δεδομένων σε ένα κατανεμημένο περιβάλλον (που αποτελείται από υλικό βασικών προϊόντων) με έναν εντελώς παράλληλο τρόπο. Το πλαίσιο διαχειρίζεται όλες τις δραστηριότητες όπως τον προγραμματισμό, την παρακολούθηση, την εκτέλεση και την εκ νέου εκτέλεση εργασιών (σε περίπτωση αποτυχημένων εργασιών).

HBase

Το Apache HBase είναι γνωστό ως βάση δεδομένων Hadoop. Πρόκειται για ένα στήλη, διανεμημένο και κλιμακωτό μεγάλο κατάστημα δεδομένων. Είναι επίσης γνωστό ως ένας τύπος βάσης δεδομένων NoSQL που δεν είναι ένα σύστημα διαχείρισης σχεσιακής βάσης δεδομένων. Οι εφαρμογές HBase είναι επίσης γραμμένες σε Java, που είναι χτισμένες στην κορυφή του Hadoop και λειτουργούν σε HDFS. Το HBase χρησιμοποιείται όταν χρειάζεστε ανάγνωση / εγγραφή σε πραγματικό χρόνο και τυχαία πρόσβαση σε μεγάλα δεδομένα. Το HBase διαμορφώνεται με βάση τις ιδέες του Google BigTable.

Κυψέλη

Το Apache Hive είναι ένα λογισμικό ανοικτής πηγής λογισμικού αποθήκης δεδομένων. Η κυψέλη αναπτύχθηκε αρχικά από πριν από το Apache Software Foundation και έγινε ανοιχτή πηγή. Διευκολύνει τη διαχείριση και την αναζήτηση μεγάλων συνόλων δεδομένων σε κατανεμημένη αποθήκευση Hadoop. Η κυψέλη εκτελεί όλες τις δραστηριότητές της χρησιμοποιώντας μια γλώσσα τύπου SQL που είναι γνωστή ως HiveQL. (Μάθετε περισσότερα σε μια σύντομη εισαγωγή στο Apache Hive and Pig.)

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Apache Pig

Το Pig ξεκίνησε αρχικά από το Yahoo για την ανάπτυξη και την εκτέλεση εργασιών MapReduce σε μεγάλο όγκο κατανεμημένων δεδομένων. Τώρα έχει γίνει ένα έργο ανοιχτού κώδικα στο Apache Software Foundation. Το Apache Pig μπορεί να οριστεί ως μια πλατφόρμα για την ανάλυση πολύ μεγάλων συνόλων δεδομένων με αποτελεσματικό τρόπο. Το στρώμα υποδομής Pigs παράγει ακολουθίες εργασιών του MapReduce για να κάνει την πραγματική επεξεργασία. Το στρώμα γλώσσας Pigs είναι γνωστό ως Pig Latin και παρέχει χαρακτηριστικά παρόμοια με το SQL για την εκτέλεση ερωτημάτων σε κατανεμημένα σύνολα δεδομένων.

Apache Spark

Το Spark αναπτύχθηκε αρχικά από την AMPLab στο UC Berkeley. Έγινε έργο κορυφαίου επιπέδου Apache τον Φεβρουάριο του 2014. Το Apache Spark μπορεί να οριστεί ως πλαίσιο ανοικτού κώδικα, γενικού σκοπού και συμπλέγματος, το οποίο καθιστά την ανάλυση δεδομένων πολύ πιο γρήγορη. Είναι χτισμένο πάνω από το Hadoop Distributed File System αλλά δεν συνδέεται με το πλαίσιο MapReduce. Η απόδοση των σπινθήρων είναι πολύ πιο γρήγορη σε σύγκριση με το MapReduce. Παρέχει API υψηλού επιπέδου σε Scala, Python και Java.

Apache Cassandra

Το Apache Cassandra είναι μια άλλη βάση δεδομένων NoSQL ανοικτής πηγής. Η Cassandra χρησιμοποιείται ευρέως για τη διαχείριση μεγάλων όγκων δομημένων, ημιδομημένων και αδόμητων δεδομένων σε πολλαπλά κέντρα δεδομένων και αποθήκευση σύννεφων. Η Cassandra έχει σχεδιαστεί με βάση μια "αταξία" αρχιτεκτονική, που σημαίνει ότι δεν υποστηρίζει το μοντέλο master / slave. Σε αυτήν την αρχιτεκτονική, όλοι οι κόμβοι είναι οι ίδιοι και τα δεδομένα κατανέμονται αυτόματα και εξίσου σε όλους τους κόμβους. Τα πιο σημαντικά χαρακτηριστικά του Cassandra είναι η συνεχής διαθεσιμότητα, η γραμμική κλιμάκωση, η ενσωματωμένη / προσαρμόσιμη αναπαραγωγή, το μοναδικό σημείο αποτυχίας και η λειτουργική απλότητα.

Ένας άλλος διαπραγματευτής πόρων (YARN)

Ακόμα ένας άλλος διαπραγματευτής πόρων (YARN) είναι επίσης γνωστός ως MapReduce 2.0, αλλά στην πραγματικότητα εμπίπτει στο πλαίσιο του Hadoop 2.0. Το YARN μπορεί να οριστεί ως πλαίσιο προγραμματισμού εργασίας και διαχείρισης πόρων. Η βασική ιδέα του YARN είναι να αντικαταστήσει τις λειτουργίες του JobTracker από δύο ξεχωριστούς δαίμονες υπεύθυνους για τη διαχείριση των πόρων και τον προγραμματισμό / παρακολούθηση. Σε αυτό το νέο πλαίσιο, θα υπάρχει ένας παγκόσμιος ResourceManager (RM) και ένας κύριος για εφαρμογές, γνωστός ως ApplicationMaster (AM). Ο παγκόσμιος ResourceManager (RM) και ο NodeManager (ανά υποτελούς κόμβου) αποτελούν το πραγματικό πλαίσιο υπολογισμού δεδομένων. Οι υπάρχουσες εφαρμογές MapReduce v1 μπορούν επίσης να εκτελεστούν στο YARN, αλλά αυτές οι εφαρμογές πρέπει να επανασυναρμολογηθούν με βάζα Hadoop2.x.

Impala

Το Impala μπορεί να οριστεί ως μηχανισμός ερωτήματος SQL με ισχύ μαζικής παράλληλης επεξεργασίας (MPP). Λειτουργεί εγγενώς στο πλαίσιο του Apache Hadoop. Το Impala σχεδιάζεται ως τμήμα του οικοσυστήματος Hadoop. Μοιράζεται το ίδιο εύκαμπτο σύστημα αρχείων (HDFS), τα μεταδεδομένα, τη διαχείριση πόρων και τα πλαίσια ασφαλείας, όπως χρησιμοποιούνται από άλλα συστατικά του οικοσυστήματος Hadoop. Το πιο σημαντικό σημείο είναι να σημειωθεί ότι η Impala είναι πολύ πιο γρήγορη στην επεξεργασία ερωτημάτων σε σύγκριση με την κυψέλη. Αλλά πρέπει επίσης να θυμόμαστε ότι το Impala προορίζεται για ερωτήματα / αναλύσεις σε ένα μικρό σύνολο δεδομένων και έχει σχεδιαστεί κυρίως ως εργαλείο ανάλυσης που λειτουργεί σε επεξεργασμένα και δομημένα δεδομένα.

Ο Hadoop είναι ένα σημαντικό θέμα στον τομέα της πληροφορικής, αλλά υπάρχουν και εκείνοι που είναι σκεπτικοί σχετικά με τη μακροπρόθεσμη βιωσιμότητά του. Διαβάστε περισσότερα στο What Is Hadoop; Μια Θεωρία Κινημάτων.