Kudu: Μια αλλαγή του παιχνιδιού στο οικοσύστημα Hadoop;

Περιεχόμενο

Τι είναι το Kudu;
Τι είναι η τρέχουσα κατάσταση Kudus;
Πώς μπορεί το συμπλήρωμα Kudu HDFS / HBase;
Χαρακτηριστικά του πλαισίου Kudu
Πώς μπορεί το Kudu να αλλάξει το οικοσύστημα Hadoop;
No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας
συμπέρασμα

Πηγή: Agsandrew / Dreamstime.com

Πάρε μακριά:

Το Kudu είναι ένα έργο ανοιχτού κώδικα που διευκολύνει την αποτελεσματικότερη διαχείριση της αποθήκευσης.

Το Kudu είναι ένα νέο έργο ανοιχτού κώδικα που παρέχει ενημερωμένη αποθήκευση. Είναι συμπλήρωμα του HDFS / HBase, το οποίο παρέχει διαδοχική αποθήκευση μόνο για ανάγνωση. Το Kudu είναι πιο κατάλληλο για γρήγορη ανάλυση των δεδομένων, τα οποία είναι σήμερα η ζήτηση των επιχειρήσεων. Έτσι, το Kudu δεν είναι απλώς ένα άλλο έργο οικολογικού συστήματος Hadoop, αλλά μάλλον έχει τη δυνατότητα να αλλάξει την αγορά. (Για περισσότερες πληροφορίες σχετικά με τον Hadoop, ανατρέξτε στους 10 πιο σημαντικούς όρους του Hadoop που πρέπει να ξέρετε και να καταλάβετε.)

Τι είναι το Kudu;

Το Kudu είναι ένα ειδικό είδος συστήματος αποθήκευσης που αποθηκεύει δομημένα δεδομένα με τη μορφή πινάκων. Κάθε πίνακας έχει τους αριθμούς των προκαθορισμένων στηλών. Κάθε ένας από αυτούς έχει ένα πρωτεύον κλειδί που είναι στην πραγματικότητα μια ομάδα από μία ή περισσότερες στήλες αυτού του πίνακα. Αυτό το πρωτεύον κλειδί γίνεται για να προσθέσετε έναν περιορισμό και να ασφαλίσετε τις στήλες και επίσης να λειτουργήσετε ως ευρετήριο, ο οποίος επιτρέπει την εύκολη ενημέρωση και διαγραφή. Αυτοί οι πίνακες είναι μια σειρά υποσυνόλων δεδομένων που ονομάζονται δισκία.

Τι είναι η τρέχουσα κατάσταση Kudus;

Το Kudu είναι πραγματικά καλά ανεπτυγμένο και έχει ήδη συνδυαστεί με πολλά χαρακτηριστικά. Ωστόσο, θα χρειαστεί ακόμα κάποιο γυάλισμα, το οποίο μπορεί να γίνει πιο εύκολα αν οι χρήστες προτείνουν και κάνουν κάποιες αλλαγές.

Το Kudu είναι εντελώς ανοιχτό και διαθέτει το Apache Software License 2.0. Προορίζεται επίσης να υποβληθεί στο Apache, έτσι ώστε να μπορεί να αναπτυχθεί ως έργο Apache Incubator. Αυτό θα επιτρέψει στην ανάπτυξή της να προχωρήσει ακόμη πιο γρήγορα και να αυξήσει περαιτέρω το ακροατήριό της. Μετά από ένα ορισμένο χρονικό διάστημα, η ανάπτυξη του Kudu θα γίνει δημόσια και με διαφάνεια. Πολλές εταιρείες όπως η AtScale, η Xiaomi, η Intel και η Splice Machine έχουν ενώσει μαζί για να συνεισφέρουν στην ανάπτυξη του Kudu. Το Kudu έχει επίσης μια μεγάλη κοινότητα, όπου ένας μεγάλος αριθμός ακροατών παρέχει ήδη τις προτάσεις και τις συνεισφορές τους. Έτσι, είναι οι άνθρωποι που οδηγούν την ανάπτυξη του Kudu προς τα εμπρός.

Πώς μπορεί το συμπλήρωμα Kudu HDFS / HBase;

Το Kudu δεν προορίζεται να αντικαταστήσει το HDFS / HBase. Είναι στην πραγματικότητα σχεδιασμένο να υποστηρίζει και τα δύο HBase και HFDS και να τρέχει μαζί τους για να αυξήσουν τα χαρακτηριστικά τους. Αυτό οφείλεται στο γεγονός ότι τα HBase και HDFS εξακολουθούν να έχουν πολλά χαρακτηριστικά που τους καθιστούν πιο ισχυρό από το Kudu σε ορισμένες μηχανές. Σε γενικές γραμμές, τα μηχανήματα αυτά θα έχουν περισσότερα οφέλη από αυτά τα συστήματα.

Χαρακτηριστικά του πλαισίου Kudu

Τα βασικά χαρακτηριστικά του πλαισίου Kudu είναι τα εξής:

Εξαιρετικά γρήγορες ανιχνεύσεις των στηλών του τραπεζιού - Οι καλύτερες μορφές δεδομένων, όπως το Parquet και το ORCFile, χρειάζονται τις καλύτερες διαδικασίες σάρωσης, οι οποίες αντιμετωπίζονται απόλυτα από τον Kudu. Αυτές οι μορφές χρειάζονται γρήγορες ανιχνεύσεις οι οποίες μπορούν να εμφανιστούν μόνο όταν τα δεδομένα στήλης είναι σωστά κωδικοποιημένα.
Αξιοπιστία απόδοσης - Το πλαίσιο Kudu αυξάνει τη συνολική αξιοπιστία του Hadoop κλείνοντας πολλά από τα κενά και τα κενά που υπάρχουν στο Hadoop.
Η εύκολη ενσωμάτωση με το Hadoop - Kudu μπορεί εύκολα να ενσωματωθεί με την Hadoop και τα διάφορα εξαρτήματά της για μεγαλύτερη αποτελεσματικότητα.
Πλήρως ανοικτή πηγή - το Kudu είναι ένα σύστημα ανοιχτού κώδικα με την άδεια Apache 2.0. Έχει μια μεγάλη κοινότητα προγραμματιστών από διαφορετικές εταιρείες και περιβάλλοντα, οι οποίοι την ενημερώνουν τακτικά και παρέχουν προτάσεις για αλλαγές.

Πώς μπορεί το Kudu να αλλάξει το οικοσύστημα Hadoop;

Το Kudu κατασκευάστηκε για να ταιριάζει στο οικοσύστημα του Hadoop και να ενισχύει τα χαρακτηριστικά του. Μπορεί επίσης να ενσωματωθεί με μερικά βασικά στοιχεία του Hadoop όπως το MapReduce, το HBase και το HDFS. Οι εργασίες MapReduce μπορούν είτε να παρέχουν δεδομένα είτε να λαμβάνουν δεδομένα από τους πίνακες Kudu. Αυτά τα χαρακτηριστικά μπορούν να χρησιμοποιηθούν και στο Spark. Ένα ειδικό στρώμα κάνει ορισμένα στοιχεία Spark όπως το Spark SQL και το DataFrame προσιτά στον Kudu. Παρόλο που η Kudu δεν έχει αναπτυχθεί τόσο πολύ ώστε να αντικαταστήσει αυτά τα χαρακτηριστικά, εκτιμάται ότι μετά από μερικά χρόνια, θα αναπτυχθεί αρκετά για να το κάνει. Μέχρι τότε, η ολοκλήρωση μεταξύ του Hadoop και του Kudu είναι πολύ χρήσιμη και μπορεί να καλύψει τα μεγάλα κενά του οικοσυστήματος του Hadoop. (Για να μάθετε περισσότερα σχετικά με το Apache Spark, ανατρέξτε στο άρθρο Πώς Apache Spark βοηθά στην ταχεία ανάπτυξη εφαρμογών.)

Το Kudu μπορεί να εφαρμοστεί σε διάφορα μέρη. Μερικά παραδείγματα τέτοιων θέσεων δίνονται παρακάτω:

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Ροές εισόδου σε σχεδόν πραγματικό χρόνο - Σε χώρους όπου οι εισροές πρέπει να λαμβάνονται σύντομα, το Kudu μπορεί να κάνει μια αξιόλογη δουλειά. Ένα παράδειγμα τέτοιου χώρου είναι σε επιχειρήσεις, όπου μεγάλες ποσότητες δυναμικών δεδομένων πλημμυρίζουν από διαφορετικές πηγές και πρέπει να διατίθενται γρήγορα σε πραγματικό χρόνο.
Εφαρμογές χρονικής σειράς με ποικίλα πρότυπα πρόσβασης - Το Kudu είναι ιδανικό για εφαρμογές που βασίζονται σε χρονολογικές σειρές, διότι είναι πιο εύκολο να δημιουργηθούν πίνακες και να σαρωθούν με τη χρήση τους. Ένα παράδειγμα τέτοιας χρήσης είναι στα πολυκαταστήματα, όπου τα παλαιά δεδομένα πρέπει να βρεθούν γρήγορα και να υποστούν επεξεργασία για να προβλέψουν τη μελλοντική δημοτικότητα των προϊόντων.
Συστήματα παλαιού τύπου - Πολλές εταιρείες που λαμβάνουν δεδομένα από διάφορες πηγές και τα αποθηκεύουν σε διαφορετικούς σταθμούς εργασίας θα νιώσουν σαν στο σπίτι τους με τον Kudu. Το Kudu είναι εξαιρετικά γρήγορο και μπορεί να ενσωματωθεί αποτελεσματικά με την Impala για την επεξεργασία δεδομένων σε όλα τα μηχανήματα.
Προγνωστική μοντελοποίηση - Οι επιστήμονες δεδομένων που θέλουν μια καλή πλατφόρμα για μοντελοποίηση μπορούν να χρησιμοποιήσουν τον Kudu. Ο Kudu μπορεί να μάθει από κάθε σύνολο δεδομένων που τροφοδοτούνται σε αυτό. Ο επιστήμονας μπορεί να τρέξει και να επαναλειτουργήσει το μοντέλο επανειλημμένα για να δει τι συμβαίνει.

συμπέρασμα

Παρόλο που η Kudu βρίσκεται ακόμα σε στάδιο ανάπτυξης, έχει αρκετές δυνατότητες να είναι ένα καλό πρόσθετο για τα βασικά εξαρτήματα Hadoop όπως το HDFS και το HBase. Έχει αρκετές δυνατότητες να αλλάξει εντελώς το οικοσύστημα Hadoop γεμίζοντας όλα τα κενά και προσθέτοντας και άλλα χαρακτηριστικά. Είναι επίσης πολύ γρήγορο και ισχυρό και μπορεί να βοηθήσει στην γρήγορη ανάλυση και αποθήκευση μεγάλων πινάκων δεδομένων. Ωστόσο, εξακολουθεί να υπάρχει κάποια εργασία που πρέπει να γίνει για να χρησιμοποιηθεί αποτελεσματικότερα.