Γιατί η Spark είναι η μελλοντική πλατφόρμα δεδομένων

Βίντεο: The Third Industrial Revolution: A Radical New Sharing Economy

Περιεχόμενο

Τι είναι το Apache Spark;
Γιατί ο σπινθήρας είναι τόσο σημαντικός πέρα από τον Hadoop
Ποιες είναι οι σπινθήρες μοναδικά χαρακτηριστικά;
Γιατί ο σπινθήρας δεν αποτελεί αντικατάσταση για τον Hadoop
Τι σκέφτονται οι εταιρείες για το Spark και τον Hadoop
Πρακτικές εφαρμογές
συμπέρασμα

Πηγή: Snake3d / Dreamstime.com

Πάρε μακριά:

Το Apache Spark είναι ένα εργαλείο ανοιχτού κώδικα για την επεξεργασία μεγάλων δεδομένων που αναδύονται (και με κάποιο τρόπο ξεπερνάνε) τον Hadoop.

Ο Apache Hadoop αποτελεί το θεμέλιο για μεγάλες εφαρμογές δεδομένων εδώ και πολύ καιρό και θεωρείται η βασική πλατφόρμα δεδομένων για όλες τις προσφορές μεγάλων δεδομένων. Ωστόσο, η βάση δεδομένων και ο υπολογισμός στη μνήμη κερδίζουν δημοτικότητα λόγω της ταχύτερης απόδοσης και των γρήγορων αποτελεσμάτων. Το Apache Spark είναι ένα νέο πλαίσιο που χρησιμοποιεί τις δυνατότητες μνήμης για γρήγορη επεξεργασία (σχεδόν 100 φορές πιο γρήγορα από την Hadoop). Έτσι, το προϊόν Spark χρησιμοποιείται όλο και περισσότερο σε έναν κόσμο με μεγάλα δεδομένα και κυρίως για ταχύτερη επεξεργασία.

Τι είναι το Apache Spark;

Το Apache Spark είναι ένα πλαίσιο ανοικτού κώδικα για την επεξεργασία τεράστιων όγκων δεδομένων (μεγάλα δεδομένα) με ταχύτητα και απλότητα. Είναι κατάλληλο για εφαρμογές ανάλυσης βασισμένες σε μεγάλα δεδομένα. Το Spark μπορεί να χρησιμοποιηθεί με περιβάλλον Hadoop, αυτόνομο ή στο σύννεφο. Αναπτύχθηκε στο Πανεπιστήμιο της Καλιφόρνιας και αργότερα προσφέρθηκε στο Apache Software Foundation. Έτσι, ανήκει στην κοινότητα ανοιχτού κώδικα και μπορεί να είναι πολύ οικονομικά αποδοτικό, γεγονός που επιτρέπει στους ερασιτέχνες προγραμματιστές να δουλεύουν με ευκολία. (Για να μάθετε περισσότερα σχετικά με την ανοικτή πηγή Hadoops, ανατρέξτε στην ενότητα Τι είναι η επίδραση της ανοικτής πηγής στο οικοσύστημα Apache Hadoop;)

Ο κύριος σκοπός του Spark είναι ότι προσφέρει προγραμματιστές με ένα πλαίσιο εφαρμογής που λειτουργεί γύρω από μια κεντρική δομή δεδομένων. Το Spark είναι επίσης εξαιρετικά ισχυρό και έχει την έμφυτη ικανότητα να επεξεργάζεται γρήγορα τεράστιες ποσότητες δεδομένων σε σύντομο χρονικό διάστημα, προσφέροντας έτσι εξαιρετικά καλές επιδόσεις.Αυτό το κάνει πολύ πιο γρήγορα από ό, τι λέγεται ότι είναι ο πιο κοντινό ανταγωνιστή του, Hadoop.

Γιατί ο σπινθήρας είναι τόσο σημαντικός πέρα από τον Hadoop

Το Apache Spark ήταν ανέκαθεν γνωστό για το ατού του Hadoop σε πολλά χαρακτηριστικά, τα οποία πιθανώς εξηγούν γιατί παραμένει τόσο σημαντικό. Ένας από τους βασικούς λόγους για αυτό θα ήταν να εξετάσει την ταχύτητα επεξεργασίας του. Στην πραγματικότητα, όπως προαναφέρθηκε, η Spark προσφέρει περίπου 100 φορές ταχύτερη επεξεργασία από την MapReduce του Hadoop για το ίδιο ποσό δεδομένων. Χρησιμοποιεί επίσης σημαντικά λιγότερους πόρους σε σύγκριση με τον Hadoop, καθιστώντας έτσι οικονομικά αποδοτικό.

Μια άλλη βασική πτυχή όπου το Spark έχει το πάνω χέρι είναι από πλευράς συμβατότητας με έναν διαχειριστή πόρων. Το Apache Spark είναι γνωστό ότι τρέχει με τον Hadoop, όπως και το MapReduce, ωστόσο, το τελευταίο είναι προς το παρόν μόνο συμβατό με τον Hadoop. Όσο για το Apache Spark, ωστόσο, μπορεί να συνεργαστεί με άλλους διαχειριστές πόρων όπως το YARN ή το Mesos. Οι επιστήμονες δεδομένων συχνά το αναφέρουν ως μία από τις μεγαλύτερες περιοχές όπου ο Spark ξεπερνά πραγματικά τον Hadoop.

Όταν πρόκειται για ευκολία στη χρήση, το Spark συμβαίνει και πάλι πολύ καλύτερα από τον Hadoop. Το Spark διαθέτει API για πολλές γλώσσες όπως η Scala, η Java και η Python, εκτός από την εμφάνιση των Spark SQL. Είναι σχετικά απλό να γράφετε λειτουργίες που ορίζονται από το χρήστη. Συμβαίνει επίσης να διαθέτει μια διαδραστική λειτουργία για την εκτέλεση εντολών. Ο Hadoop, από την άλλη πλευρά, είναι γραμμένος σε Java και έχει κερδίσει τη φήμη ότι είναι αρκετά δύσκολο να προγραμματίσει, αν και έχει εργαλεία που βοηθούν στη διαδικασία. (Για να μάθετε περισσότερα σχετικά με το Spark, ανατρέξτε στο θέμα Πώς Apache Spark βοηθά στην ταχεία ανάπτυξη εφαρμογών.)

Ποιες είναι οι σπινθήρες μοναδικά χαρακτηριστικά;

Το Apache Spark διαθέτει μερικά μοναδικά χαρακτηριστικά που το διακρίνουν πραγματικά από πολλούς από τους ανταγωνιστές του στην επεξεργασία δεδομένων. Ορισμένα από αυτά έχουν περιγραφεί εν συντομία παρακάτω.

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Ο Spark έχει επίσης μια εγγενή ικανότητα να φορτώνει τις απαραίτητες πληροφορίες στον πυρήνα του με τη βοήθεια των αλγορίθμων μηχανικής μάθησης. Αυτό επιτρέπει να είναι εξαιρετικά γρήγορη.

Το Apache Spark έρχεται με τη δυνατότητα επεξεργασίας γραφημάτων ή ακόμα και πληροφοριών που έχουν γραφική παράσταση, επιτρέποντας έτσι την εύκολη ανάλυση με μεγάλη ακρίβεια.

Το Apache Spark έχει το MLib, το οποίο είναι ένα πλαίσιο που προορίζεται για τη δομημένη μηχανική μάθηση. Είναι επίσης κατά κύριο λόγο ταχύτερη στην εφαρμογή από την Hadoop. Το MLib είναι επίσης ικανό να επιλύσει αρκετά προβλήματα, όπως στατιστική ανάγνωση, δειγματοληψία δεδομένων και δοκιμασία παραδοχών, για να αναφέρουμε μερικά.

Γιατί ο σπινθήρας δεν αποτελεί αντικατάσταση για τον Hadoop

Παρά το γεγονός ότι το Spark έχει πολλές πτυχές όπου αμαρτάρει Hadoop χέρια κάτω, υπάρχουν ακόμα αρκετοί λόγοι για τους οποίους δεν μπορεί πραγματικά να αντικαταστήσει Hadoop μόλις ακόμα.

Πρώτα απ 'όλα, ο Hadoop προσφέρει απλώς ένα μεγαλύτερο σύνολο εργαλείων σε σύγκριση με το Spark. Έχει επίσης πολλές πρακτικές που αναγνωρίζονται στη βιομηχανία. Το Apache Spark όμως, είναι ακόμα σχετικά νέος στον τομέα και θα χρειαστεί λίγος χρόνος για να φτάσει στο ίδιο επίπεδο με τον Hadoop.

Το MapReduce της Hadoop έχει θέσει επίσης ορισμένα βιομηχανικά πρότυπα όσον αφορά τη λειτουργία πλήρους λειτουργίας. Από την άλλη πλευρά, εξακολουθεί να πιστεύεται ότι το Spark δεν είναι εντελώς έτοιμο να λειτουργήσει με απόλυτη αξιοπιστία. Συχνά, οι οργανώσεις που χρησιμοποιούν το Spark πρέπει να το συντονίσουν, ώστε να είναι έτοιμοι για τις απαιτήσεις τους.

Το MapReduce του Hadoop, έχοντας παραμείνει για μεγαλύτερο χρονικό διάστημα από το Spark, είναι επίσης πιο εύκολο να διαμορφωθεί. Αυτό δεν συμβαίνει στην περίπτωση του Spark, δεδομένου ότι προσφέρει μια εντελώς νέα πλατφόρμα που δεν έχει δοκιμάσει πραγματικά ακατέργαστα μπαλώματα.

Τι σκέφτονται οι εταιρείες για το Spark και τον Hadoop

Πολλές εταιρείες έχουν ήδη αρχίσει να χρησιμοποιούν το Spark για τις ανάγκες επεξεργασίας δεδομένων τους, αλλά η ιστορία δεν τελειώνει εκεί. Έχει σίγουρα πολλές ισχυρές πτυχές που την καθιστούν μια εκπληκτική πλατφόρμα επεξεργασίας δεδομένων. Ωστόσο, έρχεται επίσης με το δίκαιο μερίδιο των μειονεκτημάτων που χρειάζονται τον καθορισμό.

Είναι μια βιομηχανική ιδέα ότι το Apache Spark είναι εδώ για να μείνει και είναι πιθανότατα το μέλλον για τις ανάγκες επεξεργασίας δεδομένων. Ωστόσο, εξακολουθεί να χρειάζεται να υποβληθεί σε πολλές εργασίες ανάπτυξης και στίλβωσης που θα της επιτρέψουν να αξιοποιήσει πραγματικά το δυναμικό της.

Πρακτικές εφαρμογές

Το Apache Spark έχει και εξακολουθεί να απασχολείται από πολλές εταιρείες που ταιριάζουν στις απαιτήσεις επεξεργασίας δεδομένων. Μια από τις πιο επιτυχημένες υλοποιήσεις πραγματοποιήθηκε από την Shopify, η οποία επιδίωκε να επιλέξει τα κατάλληλα καταστήματα για συνεργασίες. Ωστόσο, η αποθήκη δεδομένων της κράτησε το χρονοδιάγραμμα όταν θέλησε να καταλάβει τα προϊόντα που πωλούσαν οι πελάτες της. Με τη βοήθεια του Spark, η εταιρεία κατάφερε να επεξεργαστεί αρκετά εκατομμύρια αρχεία δεδομένων και στη συνέχεια να επεξεργαστεί 67 εκατομμύρια δίσκους σε λίγα λεπτά. Καθορίστηκε επίσης ποια καταστήματα ήταν επιλέξιμα.

Χρησιμοποιώντας το Spark, το Pinterest είναι σε θέση να εντοπίσει τις αναπτυσσόμενες τάσεις και στη συνέχεια το χρησιμοποιεί για να κατανοήσει τη συμπεριφορά των χρηστών. Αυτό επιτρέπει περαιτέρω την καλύτερη αξία στην κοινότητα Pinterest. Το Spark χρησιμοποιείται επίσης από το TripAdvisor, έναν από τους μεγαλύτερους ταξιδιωτικούς ιστότοπους στον κόσμο, για να επιταχύνει τις συστάσεις του στους επισκέπτες.

συμπέρασμα

Δεν μπορεί κανείς να αμφιβάλει για την ανδρεία του Apache Spark, ακόμη και σήμερα, και το μοναδικό σύνολο χαρακτηριστικών που φέρνει στο τραπέζι. Η ισχύς και η ταχύτητα επεξεργασίας της, μαζί με τη συμβατότητά της, θέτει τον τόνο για πολλά πράγματα που έρχονται στο μέλλον. Ωστόσο, έχει επίσης αρκετούς τομείς στους οποίους πρέπει να βελτιωθεί, προκειμένου να αξιοποιήσει πλήρως τις δυνατότητές της. Παρόλο που ο Hadoop εξακολουθεί να είναι ο κυβερνήτης, ο Apache Spark έχει ένα λαμπρό μέλλον μπροστά και θεωρείται από πολλούς ως η μελλοντική πλατφόρμα για τις απαιτήσεις επεξεργασίας δεδομένων.