Το κλειδί για την ποιότητα των μεγάλων δεδομένων Analytics: Κατανόηση διαφορετικών - TechWise Episode 4 Transcript - Τεχνολογία

Περιεχόμενο

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Πηγή: Jakub Jirsak / Dreamstime.com

Πάρε μακριά:

Ο οικοδεσπότης Eric Kavanagh ασχολείται με την ανάλυση μεγάλων δεδομένων με εμπειρογνώμονες του κλάδου.

Eric: Κυρίες και κύριοι, είναι το τέλος του έτους 2014 - τουλάχιστον, σχεδόν. Είναι η τελευταία τηλεοπτική μας εκπομπή του έτους, λαοί! Καλώς ήλθατε στο TechWise! Ναι πράγματι! Το όνομά μου είναι ο Eric Kavanagh. Θα είμαι ο συντονιστής σας για ένα φοβερό webcast, λαοί. Είμαι πραγματικά, πραγματικά ενθουσιασμένος. Έχουμε δύο φοβερούς αναλυτές online και δύο μεγάλες εταιρείες - πραγματικούς καινοτόμους σε όλο αυτό το μεγάλο οικοσύστημα δεδομένων. Και πρόκειται να μιλάμε για το κλειδί για τα μεγάλα δεδομένα, το analytics είναι η κατανόηση της διαφοράς. Λοιπόν, ας προχωρήσουμε και να βουτήξουμε δεξιά, λαοί.

Έχουμε αρκετούς παρουσιαστές. Όπως μπορείτε να δείτε, υπάρχει η δική σας στην κορυφή. Ο Μάικ Φέργκουσον καλεί σε όλη τη διαδρομή από το Ηνωμένο Βασίλειο, όπου έπρεπε να αποκτήσει ειδικά προνόμια να παραμείνει στο κτίριο του γραφείου του με καθυστέρηση. Τόσο αργά είναι γι 'αυτόν. Έχουμε τον Δρ Robin Bloor, τον δικό μας Chief Analyst εδώ στο Bloor Group. Και θα έχουμε τον George Corugedo, Διευθύνοντα Σύμβουλο και Συνιδρυτή της RedPoint Global και τον Keith Renison, Senior Solutions Architect από το Ινστιτούτο SAS. Αυτές είναι φανταστικές εταιρείες, λαοί. Αυτές είναι εταιρείες που είναι πραγματικά καινοτόμες. Και πρόκειται να σκάψουμε σε κάποια από τα καλά πράγματα του τι συμβαίνει εκεί έξω τώρα σε ολόκληρο τον κόσμο των μεγάλων δεδομένων. Και ας το παραδεχτούμε, τα μικρά δεδομένα δεν έχουν εξαφανιστεί. Και για αυτό, επιτρέψτε μου να δώσω την περίληψη μου εδώ.

Έτσι, υπάρχει μια παλιά γαλλική έκφραση: "Όσο περισσότερα πράγματα αλλάζουν, τόσο περισσότερο παραμένουν τα ίδια." Και ας αντιμετωπίσουμε ορισμένα γεγονότα εδώ - μεγάλα δεδομένα δεν πρόκειται να λύσουν τα προβλήματα των μικρών δεδομένων. Τα εταιρικά μικρά δεδομένα εξακολουθούν να υπάρχουν εκεί. Είναι ακόμα παντού. Είναι το καύσιμο των λειτουργιών για τη σημερινή οικονομία της πληροφορίας. Και τα μεγάλα δεδομένα παρέχουν μια φιλοφρόνηση σε αυτά τα αποκαλούμενα μικρά εταιρικά δεδομένα, αλλά δεν υποκαθιστούν τα μικρά δεδομένα. Θα είναι ακόμα γύρω. Μου αρέσουν πολλά πράγματα σχετικά με τα μεγάλα δεδομένα, ειδικά τα πράγματα όπως τα δεδομένα που παράγονται από το μηχάνημα.

Και σήμερα, μάλλον θα μιλήσουμε λίγο για τα δεδομένα των κοινωνικών μέσων ενημέρωσης, τα οποία είναι επίσης πολύ ισχυρά πράγματα. Και αν σκεφτείτε, για παράδειγμα, πώς η κοινωνική έχει αλλάξει την επιχείρησή της, σκεφτείτε καλά για τρεις γρήγορες ιστοσελίδες εδώ:, LinkedIn και. Σκεφτείτε το γεγονός ότι πριν από πέντε χρόνια, κανείς δεν έκανε τέτοια πράγματα. είναι απόλυτη juggernaut αυτές τις μέρες. , φυσικά, είναι τεράστια. Είναι γοητευτικό. Και τότε, το LinkedIn είναι το de facto πρότυπο για την εταιρική δικτύωση και επικοινωνία. Αυτές οι τοποθεσίες είναι τεράστιες και, για να είναι σε θέση να αξιοποιήσουν τα δεδομένα που βρίσκονται σε αυτά, πρόκειται να αναβιώσει κάποιες λειτουργίες που αλλάζουν το παιχνίδι. Είναι πραγματικά πολύ καλό για πολλές οργανώσεις - τουλάχιστον για εκείνους που επωφελούνται από αυτό.

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Επομένως, η διακυβέρνηση - η διακυβέρνηση εξακολουθεί να έχει σημασία. Και πάλι, τα μεγάλα δεδομένα δεν εξουδετερώνουν την ανάγκη διακυβέρνησης. Πολύ ειλικρινά, υπάρχει μια εντελώς νέα ανάγκη να επικεντρωθούμε στον τρόπο με τον οποίο θα κυβερνήσουμε τον κόσμο των μεγάλων δεδομένων. Πώς βεβαιώνεστε ότι έχετε εφαρμόσει τις διαδικασίες και τις πολιτικές σας; ότι οι κατάλληλοι άνθρωποι έχουν πρόσβαση στα σωστά δεδομένα. ότι έχεις επαφές, έχεις εμπλακεί εδώ; Γνωρίζετε πραγματικά από πού προέρχονται τα δεδομένα, τι έχει συμβεί σε αυτό. Και όλα αυτά αλλάζουν.

Είμαι ειλικρινά πραγματικά εντυπωσιασμένος από κάποια από αυτά που έχω δει έξω εκεί σε ολόκληρο αυτόν τον καινούργιο κόσμο που αξιοποιεί το οικοσύστημα Hadoop, το οποίο, φυσικά, είναι πολύ περισσότερο από αποθήκευση όσον αφορά τη λειτουργικότητα. Hadoop είναι επίσης υπολογιστική μηχανή. Και η εταιρεία πρέπει να καταλάβει πώς να αξιοποιήσει αυτή την υπολογιστική ισχύ, ότι η δυνατότητα παράλληλης επεξεργασίας. Θα κάνουν πραγματικά, πραγματικά δροσερά πράγματα. Θα μάθουμε γι 'αυτό σήμερα.

Το άλλο πράγμα που πρέπει να αναφέρω, αυτό είναι κάτι που ο Δρ. Bloor μίλησε στο πρόσφατο παρελθόν, είναι ότι το κύμα καινοτομίας δεν έχει τελειώσει. Έτσι, έχουμε δει, φυσικά, μεγάλη προσοχή γύρω από τον Hadoop. Έχουμε δει εταιρείες όπως η Cloudera και η Hortonworks, ξέρετε, κάνοντας πραγματικά κάποια κύματα. Και αναπτύσσουν εταιρικές σχέσεις με τις εταιρείες που βρίσκονται στην κλήση σήμερα, ειλικρινά. Και αναπτύσσουν συνεργασίες με πολλούς λαούς. Αλλά το κύμα καινοτομίας δεν έχει τελειώσει. Υπάρχουν περισσότερα έργα που ξεκινούν από το Ίδρυμα Apache και αλλάζουν όχι μόνο το τελικό σημείο, αν θέλετε - τις εφαρμογές που χρησιμοποιούν οι άνθρωποι - αλλά και η ίδια η υποδομή.

Έτσι, όλη αυτή η ανάπτυξη του YARN - ακόμα ένας διαπραγματευτής πόρων - είναι πραγματικά σαν ένα λειτουργικό σύστημα για μεγάλα δεδομένα. Και είναι μια μεγάλη, μεγάλη υπόθεση. Έτσι, θα μάθουμε πώς αλλάζει και τα πράγματα. Έτσι, μόνο μερικά κομμάτια προφανών συμβουλών εδώ, να είστε δύσπιστοι για τις μακροχρόνιες συμβάσεις που προχωρούν, ξέρετε, πέντε, δεκαετείς συμβάσεις πρόκειται να είναι το κύμα, το μονοπάτι που μου φαίνεται. Θα θελήσετε να αποφύγετε το κλείδωμα με κάθε κόστος. Θα μάθουμε για όλα αυτά σήμερα.

Έτσι, ο πρώτος αναλυτής μας μιλώντας σήμερα - ο πρώτος ομιλητής μας για όλο το πρόγραμμα είναι ο Mike Ferguson, καλώντας από το Ηνωμένο Βασίλειο. Με αυτό, θα σας παραδώσω τα κλειδιά, Mike, και θα σας αφήσω να το πάρετε μακριά. Μάικ Φέργκουσον, το πάτωμα είναι δικό σου.

Μάικ, εσύ εκεί; Ίσως να είστε σίγαση. Δεν τον ακούω. Μπορεί να χρειαστεί να τον καλέσουμε πίσω. Και θα πηδήξουμε ακριβώς μέχρι τις διαφάνειες του Robin Bloor. Ρόμπιν, θα βγάλω τάξη στον φτωχό Μάικ Φέργκουσον εδώ. Θα πάω για ένα δευτερόλεπτο.

Είστε εσείς, Μάικ; Μπορείτε να μας ακούσετε? Μπα. Νομίζω ότι θα πρέπει να προχωρήσουμε και να πάμε πρώτα με τον Robin. Έτσι, κρατήστε ένα δευτερόλεπτο, λαούς. Θα τραβήξω κάποιες συνδέσεις με τις διαφάνειες εδώ σε μερικά λεπτά. Με αυτό, επιτρέψτε μου να παραδώσω τα κλειδιά στον Robin Bloor. Ρόμπιν, μπορείς να πάς πρώτα αντί του Μάικ, και θα καλέσω τον Μάικ μέσα σε ένα δευτερόλεπτο.

Ρομπίν: Εντάξει.

Eric: Κρατήστε, Ρομπ. Επιτρέψτε μου να προχωρήσω και να πάρετε την ολισθηρή σας επάνω εδώ, Rob. Θα χρειαστεί ένα δευτερόλεπτο.

Ρομπίν: Εντάξει.

Eric: Ναι. Μπορείτε να μιλήσετε για το τι έχουμε να κάνουμε, όμως εδώ από την άποψη της διακυβέρνησης. Ξέρω ότι πρόκειται να μιλήσετε για διακυβέρνηση. Αυτό συνήθως θεωρείται σχετικά με τα μικρά εταιρικά δεδομένα. Τώρα λοιπόν, έχω την πλάκα, Ρόμπιν. Μην μετακινήσετε τίποτα. Και εδώ πηγαίνετε. Το πάτωμα είναι δικό σου. Πάρε το μακριά.

Ρομπίν: Εντάξει. Ναι. Θέλω να πω, καλά, είχαμε προετοιμαστεί, ο Mike θα μιλήσει για την αναλυτική πλευρά και θα μιλήσω για την πλευρά της διακυβέρνησης. Σε κάποιο βαθμό, η διακυβέρνηση ακολουθεί τα αναλυτικά στοιχεία με μια έννοια ότι είναι ένας λόγος που κάνετε τα μεγάλα δεδομένα και ο λόγος που συγκεντρώνετε όλο το λογισμικό για να κάνετε τα αναλυτικά είναι, εκεί είναι η αξία.

Υπάρχει ένα πρόβλημα. Και το ζήτημα είναι ότι, τα στοιχεία πρέπει να αμφισβητηθούν. Τα δεδομένα πρέπει να ταξινομηθούν. Τα δεδομένα πρέπει να συγκεντρωθούν και να διαχειριστούν με τρόπο που να επιτρέπει την ανάλυση με πλήρη αυτοπεποίθηση - υποθέτω, είναι η λέξη. Έτσι, σκέφτηκα ότι θα μιλήσω ήταν η πλευρά της διακυβέρνησης της εξίσωσης. Υποθέτω, το πράγμα που πρέπει να πούμε είναι ότι γνωρίζετε ότι η διακυβέρνηση ήταν ήδη ένα ζήτημα. Η διακυβέρνηση ήταν ήδη ένα ζήτημα και αρχίζει να γίνεται θέμα σε ολόκληρο το παιχνίδι αποθήκης δεδομένων.

Αυτό που συνέβη πραγματικά είναι ότι έχει μετατραπεί σε ένα πολύ μεγαλύτερο θέμα. Και ο λόγος που μετατράπηκε σε ένα πολύ μεγαλύτερο θέμα καθώς και περισσότερα δεδομένα, αλλά εννοώ, είναι οι λόγοι, πραγματικά. Ο αριθμός των πηγών δεδομένων έχει επεκταθεί δραματικά. Προηγουμένως, οι πηγές δεδομένων που διαθέτουμε καθορίζονταν σε μεγάλο βαθμό από ό, τι τροφοδοτούσε την αποθήκη δεδομένων. Η αποθήκη δεδομένων κανονικά θα τροφοδοτείται από τα συστήματα RTP. Είναι δυνατό λίγο εξωτερικά δεδομένα, όχι πολύ.

Τώρα, έχουμε πάει σε έναν κόσμο όπου, γνωρίζετε, μια αγορά δεδομένων εμφανίζεται τώρα, και επομένως, θα υπάρξει διαπραγμάτευση δεδομένων. Έχετε ήδη φορτία και φορτία διαφορετικών πηγών δεδομένων που μπορείτε να μεταφέρετε στον οργανισμό. Έχουμε τα δεδομένα των κοινωνικών μέσων μαζικής ενημέρωσης, τα οποία τα πήραμε, τα βγάζουμε από μόνα τους, για να μιλήσουμε. Θέλω να πω, ένα άφθονο μέρος της, η αξία στις ιστοσελίδες κοινωνικών μέσων ενημέρωσης είναι στην πραγματικότητα οι πληροφορίες που συγκεντρώνουν και ως εκ τούτου μπορούν να διατεθούν στους ανθρώπους.

Έχουμε επίσης την ανακάλυψη, ξέρετε, είναι σαν να υπήρχαν ήδη. Είχαμε ήδη αυτά τα αρχεία καταγραφής, ξέρετε, στην εμφάνιση του Splunk. Και σύντομα, έγινε φανερό ότι υπάρχει αξία σε ένα αρχείο καταγραφής. Έτσι, υπήρχαν δεδομένα εντός της οργάνωσης τα οποία μπορούσαμε να ονομάσουμε νέες πηγές δεδομένων καθώς και εξωτερικές πηγές. Έτσι, αυτό είναι ένα πράγμα. Και αυτό πραγματικά σημαίνει ότι, όποιοι και αν είναι οι κανόνες της διαχείρισης των δεδομένων που είχαμε εφαρμόσει πριν, θα πρέπει να είναι, με τον ένα ή τον άλλο τρόπο εκτεταμένο, και θα πρέπει να συνεχίσουν να πρέπει να διευρυνθούν ώστε να κυβερνούν πραγματικά δεδομένα. Αλλά τώρα αρχίζουμε να συναρμολογούμε με τον ένα ή τον άλλο τρόπο.

Και πηγαίνουμε κάτω από αυτή τη λίστα έχουμε streaming και την ταχύτητα άφιξης των δεδομένων. Ένας από τους λόγους που πιστεύω ότι η δημοτικότητα του Hadoop είναι ότι μπορεί να χρησιμοποιηθεί αρκετά για να πιάσει πολλά δεδομένα. Μπορεί επίσης να καταναλώνει ταχύτητα δεδομένων, ότι αν δεν χρειάζεται να το χρησιμοποιήσετε αμέσως, είναι ένα συμπαθητικό παράλληλο, τεράστιο παράλληλο περιβάλλον. Αλλά έχετε επίσης το γεγονός ότι συμβαίνει τώρα ένα δίκαιο ποσό ροής αναλυτικών στοιχείων. Ήταν απλώς ο τραπεζικός τομέας που ενδιαφέρεται για ροή εφαρμογών, αλλά τώρα έχει πάει κάπως παγκόσμιο. Και όλοι εξετάζουν εφαρμογές streaming με τον ένα ή τον άλλο τρόπο, ένα πιθανό μέσο για να αντλήσει αξία από τα δεδομένα και να κάνει αναλυτικά στοιχεία για την οργάνωση.

Έχουμε τα μη δομημένα δεδομένα. Το στατιστικό στοιχείο, συνήθως μέρος του μόνο 10% των δεδομένων του κόσμου ήταν σε σχεσιακές βάσεις δεδομένων. Τώρα, ένας από τους κύριους λόγους για αυτό ήταν κυρίως ότι ήταν πραγματικά αδόμητο, και ήταν - ένα μεγάλο μέρος της ήταν εκεί έξω στον Ιστό, αλλά λίγο πολύ σπρώχτηκε για διάφορους ιστοτόπους. Αυτά τα δεδομένα αποδείχτηκαν επίσης αναλύσιμα, επίσης χρήσιμα. Και με την εμφάνιση της τεχνολογίας Symantec, η οποία βαθμιαία εισέρχεται στην κατάσταση, γίνεται όλο και περισσότερο.Έτσι, υπάρχει η ανάγκη να συγκεντρωθούν πραγματικά και να διαχειριστούν μη δομημένα δεδομένα, και αυτό σημαίνει ότι είναι πολύ μεγαλύτερο από ό, τι πριν. Έχουμε ένα κοινωνικό δεδομένο που ανέφερα ήδη, αλλά το θέμα γι 'αυτό, το κύριο σημείο γι' αυτό, είναι ότι πιθανότατα χρειάζεται καθαρισμό.

Έχουμε δεδομένα του Internet of Things. Αυτό είναι ένα είδος διαφορετικής κατάστασης. Είναι πιθανό να είναι τόσο μεγάλο μέρος, αλλά πολλά από αυτά θα πρέπει να παραμείνουν διανεμημένα κάπου κοντά στον τόπο που τρέχει. Αλλά θα θέλετε επίσης, με τον ένα ή τον άλλο τρόπο, να το τραβήξετε για να κάνετε τα αναλυτικά μέσα στην οργάνωση στα δεδομένα. Έτσι, αυτό έχει προστεθεί ακόμα ένας παράγοντας. Και αυτά τα δεδομένα θα δομηθούν με τον διαφορετικό τρόπο, διότι πιθανότατα - θα είναι πιθανώς μορφοποιημένα σε JSON ή XML, έτσι ώστε να δηλώνεται. Και όχι μόνο, με τον ένα ή τον άλλο τρόπο, ότι πραγματικά τραβάμε δεδομένα και μπορούμε να κάνουμε ένα είδος σχήματος για να διαβάσουμε σε αυτό το συγκεκριμένο κομμάτι δεδομένων.

Έχουμε το θέμα της προέλευσης, και αυτό είναι ένα ζήτημα αναλυτικών στοιχείων. Τα αποτελέσματα οποιασδήποτε ανάλυσης που κάνετε δεδομένα δεν μπορούν πραγματικά να είναι - αν σας αρέσει - εγκρίνονται, θεωρούνται έγκυρα, εκτός αν γνωρίζετε την προέλευση των δεδομένων. Αυτό είναι απλώς επαγγελματισμός όσον αφορά τη δραστηριότητα των επιστημόνων δεδομένων. Αλλά γνωρίζετε ότι, για να έχουμε προέλευση δεδομένων, αυτό σημαίνει ότι πραγματικά πρέπει να κυβερνάμε τα δεδομένα και να τηρούμε μια σημείωση για τη γενεαλογία.

Έχουμε το θέμα της εξουσίας και των παραλλαγών του υπολογιστή και ό, τι κάνει είναι να γίνουν ταχύτερα τα πάντα. Το πρόβλημα είναι ότι προφανώς, ορισμένες διαδικασίες που έχουμε στη διάθεσή μας μπορεί να είναι πολύ αργές για οτιδήποτε άλλο. Έτσι, υπάρχουν πιθανές αναντιστοιχίες όσον αφορά την ταχύτητα.

Έχουμε την έλευση της μηχανικής μάθησης. Η εκμάθηση μηχανών έχει ως αποτέλεσμα, πράγματι, να κάνει τα αναλυτικά στοιχεία ένα διαφορετικό παιχνίδι από ό, τι πριν. Αλλά μπορείτε πραγματικά να το χρησιμοποιήσετε μόνο αν έχετε την εξουσία.

Έχουμε πάρει το γεγονός των νέων αναλυτικών φόρτων εργασίας. Έχουμε έναν παράλληλο κόσμο και ορισμένοι αναλυτικοί αλγόριθμοι πρέπει να εκτελούνται παράλληλα για μέγιστο αποτέλεσμα. Και ως εκ τούτου το πρόβλημα στην πραγματικότητα είναι το πώς πραγματικά, με τον ένα ή τον άλλο τρόπο, πιέζετε τα δεδομένα γύρω, κάνετε τα δεδομένα εάν είναι διαθέσιμα. Και όπου εκτελείτε πραγματικά τα αναλυτικά φόρτου εργασίας, επειδή μπορεί να το κάνετε αυτό μέσα σε βάση δεδομένων. Έτσι, μπορεί να το κάνετε σε αναλυτικές εφαρμογές.

Έτσι, υπάρχει μια ολόκληρη σειρά προκλήσεων διακυβέρνησης. Αυτό που κάναμε φέτος - η έρευνα που κάναμε φέτος ήταν πραγματικά γύρω από την μεγάλη αρχιτεκτονική δεδομένων. Και όταν προσπαθούμε πραγματικά να το γενικεύσουμε, το συμπέρασμα στο οποίο καταλήξαμε - το διάγραμμα που καταλήξαμε φαινόταν πολύ σαν αυτό.

Δεν πρόκειται να πάω σε αυτό, ειδικά καθώς ο Mike πρόκειται να κάνει ένα δίκαιο ποσό για την αρχιτεκτονική δεδομένων για τα αναλυτικά. Αλλά αυτό που πραγματικά μου αρέσει στους ανθρώπους να επικεντρωθεί απλώς είναι αυτή η περιοχή κάτω όπου είμαστε, με τον ένα ή τον άλλο τρόπο, τη συγκέντρωση δεδομένων. Έχουμε κάτι στο οποίο θα ήθελα να αναφερθώ είναι το διυλιστήριο δεδομένων ή ο κόμβος επεξεργασίας δεδομένων. Και εκεί γίνεται η διακυβέρνηση. ¶Έτσι, ξέρετε, αν κάπου εστιάσουμε, μοιάζει με αυτό. Ξέρεις, τροφοδοτείται με δεδομένα από εσωτερικές και εξωτερικές πηγές. Ο κόμβος θα πρέπει, θεωρητικά, να λαμβάνει όλα τα δεδομένα που παράγονται. Θα πρέπει είτε να μεταδίδεται σε ροή και να διαχειρίζεται καθώς μεταδίδεται σε ροή αν χρειαστεί να κάνετε αναλύσεις και δεδομένα συνεχούς ροής και, στη συνέχεια, να περάσετε στο διανομέα. Ή αλλιώς, όλα έρχονται στο κόμβο. Και υπάρχουν πολλά πράγματα που συμβαίνουν - που συμβαίνουν στο κόμβο. Και δεν μπορείτε να έχετε ένα συγκεκριμένο ποσό αναλυτικών στοιχείων και SQL που συμβαίνει στο διανομέα. Αλλά έχετε επίσης την ανάγκη για εικονικοποίηση δεδομένων σε κάθε κελί για να ωθήσετε δεδομένα σε άλλους τομείς. Αλλά προτού συμβεί κάτι τέτοιο, χρειάζεστε πραγματικά, με τον ένα ή τον άλλο τρόπο, να κάνετε το εξευγενισμό της προετοιμασίας των δεδομένων. Μπορείτε να το ονομάσετε προετοιμασία δεδομένων. Είναι πολύ μεγαλύτερο από αυτό. Αυτά είναι τα πράγματα που πιστεύω ότι περιλαμβάνει.

Έχουμε τη διαχείριση του συστήματος και τη διαχείριση των υπηρεσιών, κατά κάποιο τρόπο, ότι αυτό είναι το μεγαλύτερο μέρος του στρώματος δεδομένων και στη συνέχεια πρέπει να εφαρμόσουμε όλα τα συστήματα που διαχειρίζονται την προσπάθεια διαχείρισης λειτουργικού συστήματος που παραδοσιακά έχουμε κάνει σε σχεδόν όλα τα λειτουργικά συστήματα. Πρέπει όμως με τον ένα ή τον άλλο τρόπο να παρακολουθούμε άλλα πράγματα που συμβαίνουν για να βεβαιωθούμε ότι πληρούνται αυτά τα διάφορα επίπεδα υπηρεσιών, επειδή πρέπει να καθοριστούν επίπεδα εξυπηρέτησης ή οποιοδήποτε είδος αναλύσεων ως ενέργεια ή δεδομένα BI ενεργώντας.

Χρειαζόμαστε παρακολούθηση και διαχείριση των επιδόσεων. Εάν κάτι άλλο, χρειαζόμαστε αυτό προκειμένου να γνωρίζουμε ποιοι επιπλέον πόροι πληροφορικής μπορεί να χρειαστεί να διαθέσουμε σε διάφορα χρονικά σημεία. Αλλά επίσης, ένα φοβερό μέρος του φόρτου εργασίας είναι εδώ στην πραγματικότητα, αρκετά περίπλοκο και ανταγωνίζονται μεταξύ τους για πόρους. Υπάρχει κάτι πολύ εξελιγμένο που πρέπει να γίνει σε αυτόν τον τομέα.

Έχουμε τώρα τον κύκλο ζωής δεδομένων με τρόπο που ποτέ δεν το είχαμε πριν. Η διαπραγμάτευση εδώ είναι πραγματικά πάνω και πέρα από οτιδήποτε άλλο, ότι δεν μαζέψαμε δεδομένα και δεν τα χάσαμε πριν. Έχουμε την τάση να συγκεντρώνουμε τα δεδομένα που χρειαζόμασταν και πιθανόν να τα διατηρήσαμε και στη συνέχεια να τα αρχειοθετήσουμε. Αλλά ένα πάρα πολύ από αυτό που θα κάνουμε από εδώ και στο εξής είναι η διερεύνηση δεδομένων. Και αν δεν θέλετε τα δεδομένα, ας το θάψουμε. Επομένως, οι κύκλοι ζωής των δεδομένων είναι διαφορετικοί ανάλογα με την κατάσταση, αλλά θα είναι επίσης μια πολύ μεγαλύτερη συνάθροιση δεδομένων. Ως εκ τούτου, ξέρετε, γνωρίζοντας πού προέκυψε ένα σύνολο από το τι ... ποια είναι η πηγή της συσσωμάτωσης και ούτω καθεξής και ούτω καθεξής. Όλα αυτά είναι απαραίτητα.

Η καταγωγή των δεδομένων φυσικά προσδίδει. Χωρίς αυτό, πρέπει να γνωρίζετε τα προβλήματα, έτσι τα δεδομένα ... Πρέπει να ξέρουμε ότι τα δεδομένα είναι έγκυρα, αλλά με πόσο αξιόπιστο είναι στην πραγματικότητα.

Έχουμε επίσης χαρτογράφηση δεδομένων, επειδή πολλά από τα δεδομένα πρόκειται να είναι, με τον ένα ή τον άλλο τρόπο. Και αυτό είναι, αν θέλετε, αυτό σχετίζεται σε κάποιο βαθμό στο MDM. Είναι απλά ότι είναι πολύ πιο περίπλοκο τώρα, επειδή όταν έχετε ένα πάρα πολλά δεδομένα που ορίζονται από το JSON ή με βάση το πρόγραμμά μας σε μορφή XML για ανάγνωση, τότε θα πρέπει να έχετε, με τον ένα ή τον άλλο τρόπο, πολύ ενεργό η δραστηριότητα χαρτογράφησης δεδομένων συνεχίζεται.

Υπάρχει μια κατάσταση διαχείρισης μεταδεδομένων που είναι κάτι περισσότερο από MDM, επειδή υπάρχει ανάγκη, με τον ένα ή τον άλλο τρόπο, να δημιουργήσουμε αυτό που θα ήθελα να σκεφτώ τώρα ως ένα είδος αποθήκης μεταδεδομένων για όλα όσα έχετε ενδιαφέρον. Υπάρχουν μεταδεδομένα ανακάλυψη, επειδή ορισμένα από τα δεδομένα δεν θα έχουν απαραιτήτως δηλωθεί τα μεταδεδομένα τους και θέλουμε να τα χρησιμοποιήσουμε αμέσως. Και έπειτα, υπάρχει καθαρισμός δεδομένων, το οποίο είναι ένα τεράστιο πράγμα, όπως η σειρά των πραγμάτων που μπορεί κανείς να κάνει εκεί. Και υπάρχει και ασφάλεια των δεδομένων. Όλα αυτά τα δεδομένα πρέπει να διασφαλιστούν σε αποδεκτό επίπεδο και αυτό μπορεί να σημαίνει και σε ορισμένες περιπτώσεις - για παράδειγμα, κρυπτογράφηση πολλών αξιών.

Έτσι, όλο αυτό το φόρτο εργασίας είναι στην πραγματικότητα η αυτοκρατορία διακυβέρνησης. Όλα αυτά, με τον ένα ή τον άλλο τρόπο, πρέπει να συμβαίνουν ταυτόχρονα ή πριν, όλη την αναλυτική μας δραστηριότητα. Αυτός είναι ένας μεγάλος αριθμός συντονισμένων εφαρμογών. Είναι ένα σύστημα από μόνο του. Και τότε, εκείνοι που δεν το κάνουν σε διάφορα σημεία του χρόνου θα υποφέρουν από την έλλειψή τους καθώς πηγαίνουν προς τα εμπρός, γιατί ένα πάρα πολλά από αυτά τα πράγματα δεν είναι πραγματικά προαιρετικά. Καταλήγετε με απλά αυξανόμενη εντροπία, αν δεν τα κάνετε.

Έτσι, όσον αφορά την ανάλυση δεδομένων και τη διακυβέρνηση, το πράγμα που θα έλεγα είναι ότι, πράγματι, το ένα χέρι πλένει το άλλο. Χωρίς διακυβέρνηση, τα αναλυτικά στοιχεία και η ΒΙ δεν θα πέσουν στο χρόνο. Και χωρίς τα αναλυτικά στοιχεία και το BI, δεν θα υπήρχε μεγάλη ανάγκη για τη διαχείριση των δεδομένων ούτως ή άλλως. Έτσι, τα δύο πράγματα πραγματικά περπατούν χέρι-χέρι. Όπως λένε στη Μέση Ανατολή, "Το ένα χέρι πλένει το άλλο". Και αυτό είναι το μόνο που έχω να πω. Ελπίζω - ελπίζουμε ότι τώρα έχουμε τον Mike πίσω.

Eric: Το κάνουμε. Μάικ, υποθέτω ότι είσαι εκεί. Πάω να σπρώξω τη διαφάνεια σου.

Μάικ: Είμαι. Εντάξει, μπορείτε να με ακούσετε;

Eric: Ναι, μπορώ να σας ακούσω. Ακούγεται υπέροχο. Έτσι, επιτρέψτε μου να σας συστήσω ... Εκεί πηγαίνετε. Και είστε τώρα ο παρουσιαστής. Πάρε το μακριά.

Μάικ: Εντάξει, σας ευχαριστώ! Καλημέρα, καλό απόγευμα, καλησπέρα σε όλους σας εκεί έξω. Συγχωρήστε τον λόξιχο στην αρχή. Για κάποιο λόγο, πήρα τον εαυτό μου σίγαλο και μπορώ να δω όλους, αλλά δεν μπορούσαν να με ακούσουν.

Καλώς. Επομένως, αυτό που θέλω να κάνω γρήγορα είναι να μιλήσουμε για το μεγάλο αναλυτικό οικοσύστημα δεδομένων. Εάν θέλετε να μου ρωτήσετε ερωτήσεις, θα πω, σε αυτή τη σύνοδο ή αργότερα, μπορείτε να με πάρετε εδώ στα στοιχεία επικοινωνίας μου. Όπως είπα, στη μέση της νύχτας εδώ στο Ηνωμένο Βασίλειο.

Λοιπόν, επιτρέψτε μου να φτάσω σε αυτό που θέλω να μιλήσω. Σαφώς, τα τελευταία χρόνια, έχουμε δει την εμφάνιση όλων των ειδών τύπων δεδομένων που έχουν βρεθεί τώρα που οι επιχειρήσεις θέλουν τώρα να αναλύσουν - τα πάντα από τα δεδομένα του clickstream για να κατανοήσουν τις ηλεκτρονικές συμπεριφορές, τα δεδομένα των κοινωνικών μέσων που μιλούσε ο Eric αρχή του προγράμματος εδώ. Νομίζω ότι ο Robin ανέφερε το JSON, το BSON, το XML - έτσι, τα ημι-δομημένα δεδομένα που αυτο-περιγράφουν. Φυσικά, έχουμε και ένα πλήθος άλλων στοιχείων - όλα από μη δομημένα δεδομένα, ημερολόγια υποδομών πληροφορικής, δεδομένα αισθητήρων. Όλες αυτές οι σχετικά νέες πηγές δεδομένων, τις οποίες οι επιχειρήσεις έχουν πλέον ενδιαφερθεί, επειδή περιέχουν πολύτιμες πληροφορίες που θα μπορούσαν ενδεχομένως να εμβαθύνουν αυτό που γνωρίζουμε.

Έτσι, αυτό ουσιαστικά σημαίνει ότι το αναλυτικό τοπίο έχει προχωρήσει πέρα από την παραδοσιακή αποθήκευση δεδομένων. Εξακολουθούμε να κατασκευάζουμε δεδομένα στον κόσμο ενός συνδυασμού δομημένων δεδομένων και δεδομένων πολλαπλών δομών, όπου τα πολλαπλά δομημένα δεδομένα θα μπορούσαν να προέρχονται από μέσα ή έξω από την επιχείρηση σε πολλές περιπτώσεις. Και ως αποτέλεσμα αυτών των νέων τύπων δεδομένων και των νέων αναγκών να αναλύσουμε, έχουμε δει την εμφάνιση νέων αναλυτικών φόρτων εργασίας - τα πάντα, από την ανάλυση των δεδομένων σε κίνηση, το είδος της μετατροπής της παραδοσιακής αρχιτεκτονικής αποθήκευσης δεδομένων στο κεφάλι της, κάπως, όπου , σε παραδοσιακούς κύκλους, ενσωματώνει δεδομένα, καθαρίζει, μετασχηματίζει, αποθηκεύει και αναλύει. Αλλά με την ανάλυση των δεδομένων σε κίνηση, συλλέγουμε τα δεδομένα, ενσωματώνουμε την, προετοιμάζουμε την μέσω της ανάλυσης και στη συνέχεια την αποθηκεύουμε. Επομένως, η ανάλυση πραγματοποιείται σε δεδομένα πριν αποθηκευτεί οπουδήποτε.

Εμείς σύνθετη ανάλυση των δομημένων δεδομένων, ίσως για την ανάπτυξη μοντέλων, στατιστική και πρόβλεψη ανάπτυξη μοντέλο, που δεν είναι κάτι καινούργιο σε μερικούς λαούς σε ένα παραδοσιακό αποθηκευτικό χώρο δεδομένων. Έχουμε διερευνητική ανάλυση των δεδομένων επί των μοντέλων. Αυτή είναι η ποσότητα δομημένων δεδομένων εκεί. Έχουμε νέους φόρτους εργασίας με τη μορφή ανάλυσης γραφημάτων που για τους πελάτες μου στις χρηματοπιστωτικές υπηρεσίες περιλαμβάνει πράγματα όπως η απάτη. Περιλαμβάνει επίσης ασφάλεια στον κυβερνοχώρο. Περιλαμβάνει κοινωνικά δίκτυα, φυσικά, κατανοώντας τους επηρεαστές και παρόμοια πράγματα εκεί. Το έχω μάθει ακόμη και στη διαχείριση, έχει κάποια χρόνια ανάλυσης γραφημάτων.

Έχουμε τη βελτιστοποίηση της αποθήκης δεδομένων ή την εκφόρτωση της επεξεργασίας ETL, η οποία είναι κάτι περισσότερο από μια περίπτωση χρήσης πληροφορικής, η CIO μπορεί να χρηματοδοτήσει αυτό. Και ακόμη και την αρχειοθέτηση δεδομένων και αποθηκών δεδομένων για να το κρατήσει σε απευθείας σύνδεση σε πράγματα όπως Hadoop. Έτσι, όλα αυτά τα νέα αναλυτικά φόρματα εργασίας έχουν προσθέσει νέες πλατφόρμες, νέες πλατφόρμες αποθήκευσης, στο αναλυτικό τοπίο. Έτσι, αντί να έχουμε απλώς παραδοσιακές αποθήκες δεδομένων, δεδομένα marts, αυτό που έχουμε τώρα είναι Hadoop. Έχουμε βάσεις δεδομένων NoSQL, όπως βάσεις δεδομένων γραφημάτων που χρησιμοποιούνται συχνά για αναλυτικά φορτία εργασίας. Φυσικά, μπορούμε να κάνουμε ανάλυση γραφημάτων τώρα στο ίδιο το Hadoop καθώς και σε ένα DBMSs γραφή NoSQL. Έχουμε αναλύσεις ροής που ανέφερε ο Robin. Και έχουμε - αν θέλετε - την κατασκευή μοντέλων, ίσως και σε συσκευές αποθήκευσης αναλυτικών δεδομένων. Αλλά όλα αυτά έχουν περιπλέξει το αναλυτικό τοπίο, χρειάζονται πλέον πολλαπλές πλατφόρμες. Και υποθέτω ότι η πρόκληση για κάθε επιχείρηση με front office ή back office ή χρηματοδότηση, προμήθεια, HR και κάποιες πράξεις, είναι να καταλάβουμε ποια αναλυτικά έργα συνδέονται με μια παραδοσιακή σκηνή αποθήκευσης δεδομένων. Και μόλις ξέρεις ότι τα αναλυτικά έργα συνδέονται με αυτές τις νέες πλατφόρμες δεδομένων και πού να τρέξετε, ξέρετε, ποιο αναλυτικό φόρτο εργασίας, αλλά να μην χάσετε τη δουλειά με την έννοια ότι είναι - θα δείτε τώρα ότι είναι ένας συνδυασμός μεγάλων τα αναλυτικά προγράμματα δεδομένων και τα παραδοσιακά μεγάλα έργα αποθήκευσης δεδομένων που απαιτούνται από κοινού για να ενισχυθούν στο εσωτερικό του πελάτη ή γύρω από τις επιχειρήσεις, γύρω από τον κίνδυνο ή τη χρηματοδότηση ή τη βιωσιμότητα. Επομένως, θέλουμε όλα αυτά να ευθυγραμμιστούν με τις στρατηγικές επιχειρηματικές προτεραιότητές μας, ώστε να παραμείνουμε σε καλό δρόμο για να μάθουμε τις βελόνες που πρέπει να ωθηθούν, για να βελτιώσουμε τις επιχειρηματικές επιδόσεις, να μειώσουμε το κόστος, για τη μείωση των κινδύνων, κλπ., ξέρετε, για την εταιρεία μας στο σύνολό της. Έτσι, δεν είναι αυτό που αντικαθιστά το άλλο εδώ με μεγάλα δεδομένα και παραδοσιακά. Και οι δύο χρησιμοποιούνται μαζί. Και αυτό αλλάζει δραματικά την αρχιτεκτονική, ξέρετε.

Έτσι, αυτό που έχω εδώ είναι μια σχετικά νέα αρχιτεκτονική που θα χρησιμοποιήσω με τους πελάτες μου. Και έτσι, όπως μπορείτε να δείτε τώρα κατά μήκος του πυθμένα, ένα ευρύ φάσμα πηγών δεδομένων, όχι μόνο δομημένο πια. Ορισμένες από αυτές προβάλλουν ζωντανά δεδομένα όπως αισθητήρες, όπως τα δεδομένα των αγορών, κάτι τέτοιο. Θα μπορούσε να είναι και ζωντανά δεδομένα για το clickstream. Θα μπορούσε να είναι δεδομένα ζωντανής ροής βίντεο. Επομένως δεν χρειάστηκε να δομηθεί. Μπορούμε λοιπόν να επεξεργαζόμαστε ροή σε αυτά τα δεδομένα για να λαμβάνουμε αυτόματες ενέργειες σε πραγματικό χρόνο και οποιαδήποτε δεδομένα ενδιαφέροντος θα μπορούσαν να φιλτραριστούν και να μεταφερθούν σε εργαλεία διαχείρισης επιχειρηματικών πληροφοριών που μπορούν να χρησιμοποιηθούν για την κάλυψη αποθηκευτικών χώρων αναλυτικών δεδομένων. Εκτός αν μπορείτε να δείτε στο μείγμα εδώ, τώρα έχουμε παραδοσιακές αποθήκες δεδομένων, Hadoop και NoSQL βάσεις δεδομένων. Έχουμε επίσης την κύρια διαχείριση δεδομένων στο μίγμα. Και αυτό ασκεί μεγαλύτερη πίεση σε ολόκληρη τη σουίτα εργαλείων διαχείρισης δεδομένων, όχι μόνο για να γεμίσει αυτά τα καταστήματα δεδομένων αλλά για να μετακινήσει δεδομένα μεταξύ τους.

Επιπλέον, πρέπει να απλοποιήσουμε τα εργαλεία πρόσβασης. Δεν μπορούμε απλώς να απευθυνθούμε στον χρήστη και να πούμε "λάβετε όλα αυτά τα αποθηκευμένα δεδομένα, κρατήστε αυτά τα API - το πρόβλημά σας". Αυτό που πρέπει να κάνετε είναι να απλοποιήσετε την πρόσβαση. Και έτσι, κάπως στις διακεκομμένες γραμμές εκεί, θα δείτε ότι η εικονικοποίηση δεδομένων και η βελτιστοποίηση κάποιου είδους κρύβουν την πολυπλοκότητα της πολλαπλής αποθήκευσης δεδομένων, προσπαθήστε και διευκολύνετε τους τελικούς χρήστες να έχουν πρόσβαση σε αυτό. Και φυσικά, υπάρχει μια σειρά εργαλείων στην κορυφή, γνωρίζετε - όλα από τα παραδοσιακά εργαλεία BI που ξεκίνησαν από την αρχή της αποθήκευσης δεδομένων, σταδιακά κινούνται προς τα αριστερά του γραφήματος σας και συνδέονται με το Hadoops και στη συνέχεια σε NoSQL βάσεις δεδομένων του κόσμου.

Έχουμε την έρευνα να πάρει μια νέα μίσθωση για τη ζωή σε ιδιαίτερα γύρω από το σώμα δομημένο, μη δομημένα δεδομένα που αποθηκεύονται συχνά σε Hadoop. Έχουμε προσαρμοσμένες αναλυτικές εφαρμογές που πρέπει να γίνουν σε μια πλατφόρμα Hadoop με MapReduce, έτσι ώστε το πλαίσιο Spark, για παράδειγμα. Έχουμε εργαλεία ανάλυσης γραφημάτων για να γνωρίζετε ότι εστιάζετε σε πολύ συγκεκριμένους φόρτους εργασίας εκεί. Έτσι, μια σειρά εργαλείων και οι ροές δεδομένων είναι επίσης πιο περίπλοκες. Δεν είναι πλέον απλά ένας δρόμος μονής κατεύθυνσης στην αποθήκη δεδομένων. Είναι πλέον βασικά δεδομένα, βέβαια.

Έχουμε νέες πηγές δεδομένων που έρχονται, είτε έχουν καταγραφεί σε NoSQL, ξέρετε, καταστήματα δεδομένων όπως MongoDB, όπως η Cassandra, όπως η HBase. Έχουμε δεδομένα που μεταφέρονται απευθείας στον Hadoop για ανάλυση και επεξεργασία δεδομένων εκεί. Έχουμε νέες ιδέες που προέρχονται από τον Hadoop και τις αποθήκες δεδομένων. Έχουμε αρχείο που βγαίνει από τις αποθήκες δεδομένων σε Hadoop. Τώρα έχουμε τροφοδοσίες δεδομένων πηγαίνοντας, ξέρετε, όλες τις βάσεις δεδομένων NoSQL και marts δεδομένων επίσης. Επομένως, αυτό που μπορείτε να δείτε εδώ είναι ότι υπάρχει πολύ περισσότερη δραστηριότητα στη διαχείριση δεδομένων. Και αυτό σημαίνει ότι θέτει το λογισμικό διαχείρισης δεδομένων υπό σημαντική πίεση. Δεν είναι πλέον μόνο ένας δρόμος μονής κατεύθυνσης. Είναι κίνηση δύο όψεων δεδομένων. Πρόκειται για πολύ περισσότερη δραστηριότητα και συνεπώς, η επεκτασιμότητα είναι σημαντική τόσο στο μέτωπο του εργαλείου διαχείρισης δεδομένων όσο και στην πηγή δεδομένων.

Έτσι, αυτό το γράφημα πηγαίνει πίσω σε εκείνη την αρχιτεκτονική που ανέφερα πριν από λίγο. Σας παρουσιάζει τους διαφορετικούς αναλυτικούς φόρτους εργασίας που εκτελούνται σε διαφορετικά τμήματα αυτής της αρχιτεκτονικής. Κάπως από κάτω στο αριστερό μέρος, έχετε ροή σε πραγματικό χρόνο, επεξεργαζόμενη ροή σε δεδομένα που προέρχονται από, ξέρετε, κάθε είδους αποθηκευμένο αρχείο δεδομένων. Έχουμε ανάλυση κλάσης που συμβαίνει σε βάσεις δεδομένων NoSQL. Μπορεί επίσης να συμβεί και στον Hadoop. Με το πλαίσιο Spark, για παράδειγμα, και το GraphX, έχουμε ανάλυση ανάλυσης και το διυλιστήριο δεδομένων που ο Robin μιλούσε να συμβαίνει στον Hadoop. Έχουμε παραδοσιακούς φόρτους εργασίας που συνεχίζονται και η αποθήκευση δεδομένων, γνωρίζετε, οι χρήστες δύναμης δημιουργούν στατιστικά και προγνωστικά μοντέλα, ίσως σε συσκευές αποθήκης δεδομένων. Και προσπαθούμε ακόμη να απλοποιήσουμε την πρόσβαση σε όλα αυτά για να διευκολύνουμε τους τελικούς χρήστες.

Έτσι, η επιτυχία γύρω από αυτό το σύνολο είναι κάτι περισσότερο από την αναλυτική πλευρά. Ξέρετε, μπορούμε να βάλουμε τις αναλυτικές πλατφόρμες στη θέση τους, αλλά αν δεν μπορούμε να καταγράψουμε και να καταπιέσουμε, γνωρίζουμε, υψηλή ταχύτητα και δεδομένα μεγάλου όγκου, στην κλίμακα, δεν έχει νόημα. Ξέρετε, δεν έχω τίποτα να αναλύσω. Και έτσι, η επιτυχία των μεγάλων αναλυτικών στοιχείων δεδομένων απαιτεί την αύξηση των λειτουργικών συστημάτων. Αυτό σημαίνει ότι, για να μπορέσετε να υποστηρίξετε νέες συναλλαγές, ξέρετε, κορυφές. Ξέρετε, οποιαδήποτε μη συναλλακτικά δεδομένα που συλλαμβάνονται εκεί θα μπορούσαν να είναι, γνωρίζετε, οποιαδήποτε νέα ποσοστά άφιξης πολύ, πολύ υψηλά ποσοστά άφιξης σε δεδομένα υψηλής ταχύτητας όπως αισθητήρες ή οποιαδήποτε πρόσληψη. Πρέπει να είμαστε σε θέση να καλύψουμε όλα αυτά - για να μπορέσουμε να καταγράψουμε αυτά τα δεδομένα και να τα εισαγάγουμε για ανάλυση. Πρέπει επίσης να κλιμακώσουμε τα ίδια τα αναλυτικά στοιχεία, να απλοποιήσουμε την πρόσβαση στα δεδομένα που ανέφερα ήδη. Και τότε, δέστε αυτό. Ξέρετε, πρέπει να είμαστε σε θέση να επαναπροσδιορίσουμε τα λειτουργικά συστήματα για να δώσουμε ένα κλειστό βρόχο.

Έτσι, η κλιμάκωση της λειτουργικής πλευράς του σπιτιού για την καταγραφή δεδομένων, ξέρετε, παίρνει τον κόσμο της βάσης δεδομένων NoSQL. Θέλω να πω, εδώ βλέπετε πέντε κατηγορίες βάσης δεδομένων NoSQL. Αυτή είναι η κατηγορία που θα μοντελοποιηθεί ακριβώς ως ένας συνδυασμός των άλλων τεσσάρων παραπάνω. Σε γενικές γραμμές, γνωρίζετε τις βασικές αξίες, τα αποθηκευμένα έγγραφα και τις βάσεις δεδομένων για τις οικογένειες των κλώνων - τα τρία πρώτα εκεί, τα οποία χρησιμοποιούνται για το είδος των συναλλακτικών και μη συναλλακτικών δεδομένων.

Ορισμένες από αυτές τις βάσεις δεδομένων που υποστηρίζουν ως ιδιότητες. μερικοί από αυτούς δεν είναι. Αλλά παρ 'όλα αυτά, ξέρετε, βλέπουμε την εισαγωγή αυτών για την κλιμάκωση τέτοιων εφαρμογών. Και έτσι, για παράδειγμα, καθώς έχουμε απομακρυνθεί από απλά υπαλλήλους που εισέρχονται σε συναλλαγές σε πληκτρολόγια μέχρι τώρα πελάτες και οι μάζες που χρησιμοποιούν νέες συσκευές για να μπορέσουν να το κάνουν αυτό. Έχουμε δει μια τεράστια αύξηση στον αριθμό των συναλλαγών που εισάγονται σε επιχειρήσεις. Και έτσι, πρέπει να κάνουμε κλίμακα εφαρμογών συναλλαγών για να το κάνουμε αυτό.

Τώρα, γενικά, αυτό μπορεί να γίνει στις βάσεις δεδομένων NewSQL ως σχεσιακή βάση δεδομένων όπως η NuoDB και η VoltDB που εμφανίζονται εδώ. Ορισμένες από τις βάσεις δεδομένων NoSQL που υποστηρίζουν ίσως τις ιδιότητες του ACID που μπορούν να εγγυηθούν την επεξεργασία συναλλαγών μπορεί να βρίσκονται σε εξέλιξη. Αυτό ισχύει και για μη μεταφορικά δεδομένα, όπως τα δεδομένα από το καλάθι αγορών πριν από μια συναλλαγή, ξέρετε, πριν οι άνθρωποι αγοράσουν υλικό, δεδομένα αισθητήρων, ξέρετε, καθώς χάνω έναν αισθητήρα που διαβάζει ανάμεσα σε εκατοντάδες εκατομμύρια αναγνώσεις αισθητήρων. Δεν είναι μεγάλη υπόθεση. Κλικ, ξέρετε, στον κόσμο του clickstream - αν χρησιμοποιήσω ένα κλικ, δεν είναι μεγάλη υπόθεση.Λοιπόν, δεν ξέρουμε απαραίτητα να έχουμε ιδιότητες ACID εκεί, και αυτό συμβαίνει συχνά όπου οι βάσεις δεδομένων NoSQL μπαίνουν στο παιχνίδι, ήταν εκεί - η ικανότητα να κάνει πολύ υψηλή, σωστή επεξεργασία σε κλίμακα για να συλλαμβάνει αυτά τα νέα είδη δεδομένων.

Ταυτόχρονα, θέλουμε τα μεγέθη των αναλυτικών στοιχείων. Και έτσι, το τράβηγμα των δεδομένων από τις αποθήκες δεδομένων στις αναλυτικές πλατφόρμες δεν πρόκειται πλέον να το αποβάλει, επειδή τα δεδομένα είναι πάρα πολύ μεγάλα. Αυτό που πραγματικά θέλουμε είναι να σπρώξουμε τα αναλυτικά στοιχεία στην αντίθετη κατεύθυνση, στην επιχειρηματική αποθήκη δεδομένων σε Hadoop, στην επεξεργασία ροής για να μπορέσουμε να σπρώξουμε τα αναλυτικά στοιχεία στα δεδομένα. Ωστόσο, μόνο επειδή κάποιος λέει ότι είναι σε ανάλυση δεδομένων ή σε αναλυτικά στοιχεία Hadoop δεν σημαίνει απαραίτητα ότι τα analytics τρέχουν παράλληλα. Και ειλικρινά, αν πρόκειται να επενδύσετε σε αυτές τις νέες μαζικά παράλληλες κλιμακούμενες τεχνολογίες όπως ο Hadoop, όπως οι συσκευές αποθήκευσης δεδομένων και όχι, όπως οι μηχανές επεξεργασίας ροής με συστοιχίες, χρειαζόμαστε τα αναλύματα να τρέχουν παράλληλα.

Έτσι, αυτό είναι μόνο το check out. Ξέρετε, αν έχουμε αναλυτικά στοιχεία για να βοηθήσουμε να προβλέψουμε τα πράγματα για τους πελάτες, για επιχειρήσεις, για κινδύνους κλπ., Θέλουμε να τρέχουν παράλληλα, όχι μόνο να τρέχουν στην πλατφόρμα. Θέλουμε και τα δύο. Και αυτό γιατί, όπως γνωρίζετε, η τεχνολογία είναι σαν αυτά τα νέα εργαλεία οπτικής ανακάλυψης όπως το SAS. Είναι πραγματικά ένας από τους χορηγούς μας εδώ.

Ένα πράγμα που θέλουν οι άνθρωποι είναι τουλάχιστον να εκμεταλλευτούν εκείνους στον Hadoop και έπειτα σε αναλύσεις βάσεων δεδομένων. Και θέλουμε αυτές να λειτουργούν παράλληλα, ώστε να είναι σε θέση να παρέχουν τις απαιτούμενες επιδόσεις σε τόσο μεγάλους όγκους δεδομένων. Ταυτόχρονα, προσπαθούμε να απλοποιήσουμε την πρόσβαση σε όλα αυτά. Και έτσι, η SQL επιστρέφει τώρα στην ημερήσια διάταξη. Γνωρίζετε, SQL είναι - SQL σχετικά με Hadoop είναι ζεστό τώρα. Το παρακολουθώ σε 19 πρωτοβουλίες SQL και Hadoop αυτή τη στιγμή. Επιπλέον, μπορείτε να δείτε, μπορούμε να πάρουμε σε αυτά τα δεδομένα, ξέρετε, με πολλούς τρόπους, έτσι ώστε η άμεση πρόσβαση SQL σε Hadoop ίδια, μπορούμε να πάμε SQL σε ένα ευρετήριο αναζήτησης. Με αυτόν τον τρόπο, όπως, ξέρετε, μερικοί από τους πωλητές αναζήτησης σε αυτό το διάστημα, μπορούμε να έχουμε πρόσβαση SQL σε αναλυτικές σχεσιακές βάσεις δεδομένων που έχουν πίνακες του Excel στον Hadoop.

Τώρα μπορούμε να έχουμε πρόσβαση SQL σε έναν εξυπηρετητή εικονικοποίησης δεδομένων, ο οποίος μπορεί στη συνέχεια να συνδεθεί με μια αποθήκη δεδομένων στον Hadoop. Είμαι ακόμα τώρα αρχίζει να βλέπει την εμφάνιση της πρόσβασης SQL σε δεδομένα ζωντανής ροής. Έτσι, η πρόσβαση SQL σε όλα αυτά αυξάνεται με ταχείς ρυθμούς. Και μέρος της πρόκλησης είναι, μόνο και μόνο επειδή η πρόσβαση SQL κυκλοφορεί εκεί έξω. Το ερώτημα είναι, μπορεί SQL να ασχοληθεί με σύνθετα δεδομένα; Και αυτό δεν είναι απαραιτήτως απλό. Υπάρχουν πάρα πολλά είδη επιπλοκών εδώ, συμπεριλαμβανομένου του γεγονότος ότι τα δεδομένα του JSON θα μπορούσαν να είναι ένθετα. Μπορούμε να έχουμε δισδιάστατες εγγραφές σχήματος. Έτσι, η πρώτη εγγραφή έχει ένα σχήμα. Η δεύτερη εγγραφή έχει διαφορετικό σχήμα. Αυτά τα πράγματα είναι πολύ διαφορετικά από αυτά που συμβαίνουν σε έναν σχεσιακό κόσμο.

Επομένως, πρέπει να θέσουμε ερωτήματα σχετικά με το είδος των δεδομένων που προσπαθούμε να αναλύσουμε και ποια είναι τα αναλυτικά χαρακτηριστικά. Είναι, ξέρετε, πάνελ που θέλετε να κάνετε; Είναι η μηχανική μάθηση; Είναι ανάλυση γραφήματος; Μπορείτε να το κάνετε αυτό από SQL; Γνωρίζετε ότι είναι invocable από SQL; Πόσοι ταυτόχρονες χρήστες έχουμε κάνει αυτό; Ξέρετε, έχουμε εκατοντάδες ταυτόχρονους χρήστες. Αυτό είναι δυνατό σε πολύπλοκα δεδομένα; Ξέρετε, όλα αυτά τα πράγματα είναι βασικά ερωτήματα. Έτσι, έκανα έναν κατάλογο μερικών εδώ που νομίζω ότι πρέπει να εξετάσετε. Ξέρετε, τι είδους μορφές αρχείων; Για ποιους τύπους δεδομένων μιλάμε; Τι είδους αναλυτικές λειτουργίες μπορούμε να χρησιμοποιήσουμε από την SQL για να πάρουμε σύνθετα δεδομένα; Και το είδος των λειτουργιών λειτουργεί παράλληλα. Θέλω να πω ότι πρέπει να τρέξουν παράλληλα αν πρέπει να είμαστε σε θέση να το κλίμα αυτό. Και μπορώ να προσθέσω δεδομένα στο Hadoop σήμερα έξω από αυτό, ξέρετε, ή αυτό δεν είναι εφικτό; Και τι θα κάνω με όλα αυτά τα διαφορετικά είδη φόρτων εργασίας ερωτημάτων;

Και όπως θα δούμε, ξέρετε, από ό, τι έχω δει, υπάρχουν πολλές διαφορές στην κατανομή SQL και Hadoop. Αυτά είναι όλα αυτά που παρακολουθώ. Και παρεμπιπτόντως, αυτό είναι καθαρό SQL στον Hadoop. Αυτό δεν περιλαμβάνει ακόμη και την εικονικοποίηση δεδομένων σε αυτό το σημείο. Και έτσι, πολλά έξω και πολλά περιθώρια για ενοποίηση, τα οποία νομίζω ότι θα συμβεί κατά το επόμενο έτος, δεκαοκτώ μήνες περίπου. Αλλά ανοίγει επίσης ένα άλλο πράγμα, το οποίο είναι ότι μπορώ να έχω δυνητικά πολλαπλές μηχανές SQL στα ίδια δεδομένα στο Hadoop. Και αυτό είναι κάτι που δεν θα μπορούσατε να κάνετε στη σχεσιακή.

Φυσικά, αυτό σημαίνει ότι πρέπει τότε να ξέρετε, ξέρετε, τι είδους φόρτο εργασίας ερωτήσεων τρέχω; Πρέπει να τρέξω αυτό σε παρτίδα σε μια συγκεκριμένη SQL σχετικά με την πρωτοβουλία Hadoop; Πρέπει να τρέχω αλληλεπιδράσεις αλληλεπίδρασης ερωτημάτων μέσω μιας άλλης πρωτοβουλίας SQL για την πρωτοβουλία Hadoop κ.λπ., ώστε να γνωρίζω με ποιον να συνδεθείτε; Στην ιδανική περίπτωση, φυσικά, δεν πρέπει να το κάνουμε αυτό. Θα έπρεπε απλώς να έχουμε μια ερώτηση γι 'αυτό. Ξέρετε, κάποιο εργαλείο βελτιστοποίησης υπολογίζει τον καλύτερο τρόπο να το κάνει. Αλλά δεν είμαστε πλήρως εκεί ακόμα, κατά τη γνώμη μου.

Ωστόσο, παρόλα αυτά, η εικονικοποίηση δεδομένων, που ανέφερα προηγουμένως, έχει έναν πολύ σημαντικό ρόλο για την απλούστευση της πρόσβασης σε πολλαπλά καταστήματα δεδομένων. Και αν δημιουργήσουμε νέες ιδέες για τον Hadoop, είναι σίγουρο ότι μπορούμε να ενώσουμε αυτές τις αποθήκες δεδομένων με δεδομένα και παραδοσιακές αποθήκες δεδομένων μέσω virtualization δεδομένων, για παράδειγμα, χωρίς απαραίτητα να μεταφέρουμε τα δεδομένα από τον Hadoop σε παραδοσιακές αποθήκες δεδομένων. Φυσικά, μπορείτε να το κάνετε και αυτό. Είναι επίσης εύλογο εάν αρχειοθετήσω δεδομένα από παραδοσιακές αποθήκες δεδομένων σε Hadoop. Μπορώ ακόμα να το αποκτήσω και να επανέλθω στα πράγματα που υπάρχουν στην αποθήκη δεδομένων μας για την εικονικοποίηση δεδομένων. Έτσι, για μένα, πιστεύω ότι η εικονικοποίηση δεδομένων έχει ένα μεγάλο μέλλον σε αυτή τη συνολική αρχιτεκτονική και απλοποιεί την πρόσβαση σε όλα αυτά τα καταστήματα δεδομένων.

Και να μην ξεχνάμε ότι όταν δημιουργούμε αυτές τις νέες ιδέες, είτε πρόκειται για συσχετιστικά συστήματα είτε για συστήματα NoSQL, θέλουμε να οδηγήσουμε ξανά αυτές τις ιδέες στις λειτουργίες μας, ώστε να μπορέσουμε να μεγιστοποιήσουμε την αξία αυτού που βρήκαμε, ώστε να μπορέσουμε αξιοποιώντας τις πιο αποτελεσματικές και έγκαιρες αποφάσεις σε αυτό το περιβάλλον για τη βελτιστοποίηση της επιχείρησής μας.

Έτσι, για να ολοκληρώσω, λοιπόν, αυτό που βλέπω, είναι, πρέπει, ξέρουμε, νέες πηγές δεδομένων που αναδύονται. Έχουμε νέες πλατφόρμες σε μια πιο περίπλοκη αρχιτεκτονική, αν θέλετε, να το χειριστείτε. Και ο Hadoop είναι πολύ σημαντικός για την προετοιμασία των δεδομένων για τους υγρούς sandboxes μας, για την αρχειοθέτηση ερωτημάτων, για την αρχειοθέτηση από την αποθήκη δεδομένων, για τη διαχείριση δεδομένων που διανέμει τα φτερά της για να υπερβεί την αποθήκευση δεδομένων στη διαχείριση δεδομένων σε όλες αυτές τις πλατφόρμες. να μπορούν να αναλύουν και να έχουν πρόσβαση σε δεδομένα σε αυτά τα περιβάλλοντα, να είναι σε θέση να διαθέτουν κλιμακούμενες τεχνολογίες για καλύτερη κατανάλωση δεδομένων και να κλιμακώνουν τα αναλυτικά στοιχεία πιέζοντάς τα προς τα κάτω στις πλατφόρμες για να τα κάνουν πιο παράλληλα. Και έπειτα, ελπίζουμε, επίσης, να απλοποιήσουμε την πρόσβαση σε όλα αυτά μέσα από το αναδυόμενο SQL έρχεται πάνω από την κορυφή. Έτσι, σας δίνει μια ιδέα για το πού κατευθυνόμαστε. Έτσι, με αυτό, θα επιστρέψω στο, λοιπόν, ο Eric, τώρα;

Eric: Εντάξει, αυτό είναι φανταστικό. Και οι λαοί, πρέπει να πω, ανάμεσα σε αυτό που μόλις πήρατε από τον Robin και τον Mike, είναι πιθανότατα περίπου εξίσου περιεκτικό και συνοπτικό σε όλη την έκταση του τοπίου από το να το κοιτάτε καθώς θα το βρείτε οπουδήποτε. Επιτρέψτε μου να προχωρήσω και να περιμένω πρώτα τον Γιώργο Κορουτζέδο. Και εκεί είναι. Επιτρέψτε μου να το κάνω για ένα γρήγορο δευτερόλεπτο. Εντάξει, Γιώργο, έχω να σας παραδώσω τα κλειδιά και να τα παραλάβω. Το πάτωμα είναι δικό σου.

Γιώργος: Μεγάλη! Σας ευχαριστώ πολύ, Eric, και σας ευχαριστώ, Rob και Mike. Αυτό ήταν μεγάλη πληροφορία και πολλά που συμφωνούμε. Έτσι, γυρίζοντας πίσω στη συζήτηση του Ρόμπιν, γιατί, ξέρετε, δεν είναι τυχαίο ότι ο RedPoint είναι εδώ και το SAS είναι εδώ. Επειδή η RedPoint, εστιάζουμε πραγματικά στην πλευρά δεδομένων της σχετικά με τη διακυβέρνηση, την επεξεργασία των δεδομένων και την προετοιμασία για χρήση στην ανάλυση. Λοιπόν, επιτρέψτε μου να σκαρφαλώσω μέσα από αυτές τις δύο διαφάνειες. Και μιλάμε πραγματικά για το θέμα του Robin σχετικά με το MDM και πόσο σημαντικό είναι και πόσο χρήσιμο νομίζω - και νομίζουμε - ότι ο Hadoop μπορεί να είναι στον κόσμο της MDM και της ποιότητας των δεδομένων.

Ξέρετε, ο Robin μιλούσε λίγο, ξέρετε, πώς σχετίζεται με τον κόσμο των αποθεμάτων δεδομένων των επιχειρήσεων και έρχομαι - ξέρετε, έχω περάσει πολλά χρόνια στο Accenture. Και αυτό που ήταν ενδιαφέρον ήταν πόσες φορές έπρεπε να πηγαίνουμε σε εταιρείες και να προσπαθήσουμε να καταλάβουμε τι πρέπει να κάνουμε με την αποθήκη δεδομένων που βασικά είχε εγκαταλειφθεί. Και πολλά από αυτά συνέβησαν επειδή η ομάδα αποθήκης δεδομένων δεν ευθυγράμμισε πραγματικά την κατασκευή τους με τους επιχειρηματικούς χρήστες ή με τους καταναλωτές των δεδομένων. Ή, απλώς πήρε τόσο βρώμικα ότι από τη στιγμή που έχτισαν το πράγμα, η επιχειρηματική χρήση ή η επιχειρηματολογία για αυτό είχε εξελιχθεί.

Και ένα από τα πράγματα που πιστεύω ότι είμαι, είμαι τόσο ενθουσιασμένος, η ιδέα της χρήσης του Hadoop για διαχείριση βασικών δεδομένων, για την ποιότητα των δεδομένων και την προετοιμασία των δεδομένων, είναι το γεγονός ότι μπορείτε πάντα να επιστρέψετε στα ατομικά δεδομένα σε μια Τη λίμνη δεδομένων Hadoop ή τη δεξαμενή δεδομένων ή αποθήκη δεδομένων ή διανομέα, ή οποιαδήποτε μορφή buzz θέλετε να χρησιμοποιήσετε. Αλλά επειδή κρατάτε πάντοτε εκείνα τα ατομικά δεδομένα, τότε έχετε πάντα την ευκαιρία να εναρμονιστείτε με τους επιχειρηματικούς χρήστες. Επειδή, ως αναλυτής - γιατί πραγματικά ξεκίνησα την σταδιοδρομία μου ως στατιστικός - ξέρετε, τίποτα δεν είναι χειρότερο από ό, τι γνωρίζετε, οι αποθήκες δεδομένων των επιχειρήσεων είναι θαυμάσιες για την οδήγηση των αναφορών, αλλά αν θέλετε να κάνετε πραγματικά προβλέψεις, δεν είναι πραγματικά χρήσιμο, επειδή αυτό που πραγματικά θέλετε είναι τα λεπτομερή δεδομένα συμπεριφοράς που κατά κάποιον τρόπο έχουν συνοψιστεί και συγκεντρωθεί στην αποθήκη δεδομένων. Πιστεύω ότι αυτό είναι πραγματικά ένα σημαντικό χαρακτηριστικό και αυτό είναι ένα πράγμα που πιστεύω ότι θα μπορούσα να διαφωνήσω με τον Robin είναι ότι προσωπικά θα αφήσω τα δεδομένα στη λίμνη δεδομένων ή στον κόμβο δεδομένων όσο το δυνατόν περισσότερο, τα δεδομένα είναι εκεί και είναι καθαρά, μπορείτε να τα δείτε από μια κατεύθυνση, μια άλλη κατεύθυνση. Μπορείτε να το συγχωνεύσετε με άλλα δεδομένα. Έχετε πάντα την ευκαιρία να επιστρέψετε σε αυτήν και να αναδιαρθρώσετε και στη συνέχεια να επανευθυγραμμιστείτε με μια επιχειρηματική μονάδα και την ανάγκη που μπορεί να έχει αυτή η μονάδα.

Ένα από τα άλλα ενδιαφέροντα πράγματα γι 'αυτό είναι ότι επειδή είναι μια τόσο ισχυρή υπολογιστική πλατφόρμα, ένα μεγάλο μέρος αυτού του φόρτου εργασίας για τον οποίο έχουμε μιλήσει, βλέπουμε ότι όλα έρχονται κατευθείαν στον Hadoop. Και ενώ, νομίζω, ο Mike μιλούσε για όλες τις διαφορετικές τεχνολογίες που υπάρχουν εκεί στον κόσμο - σε αυτόν τον τύπο μεγάλου οικοσυστήματος δεδομένων, πιστεύουμε ότι ο Hadoop είναι πραγματικά ο άξονας εργασίας για να κάνει αυτή τη μεγάλη κλίμακα σε υπολογιστική εντατική επεξεργασία που τα βασικά δεδομένα και η ποιότητα των δεδομένων. Επειδή, αν μπορείτε να το κάνετε εκεί, γνωρίζετε, μόνο η τεράστια οικονομία της μετακίνησης δεδομένων από τις ακριβές βάσεις δεδομένων σας και σε οικονομικές βάσεις δεδομένων, αυτό οδηγεί πραγματικά τόσο πολύ στην απορρόφηση αυτή τη στιγμή σε μεγάλες επιχειρήσεις.

Τώρα, βέβαια, υπάρχουν ορισμένες προκλήσεις, έτσι; Υπάρχουν προκλήσεις γύρω από τις τεχνολογίες. Πολλοί από αυτούς είναι πολύ ανώριμοι. Θα έλεγα, ξέρεις, δεν ξέρω πόσες, αλλά πολλές από τις τεχνολογίες που ανέφερε ο Mike παραμένουν σε μηδενικό σημείο - κάτι που κυκλοφορεί, έτσι; Έτσι, αυτές οι τεχνολογίες είναι πολύ μικρές, πολύ ανώριμες, ακόμα βασισμένες στον κώδικα. Και αυτό δημιουργεί πραγματικά μια πρόκληση για τις επιχειρήσεις. Και πραγματικά εστιάζουμε στην επίλυση προβλημάτων σε επίπεδο επιχείρησης. Επομένως, πιστεύουμε ότι πρέπει να υπάρχει ένας διαφορετικός τρόπος και αυτό προτείνουμε είναι ένας διαφορετικός τρόπος να προχωρήσουμε σε κάποια από τα πράγματα χρησιμοποιώντας μερικές από αυτές τις πολύ πρωτόγονες τεχνολογίες.

Και λοιπόν, και έπειτα το άλλο ενδιαφέρον θέμα εδώ, το οποίο έχει αναφερθεί προηγουμένως, δηλαδή, όταν έχετε δεδομένα που συλλαμβάνετε σε ένα περιβάλλον Hadoop οποιουδήποτε τύπου, γνωρίζετε, είναι συνήθως το σχήμα για την ανάγνωση και όχι το γράφημα για τη γραφή με μερικές εξαιρέσεις. Και αυτή η ανάγνωση, πολλά από τα στατιστικά. Και έτσι, οι στατιστικολόγοι πρέπει να έχουν εργαλεία που τους επιτρέπουν να διαρθρώνουν σωστά τα δεδομένα για αναλυτικούς σκοπούς, διότι στο τέλος της ημέρας, για να κάνουν τα δεδομένα χρήσιμα, πρέπει να δομηθεί σε κάποια μορφή για να δει κάποια ή να απαντήσει σε μια ερώτηση ή μια επιχείρηση, κάποιο είδος επιχείρησης, δημιουργούν επιχειρηματική αξία.

Έτσι, όταν εισερχόμαστε, είναι ότι έχουμε πολύ ευρεία και ώριμη EPL, κύριο κλειδί ποιότητας δεδομένων ELT και εφαρμογή διαχείρισης. Είναι στην αγορά εδώ και πολλά χρόνια. Και έχει όλη τη λειτουργικότητα ή μεγάλο μέρος της λειτουργικότητας που ο Robin παραθέτει σε αυτό το κυκλικό γράφημα - τα πάντα από την καθαρή συλλογή πρωτογενών δεδομένων σε μια ολόκληρη ποικιλία μορφών και δομών XML και σε τί δεν υπάρχει, στην ικανότητα να κάνει όλο τον καθαρισμό, την ολοκλήρωση των δεδομένων, τη διόρθωση των δεδομένων, τα γεωγραφικά βασικά δυαδικά ψηφία των δεδομένων. Αυτό είναι κάτι που γίνεται ολοένα και πιο σημαντικό σήμερα με το Διαδίκτυο των πραγμάτων. Ξέρετε, υπάρχει γεωγραφία που συνδέεται με πολλά από αυτά που κάνουμε ή πολλά από αυτά τα δεδομένα. Και έτσι, όλη η ανάλυση, ο tokenization, ο καθαρισμός, η διόρθωση, η μορφοποίηση, η δομή, κλπ., Όλα αυτά γίνονται στην πλατφόρμα μας.

Και τότε, και ίσως, σκεφτόμαστε το πιο σημαντικό είναι η ιδέα της deduplication. Ξέρετε, στον πυρήνα, εάν κοιτάξετε οποιονδήποτε ορισμό της διαχείρισης των βασικών δεδομένων, ο πυρήνας του είναι deduplication. Μπορεί να εντοπίσει οντότητες σε διαφορετικές πηγές δεδομένων και, στη συνέχεια, να δημιουργήσει μια κύρια εγγραφή για αυτήν την οντότητα. Και αυτή η οντότητα μπορεί να είναι ένα άτομο. Η οντότητα μπορεί να είναι μέρος ενός αεροπλάνου, για παράδειγμα. Η οντότητα θα μπορούσε να είναι ένα φαγητό όπως το έχουμε κάνει για έναν από τους πελάτες της λέσχης υγείας μας. Δημιουργήσαμε για αυτούς μια βασική βάση δεδομένων για τα τρόφιμα. Έτσι, ανεξάρτητα από τις οντότητες με τις οποίες εργαζόμαστε - και βεβαίως όλο και περισσότερο, υπάρχουν άνθρωποι και οι πληρεξούσιοι για την ταυτότητά τους που είναι πράγματα όπως κοινωνικές λαβές ή λογαριασμοί, όποιες συσκευές συνδέονται με ανθρώπους, μερικά πράγματα όπως αυτοκίνητα και τηλέφωνα και οτιδήποτε άλλο μπορεί να φανταστείτε.

Ξέρετε, δουλεύουμε με έναν πελάτη που βάζει όλα τα αισθητήρια σε αθλητικά ρούχα. Έτσι, τα δεδομένα προέρχονται από κάθε κατεύθυνση. Και με τον ένα ή τον άλλο τρόπο, είναι μια αντανάκλαση ή αναπαράσταση της βασικής οντότητας. Και όλο και περισσότερο, αυτοί είναι οι άνθρωποι και η δυνατότητα να προσδιορίσουν τις σχέσεις μεταξύ όλων αυτών των πηγών δεδομένων και τον τρόπο με τον οποίο σχετίζονται με αυτή την βασική οντότητα και στη συνέχεια να είναι σε θέση να παρακολουθήσουν αυτή την βασική οντότητα με την πάροδο του χρόνου, ώστε να μπορείτε να αναλύσετε και να κατανοήσετε τις αλλαγές μεταξύ αυτής της οντότητας και όλα αυτά τα άλλα στοιχεία που βρίσκονται σε εκείνες τις παραστάσεις αυτής της οντότητας, μια κρίσιμη για μακροπρόθεσμη και διαχρονική ανάλυση των ανθρώπων, για παράδειγμα. Και αυτό είναι πραγματικά ένα από τα πραγματικά σημαντικά οφέλη που νομίζω ότι τα μεγάλα δεδομένα μπορούν να μας φέρουν είναι η καλύτερη κατανόηση των ανθρώπων και μακροπρόθεσμα και η κατανόηση του con και του τρόπου με τον οποίο συμπεριφέρονται οι άνθρωποι όταν συμπεριφέρονται μέσω των συσκευών κ.λπ. .

Έτσι, επιτρέψτε μου να προχωρήσω γρήγορα εδώ. Ο Eric ανέφερε το YARN. Ξέρετε, το ρίχνω μόνο για λίγα δευτερόλεπτα, γιατί ενώ το YARN - οι άνθρωποι μιλάνε για το YARN. Εξακολουθεί να υπάρχει πολλή άγνοια, νομίζω, για το YARN. Και όχι πολλοί άνθρωποι - υπάρχει ακόμα μεγάλη παρανόηση για το YARN. Και το γεγονός είναι ότι αν η εφαρμογή σας έχει σχεδιαστεί με τον σωστό τρόπο και έχετε το κατάλληλο επίπεδο ή παραλληλισμό στην αρχιτεκτονική εφαρμογής σας, τότε μπορείτε να επωφεληθείτε από το YARN για να χρησιμοποιήσετε τον Hadoop ως πλατφόρμα κλιμάκωσης. Και ακριβώς αυτό που κάναμε.

Ξέρετε, πάλι, μόνο για να επισημάνω ορισμένους από τους ορισμούς γύρω από το YARN. Για εμάς, πραγματικά ό, τι είναι το YARN μας έχει επιτρέψει στον εαυτό μας και σε άλλες οργανώσεις να γίνουν συμμαθητές στο MapReduce και το Spark και σε όλα τα άλλα εργαλεία που είναι εκεί έξω. Αλλά το γεγονός είναι ότι οι εφαρμογές μας οδηγούν τον βελτιστοποιημένο κώδικα απευθείας στο YARN στον Hadoop. Και υπάρχει ένα πολύ ενδιαφέρον σχόλιο που ανέφερε ο Mike, γιατί γνωρίζετε ότι η ερώτηση σχετικά με τα αναλυτικά στοιχεία και τα αναλυτικά στοιχεία μας, ακριβώς επειδή βρίσκονται στο σύμπλεγμα, τρέχουν παράλληλα; Μπορείτε να ζητήσετε την ίδια ερώτηση σχετικά με πολλά εργαλεία ποιότητας δεδομένων που υπάρχουν εκεί έξω.

Κατά το μεγαλύτερο μέρος της ημέρας, τα εργαλεία ποιότητας που είναι εκεί έξω πρέπει είτε να βγάλουν τα δεδομένα είτε να προωθήσουν τον κώδικα. Και σε πολλές περιπτώσεις, είναι μια ενιαία ροή δεδομένων που γίνεται επεξεργασία λόγω του τρόπου με τον οποίο πρέπει συγκρίνετε τα αρχεία, μερικές φορές σε δραστηριότητες ποιότητας δεδομένων. Και το γεγονός είναι ότι επειδή χρησιμοποιούμε το YARN, μπορέσαμε πραγματικά να εκμεταλλευτούμε την παραλληλισμό.

Και απλώς για να σας δώσω μια γρήγορη επισκόπηση, επειδή γίνεται ένα άλλο σχόλιο σχετικά με τη σημασία της δυνατότητας επέκτασης παραδοσιακών βάσεων δεδομένων, νέων βάσεων δεδομένων κλπ., Υλοποιούμε ή εγκαθιστούμε εκτός του cluster. Και προωθούμε τα δυαδικά μας αρχεία απευθείας στον διαχειριστή πόρων, YARN. Και αυτό, και στη συνέχεια το YARN το διανέμει στους κόμβους του συμπλέγματος. Και αυτό που κάνει είναι ότι είναι το YARN - επιτρέπουμε στο YARN να διαχειρίζεται και να κάνει τη δουλειά του, που είναι να υπολογίσει πού είναι τα δεδομένα και να μεταφέρει την εργασία στα δεδομένα, τον κώδικα στα δεδομένα και να μην μετακινήσει τα δεδομένα γύρω. Όταν ακούτε εργαλεία ποιότητας δεδομένων και σας λένε ότι η καλύτερη πρακτική είναι να μετακινήσετε τα δεδομένα από τον Hadoop, τρέξτε για τη ζωή σας, επειδή δεν είναι ακριβώς ο τρόπος που είναι. Θέλετε να πάρετε την εργασία στα δεδομένα. Και αυτό κάνει πρώτα το YARN. Παίρνει τα δυαδικά αρχεία μας στους κόμβους όπου βρίσκονται τα δεδομένα.

Και επίσης επειδή είμαστε έξω από το σύμπλεγμα, μπορούμε επίσης να έχουμε πρόσβαση σε όλες τις παραδοσιακές και σχεσιακές βάσεις δεδομένων, ώστε να έχουμε θέσεις εργασίας που είναι 100% εξυπηρετητής πελάτη σε μια παραδοσιακή βάση δεδομένων, 100% Hadoop ή υβριδικές εργασίες που περνούν σε server πελάτη Hadoop , Oracle, Teradata - ό, τι θέλεις και όλοι στην ίδια δουλειά, γιατί αυτή η εφαρμογή μπορεί να έχει πρόσβαση και στις δύο πλευρές του κόσμου.

Και έπειτα, πηγαίνοντας πίσω σε όλη την ιδέα της γοητείας των εργαλείων, βλέπετε εδώ, αυτή είναι απλά μια απλή αναπαράσταση. Και αυτό που προσπαθούμε να κάνουμε είναι να απλοποιήσουμε τον κόσμο. Και ο τρόπος που κάνουμε αυτό είναι να φέρει ένα πολύ ευρύ σύνολο λειτουργιών γύρω από το HDFS για να το κάνει ... Και δεν είναι επειδή προσπαθούμε να εξαλείψουμε όλες τις καινοτόμες τεχνολογίες εκεί έξω. Απλώς οι επιχειρήσεις χρειάζονται σταθερότητα και δεν τους αρέσουν οι λύσεις που βασίζονται σε κώδικες. Επομένως, αυτό που προσπαθούμε να κάνουμε είναι να δώσουμε στις επιχειρήσεις ένα οικείο, επαναλαμβανόμενο, συνεκτικό περιβάλλον εφαρμογής που τους δίνει τη δυνατότητα να χτίζουν και να επεξεργάζονται δεδομένα με έναν πολύ προβλέψιμο τρόπο.

Γρήγορα, αυτό είναι το είδος των επιπτώσεων που έχουμε με την εφαρμογή μας. Βλέπετε MapReduce vs. Pig vs. RedPoint - δεν υπάρχουν γραμμές κώδικα στο RedPoint. Έξι ώρες ανάπτυξης στο MapReduce, τρεις ώρες ανάπτυξης στο Pig και 15 λεπτά ανάπτυξης στο RedPoint. Και εδώ έχουμε πραγματικά τεράστιο αντίκτυπο. Ο χρόνος επεξεργασίας είναι επίσης ταχύτερος, αλλά ο χρόνος των ανθρώπων, ο χρόνος παραγωγικότητας των ανθρώπων, αυξάνεται σημαντικά.

Και η τελική μου διαφάνεια εδώ, θέλω να επιστρέψω σε αυτήν την ιδέα, γιατί αυτή είναι η ανάληψη της χρήσης μιας λίμνης δεδομένων ή ενός κόμβου δεδομένων ή ενός διυλιστηρίου δεδομένων ως κεντρικού σημείου πρόσληψης. Δεν θα μπορούσε να συμφωνήσει περισσότερο με αυτή την ιδέα. Και τώρα συζητάμε με πολλούς επικεφαλής αξιωματούχων δεδομένων των μεγάλων παγκόσμιων τραπεζών και αυτή είναι η αρχιτεκτονική της επιλογής.Η κατάποση δεδομένων από όλες τις πηγές κάνει την επεξεργασία της ποιότητας των δεδομένων και τη διαχείριση των βασικών δεδομένων μέσα στη λίμνη δεδομένων και, στη συνέχεια, προωθεί δεδομένα όπου πρέπει να πάει για να υποστηρίξει εφαρμογές, για να υποστηρίξει το BI, ό, τι μπορεί να είναι. Και έπειτα, αν έχετε αναλυτικά στοιχεία στο BI, μπορούν να τρέξουν απευθείας μέσα στη λίμνη δεδομένων, όπου το καλύτερο, που μπορεί να ξεκινήσει αμέσως. Αλλά πάρα πολύ με την ιδέα αυτή. Αυτή η τοπολογία είναι αυτή που είναι - ότι διαπιστώνουμε ότι κερδίζει πολλή έλξη από την αγορά. Και, αυτό είναι.

Eric: Εντάξει, καλό. Ας πάμε δεξιά εδώ. Θα προχωρήσω και θα το παραδώσω στον Keith. ¶Και, Keith, πήρατε περίπου 10, 12 λεπτά για να πετάξετε το σπίτι εδώ. Πήραμε λίγο για λίγο σε αυτές τις συναυλίες. Και διαφημίσαμε 70 λεπτά για αυτό. Έτσι, απλά προχωρήστε και κάντε κλικ οπουδήποτε σε εκείνη την διαφάνεια και χρησιμοποιήστε το κάτω βέλος και αφαιρέστε το.

Κέιθ: Σίγουρα. Δεν υπάρχει πρόβλημα, Eric. Το εκτιμώ. Πάω να προχωρήσω και να χτυπήσω μόνο μερικά κομμάτια για το SAS, τότε θα προχωρήσω, κατευθείαν στις τεχνολογικές αρχιτεκτονικές όπου ο SAS τέμνει τον μεγάλο κόσμο των δεδομένων. Υπάρχουν πολλά που πρέπει να εξηγήσετε σε όλα αυτά τα πράγματα. Θα μπορούσαμε να περάσουμε ώρες σε αυτό με μεγάλη λεπτομέρεια, αλλά δέκα λεπτά - θα πρέπει να είστε σε θέση να περπατήσετε μακριά με μια σύντομη κατανόηση του πού η SAS έχει αναλύσει, διαχείριση δεδομένων και τεχνολογίες επιχειρηματικών πληροφοριών σε αυτόν τον μεγάλο κόσμο δεδομένων.

Πρώτον, μόνο λίγο για το SAS. Εάν δεν είστε εξοικειωμένοι με αυτήν την οργάνωση, έχουμε κάνει τα τελευταία 38 χρόνια προηγμένες αναλύσεις, επιχειρηματική ευφυΐα και διαχείριση δεδομένων όχι μόνο με μεγάλα δεδομένα, αλλά και με μικρά δεδομένα και πλούτο δεδομένων για τα τελευταία 38 χρόνια. Έχουμε ένα τεράστιο υπάρχον πόδι πελατών, περίπου 75.000 sites σε όλο τον κόσμο, που συνεργάζονται με μερικούς από τους κορυφαίους οργανισμούς εκεί έξω. Είμαστε ένας ιδιωτικός οργανισμός με περίπου 13.000 υπαλλήλους και έσοδα 3 δισεκατομμυρίων δολαρίων. Και πραγματικά, υποθέτω ότι το σημαντικό κομμάτι είναι ότι παραδοσιακά έχουμε μια μακρόχρονη ιστορία της επανεπένδυσης σημαντικών ποσών των εσόδων μας στην οργάνωση Ε & Α, η οποία πραγματικά έχει φέρει πολλές από αυτές τις εκπληκτικές τεχνολογίες και πλατφόρμες, θα δείτε σήμερα.

¶Έτσι, πρόκειται να μεταβείτε απευθείας σε αυτά τα πραγματικά τρομακτικά αρχιτεκτονικά διαγράμματα. Θα δουλέψουμε από αριστερά προς τα δεξιά στις διαφάνειες μου. Έτσι, υπάρχουν οικεία πράγματα που θα δείτε μέσα σε αυτήν την πλατφόρμα. Από την αριστερή πλευρά, όλες αυτές οι πηγές δεδομένων που μιλάμε για τη λήψη σε αυτές τις μεγάλες πλατφόρμες δεδομένων. Και τότε, έχετε αυτή τη μεγάλη πλατφόρμα δεδομένων.

Δεν έχω βάλει τη λέξη Hadoop εκεί στην κορυφή, γιατί τελικά τα παραδείγματα που πρόκειται να δώσω σήμερα είναι ειδικά γύρω από όλες τις τεχνολογίες όπου τέμνουμε με αυτές τις μεγάλες πλατφόρμες δεδομένων. Ο Hadoop συμβαίνει απλώς να είναι ένας από αυτούς όπου έχουμε μερικές από τις πιο ισχυρές επιλογές ανάπτυξης, αλλά επίσης διασταυρώνονται αρκετά και έχουμε αναπτύξει πολλές από αυτές τις τεχνολογίες εδώ και αρκετό καιρό με μερικούς από τους άλλους συνεργάτες μας για αποθήκες δεδομένων όπως το Teradata, Oracle, Pivotal και τα παρόμοια. Δεν μπορώ λοιπόν να βρω λεπτομέρειες για το πώς υποστηρίζονται όλες οι διαφορετικές τεχνολογίες σε ποια πλατφόρμα, αλλά απλώς είμαστε σίγουροι ότι όλοι αυτοί που περιγράφω σήμερα είναι κυρίως όλοι οι Hadoop και ένα τεράστιο μέρος αυτών διασυνδέεται με άλλους τεχνολογικούς εταίρους που έχουμε. Έτσι, έχουμε τόσο μεγάλη εκείνη την πλατφόρμα που κάθεται εκεί.

Στην επόμενη ακριβώς δεξιά, έχουμε τον αναλυτικό διακομιστή SAS LASR. Τώρα, αυτό ουσιαστικά, είναι ένας μαζικά παράλληλος σε διακομιστή αναλυτικής εφαρμογής μνήμης. Θα είμαστε σαφείς ότι δεν είναι μια βάση δεδομένων μνήμης. Έχει σχεδιαστεί πραγματικά από το έδαφος. Δεν είναι η μηχανή ερώτησης, αλλά έχει σχεδιαστεί για να εξυπηρετεί αναλυτικά αιτήματα σε μαζική κλίμακα σε μαζικά παράλληλο τρόπο. Έτσι, αυτό είναι οι εφαρμογές κλειδιού υπηρεσίας που βλέπετε εκεί στη δεξιά πλευρά.

Θα μοιραστώ λίγο περισσότερο σαν, ξέρετε, πώς οι άνθρωποι αναπτύσσουν αυτά τα πράγματα. Αλλά ουσιαστικά, η εφαρμογή - βλέπετε εκεί - η πρώτη, είναι τα αναλυτικά στοιχεία υψηλής απόδοσης του SAS. Αυτό θα είναι - χρησιμοποιώ πολλές υπάρχουσες τεχνολογίες και πλατφόρμες όπως το Enterprise Miner ή απλώς ένα SAS και όχι μόνο να κάνουμε multithreading με ορισμένους από αυτούς τους αλγορίθμους που έχουμε ενσωματώσει σε αυτά τα εργαλεία που έχουμε κάνει για αλλά και μαζικά παράλληλα με αυτά. Έτσι, για να μεταφέρουμε τα δεδομένα από τη μεγάλη πλατφόρμα δεδομένων στο χώρο μνήμης σε αυτόν τον αναλυτικό διακομιστή LASR, έτσι ώστε να μπορέσουμε να εκτελέσουμε αναλυτικούς αλγόριθμους - γνωρίζετε ότι πολλά νέα μηχανήματα μάθησης, νευρικά δίκτυα, τυχαίες παλινδρομήσεις των δασών, αυτά τα είδη πράγματα - και πάλι, τα δεδομένα που κάθεται στη μνήμη. Επομένως, να απαλλαγούμε από αυτό το συγκεκριμένο σημείο παρεμπόδισης του Paradigm MapReduce, όπου κατατάσσονται σε αυτές τις πλατφόρμες, αυτό δεν είναι ο τρόπος που θέλετε να κάνετε αναλυτική εργασία. Έτσι, θέλουμε να είμαστε σε θέση να αφαιρέσουμε τα δεδομένα μια φορά στον χώρο μνήμης και να επαναλάβουμε μέσα από αυτό, ξέρετε, μερικές φορές χιλιάδες φορές. Έτσι, αυτή είναι η έννοια της χρήσης του αναλυτικού διακομιστή LASR υψηλής απόδοσης.

Επίσης, οι άλλες εφαρμογές κάτω από αυτήν, οι οπτικές αναλύσεις, που μας επιτρέπουν να διατηρούμε αυτά τα δεδομένα στη μνήμη και να εξυπηρετούμε έναν μεγαλύτερο πληθυσμό στα ίδια δεδομένα. Έτσι, επιτρέποντας στους ανθρώπους να κάνουν μεγάλη εξερεύνηση δεδομένων. Έτσι, πριν κάνουμε τα μοντέλα μας, εξερευνούμε δεδομένα, καταλαβαίνουμε, τρέχουμε συσχετισμούς, κάνουμε προβλέψεις ή δέντρα αποφάσεων - τέτοιου είδους πράγματα - αλλά με έναν πολύ οπτικό, διαδραστικό τρόπο για τα δεδομένα που κάθεται στη μνήμη πλατφόρμα. Αυτό εξυπηρετεί επίσης την κοινότητα BI μας, έχοντας μια πολύ ευρεία βάση χρηστών που μπορεί να χτυπήσει εκείνη την πλατφόρμα για να κάνει τα τυποποιημένα είδη εγγραφής που θα δείτε - τα οποία σχεδόν όλοι, ξέρετε, πωλητής BI εκεί έξω.

Το επόμενο βήμα, θα μεταφερθεί στην υπηρεσία. Και για να βοηθήσουμε τους στατιστικολόγους και τους ανθρώπους μας για την ανάλυση να μπορούν να κάνουν αυτό το είδος ad-hoc μοντελοποίησης με δεδομένα που βρίσκονται στη μνήμη, αφαιρούνται από την οπτική ανάλυση και την εξερεύνηση στην εφαρμογή οπτικών στατιστικών. Αυτή είναι μια ευκαιρία για τους ανθρώπους να λάβουν, να μην τρέξει στατιστικά στοιχεία σε παρτίδες που χρησιμοποιούνται για το είδος της επανάληψης μέσω, τρέξτε τα μοντέλα, δείτε τα αποτελέσματα. Έτσι, αυτό μπορεί να τρέξει το μοντέλο, δείτε τα αποτελέσματα. Αυτό συμβαίνει με την οπτική μεταφορά και απόθεση σε αλληλεπιδραστικό στατιστικό μοντέλο. Έτσι, αυτή η υπηρεσία των στατιστικολόγων μας και των επιστημόνων δεδομένων μας κάνει πολλά από αυτά τα πρώιμα εξερευνητικά οπτικά στατιστικά έργα.

Και τότε, δεν έχουμε ξεχάσει τους κωδικοποιητές μας - οι άνθρωποι που πραγματικά θέλουν να έχουν, να είναι σε θέση να αποκολλήσουν τα στρώματα της διεπαφής απέναντι, είναι να γράψουν εφαρμογές, και να γράψουν τη δική τους βάση κώδικα στο SAS. Και αυτά είναι τα στατιστικά στοιχεία για την Hadoop. Και αυτό είναι το ουσιαστικά το στρώμα κώδικα που μας επέτρεψε να αλληλεπιδράσουμε με αυτόν τον αναλυτικό διακομιστή LASR για να εκδίδουμε εντολές απευθείας και να προσαρμόζουμε αυτές τις εφαρμογές με βάση το αίτημά μας. Αυτό είναι το αναλυτικό κομμάτι.

Πώς αυτά τα πράγματα έχουν ρυθμιστεί ... Ωχ, λυπάμαι παιδιά. Πάμε εκεί.

Έτσι, υπάρχουν πραγματικά μερικοί τρόποι με τους οποίους το κάνουμε αυτό. Το ένα είναι να το κάνουμε με μεγάλα δεδομένα - στην περίπτωση αυτή, με τον Hadoop. Και εδώ έχουμε το SAS LASR Analytic Server που λειτουργεί σε ξεχωριστό σύμπλεγμα μηχανών που είναι βελτιστοποιημένα για αναλυτικές αναλύσεις hardcore. Αυτό είναι τοποθετημένο ωραίο και κοντά στην πλατφόρμα μεγάλων δεδομένων, επιτρέποντάς μας να το χωρίσουμε χωριστά από τη μεγάλη πλατφόρμα δεδομένων. Λοιπόν, βλέπουμε τους ανθρώπους να κάνουν αυτό όταν δεν θέλουν να έχουν κάποιο είδος αυτού που χαρακτηρίζω σαν λογισμικό βαμπίρ να τρώει σε κάθε κόμβο του cluster Hadoop. Και δεν απαρτίζουν απαραιτήτως αυτή τη μεγάλη πλατφόρμα δεδομένων κατάλληλη για την ανίχνευση βαρέων ανυψωτικών στοιχείων στην μνήμη. Έτσι, μπορεί να έχετε 120 κόμβους του cluster Hadoop, αλλά μπορεί να έχουν 16 κόμβους αναλυτικών διακομιστών που έχουν σχεδιαστεί για να κάνουν αυτό το είδος εργασίας.

Εξακολουθούμε να μπορούμε να διατηρήσουμε αυτόν τον παραλληλισμό από τη μεγάλη πλατφόρμα δεδομένων για να τραβήξουμε τα δεδομένα στη μνήμη. Έτσι, είναι πραγματικά ένα SAS με την πλατφόρμα Hadoop. Ένα διαφορετικό μοντέλο ραντεβού είναι λοιπόν να πούμε, καλά, μπορούμε να χρησιμοποιήσουμε αυτήν την πλατφόρμα εμπορευμάτων και να το πιέσουμε αυτό - ουσιαστικά να τρέξουμε τον αναλυτικό διακομιστή LASR στις πλατφόρμες Hadoop. ¶ ¶Έτσι, εκεί που είμαστε ... είστε μέσα στη μεγάλη πλατφόρμα δεδομένων. Αυτά είναι επίσης μερικοί από τους άλλους πωλητές συσκευών μας επίσης. Έτσι, αυτό μας επέτρεψε ουσιαστικά να χρησιμοποιήσουμε αυτήν την πλατφόρμα εμπορευμάτων για να κάνουμε αυτή τη δουλειά.

Βλέπουμε ότι πιο συχνά με πράγματα όπως αναλύσεις υψηλών επιδόσεων όπου είναι ένα είδος αναλυτικής εκτέλεσης μιας χρήσης ή μιας χρήσης, περισσότερο είδος παρτίδας προσανατολισμένο όπου είστε - δεν θέλετε να καταναλώνετε απαραιτήτως το χώρο μνήμης στο Hadoop πλατφόρμα. Είμαστε πολύ ευέλικτοι σε αυτό το είδος μοντέλου ανάπτυξης, σίγουρα σε συνεργασία με το YARN σε πολλές από αυτές τις περιπτώσεις για να βεβαιωθούμε ότι παίζουμε ωραία συμπλέγματα.

Εντάξει, γι 'αυτό είναι ο αναλυτικός κόσμος, για να είμαστε σαφείς εκεί με την αναλυτική εφαρμογή. Αλλά ανέφερα ότι από την αρχή η SAS είναι επίσης μια πλατφόρμα διαχείρισης δεδομένων. Και υπάρχουν πράγματα που είναι κατάλληλα για να ωθηθεί η λογική σε αυτή την πλατφόρμα, όπου χρειάζεται. Έτσι, υπάρχουν μερικοί τρόποι με τους οποίους το κάνουμε αυτό. Ένας είναι στον κόσμο της ενσωμάτωσης των δεδομένων, κάνοντας δουλειές μετασχηματισμού δεδομένων σε δεδομένα μπορεί να μην έχει νόημα να το τραβήξουμε πίσω όπως έχουμε ακούσει πριν, τρέχοντας ρουτίνα ποιότητας δεδομένων που είναι μεγάλο. Θέλουμε να ωθήσουμε σίγουρα τα πράγματα όπως τα ρουτίνα ποιότητας δεδομένων προς τα κάτω σε αυτήν την πλατφόρμα. Και στη συνέχεια, πράγματα όπως η βαθμολόγηση μοντέλου. Έτσι, έχω αναπτύξει το μοντέλο μου. Δεν θέλω να ξαναγράψω αυτό το πράγμα στο MapReduce και να καταστήσω δύσκολο και χρονοβόρο για μένα να επαναλάβω αυτό το έργο στην πλατφόρμα της μητρικής βάσης δεδομένων.

Επομένως, εάν κοιτάξετε, για παράδειγμα, τον επιταχυντή βαθμολόγησης για τον Hadoop, αυτό μας επιτρέπει να παίρνουμε ουσιαστικά ένα μοντέλο και να σπρώχνουμε τη μαθηματική λογική SAS κάτω στην πλατφόρμα Hadoop και να την εκτελέσουμε εκεί χρησιμοποιώντας τον παραλληλισμό που βρίσκεται μέσα σε αυτή τη μεγάλη πλατφόρμα δεδομένων. Έχουμε έπειτα τον επιταχυντή κώδικα για διάφορες πλατφόρμες, συμπεριλαμβανομένου του Hadoop, και αυτό μας επιτρέπει ουσιαστικά να εκτελέσουμε τον κώδικα βημάτων δεδομένων SAS μέσα στην πλατφόρμα σε έναν μαζικά παράλληλο τρόπο - έτσι, κάνοντας τα είδη μετασχηματισμού των εργασιών της πλατφόρμας. Και έπειτα ο επιταχυντής ποιότητας δεδομένων SAS που μας επιτρέπει να έχουμε μια ποιοτική βάση γνώσεων που θα μπορεί να κάνει πράγματα όπως η αντιστοίχιση φύλου, ο κώδικας αντιστοιχίας τυποποίησης - όλα τα διαφορετικά πράγματα ποιότητας δεδομένων που έχετε ακούσει ήδη σήμερα.

Και έπειτα, τελευταίο κομμάτι, υπάρχει φορτωτής δεδομένων. Γνωρίζουμε ότι οι επιχειρησιακοί χρήστες μας θα πρέπει να είναι σε θέση να μην χρειαστεί να γράψουν κώδικα, αλλάζουν τις εργασίες μετασχηματισμού δεδομένων σε αυτές τις μεγάλες πλατφόρμες δεδομένων. Το Data Loader είναι ένα ωραίο WYSIWYG GUI που μας επιτρέπει να ολοκληρώσουμε μαζί αυτές τις άλλες τεχνολογίες. Είναι σαν ένας οδηγός που περνά μέσα από, για παράδειγμα, εκτελέστε ένα ερώτημα Hive ή εκτελέστε ρουτίνα ποιότητας δεδομένων και μην χρειαστεί να γράψετε κώδικα σε αυτή την περίπτωση.

Το τελευταίο πράγμα που θα αναφέρω είναι αυτό το μπροστινό κομμάτι. Έχουμε - όπως ανέφερα προηγουμένως - ένα τεράστιο πόδι SAS εκεί έξω στον κόσμο. Και αυτό, δεν μπορούμε απλά να κάνουμε όλες αυτές τις πλατφόρμες που είναι εκεί έξω να βρίσκονται σε αυτό το διάστημα αμέσως. Έτσι, έχουμε σίγουρα ένα υπάρχον πόδι χρηστών που πρέπει να βρουν δεδομένα που βρίσκονται σε αυτές τις μεγάλες πλατφόρμες δεδομένων, όπως η λήψη δεδομένων από το Teradata και η επανατοποθέτησή τους στον Hadoop και αντίστροφα. Εκτελώντας τα μοντέλα που ήδη γνωρίζω πώς να τρέχω στους διακομιστές SAS μου, αλλά πρέπει να βρω δεδομένα που τοποθετούνται τώρα στην πλατφόρμα Hadoop. Υπάρχει λοιπόν αυτό το μικρό εικονίδιο που ονομάζεται "από" και μας επιτρέπει να συνδεθούμε χρησιμοποιώντας τους κινητήρες πρόσβασης SAS - να προσπελάσουμε κινητήρες στον Hadoop στο Cloudera στην Pola, στο Teradata, στο Greenplum ... Και ο κατάλογος συνεχίζεται. Αυτό μας επιτρέπει να χρησιμοποιήσουμε τις υπάρχουσες ώριμες πλατφόρμες SAS που είναι ήδη στη διάθεσή μας για να λάβουμε δεδομένα από αυτές τις πλατφόρμες, να κάνουμε το έργο που πρέπει να κάνουμε, να ωθήσουμε τα αποτελέσματα πίσω σε αυτούς τους τομείς.

Το τελευταίο πράγμα που θα αναφέρω είναι ότι όλες αυτές οι τεχνολογίες που βλέπετε διέπονται από τα ίδια κοινά κοινά μεταδεδομένα. Έτσι, μιλάμε για να πάρουμε το έργο μετασχηματισμού, τον κανόνα της ποιότητας των δεδομένων στην εργασία, να το μετακινήσουμε στη μνήμη για να μπορέσουμε να κάνουμε αναλύσεις, την ανάπτυξη μοντέλων στη βαθμολόγηση. Έχουμε εκεί ολόκληρο τον αναλυτικό τρόπο ζωής, ο κύκλος ζωής διέπεται από κοινά μεταδεδομένα, από τη διακυβέρνηση, από την ασφάλεια, από όλα τα πράγματα που μιλήσαμε νωρίτερα σήμερα.

Έτσι, απλά μια ανακεφαλαίωση, υπάρχουν πραγματικά αυτά τα τρία μεγάλα πράγματα για να πάρει εκεί. Κάποιος είναι, μπορούμε να αντιμετωπίσουμε την πλατφόρμα δεδομένων όπως ακριβώς και κάθε άλλη πηγή δεδομένων, τραβώντας από αυτές, σπρώχνοντας τους όταν είναι κατάλληλο και βολικό. Μπορούμε να συνεργαστούμε με αυτές τις μεγάλες πλατφόρμες δεδομένων, καταχωρίζοντας τα δεδομένα σε μια προηγμένη αναλυτική πλατφόρμα μνήμης. Έτσι, αυτός είναι ο διακομιστής LASR.

Και στη συνέχεια, μπορούμε να εργαστούμε άμεσα σε αυτές τις μεγάλες πλατφόρμες δεδομένων, εκμεταλλευόμενοι τις ικανότητες διανομής επεξεργασίας τους χωρίς να μετακινούνται τα δεδομένα.

Eric: Λοιπόν, αυτό είναι φανταστικό πράγμα, λαοί. Ναι, αυτό είναι υπέροχο! Ας δούμε, λοιπόν, κάποιες ερωτήσεις. Συνήθως πάμε περίπου 70 λεπτά ή λίγο περισσότερο για αυτά τα γεγονότα. Έτσι, βλέπω ότι έχουμε ακόμα ένα μεγάλο ακροατήριο εκεί έξω. Ο Γιώργος, υποθέτω ότι θα σας ρίξω την πρώτη ερώτηση. Αν μιλάτε για την ώθηση του δυαδικού σας ήχου στον Hadoop, νομίζω ότι μου ακούγεται σαν να έχετε βελτιστοποιήσει πραγματικά την υπολογιστική ροή εργασίας. Και αυτό είναι το πλήρες κλειδί για να μπορέσετε να κάνετε αυτά τα είδη της διακυβέρνησης δεδομένων σε πραγματικό χρόνο, τα επιτεύγματα στυλ ποιότητας δεδομένων, γιατί αυτή είναι η αξία που θέλετε να πάρετε, σωστά; Εάν δεν θέλετε να επιστρέψετε στον παλιό κόσμο της MDM όπου είναι πολύ περίπλοκος και χρονοβόρος και πραγματικά πρέπει να αναγκάσετε τους ανθρώπους να ενεργούν με ορισμένους τρόπους, που σχεδόν ποτέ δεν δουλεύουν. Και λοιπόν, αυτό που κάνατε είναι ότι συμπυκνώσατε τον κύκλο του τι ήταν. Ας το ονομάσουμε ημέρες, εβδομάδες, μερικές φορές ακόμη μήνες μέχρι δευτερόλεπτα, έτσι; Είναι αυτό που συμβαίνει;

Γιώργος: Αυτό είναι σωστό, γιατί η κλίμακα που έχουμε και η απόδοση που βγαίνουμε από ένα συγκρότημα είναι πραγματικά συγκλονιστική όσον αφορά, απλά, ξέρετε, είμαι πάντα λίγο διστακτική για τα σημεία αναφοράς. Αλλά μόνο για την τάξη μεγέθους, όταν θα τρέχουμε ένα δισεκατομμύριο, 1,2 δισεκατομμύρια εγγραφές και κάνουμε μια πλήρη τυποποίηση διεύθυνσης - λέω ότι η μηχανή HP μεσαίας εμβέλειας - θα χρειαστεί, όπως ξέρετε, οκτώ μηχανές επεξεργαστών, ξέρετε , 2 συναυλίες μνήμης RAM ανά πυρήνα, ξέρετε, που θα χρειάζονταν 20 ώρες για να τρέξετε. Μπορούμε να το κάνουμε αυτό σε περίπου οκτώ λεπτά σε ένα, ξέρετε, 12-κόμβο σύμπλεγμα. Και έτσι, η κλίμακα της επεξεργασίας που μπορούμε να κάνουμε τώρα είναι τόσο διαφορετική από αυτή - και πηγαίνει πολύ ωραία με την ιδέα ότι έχετε όλα αυτά τα δεδομένα στη διάθεσή σας. Έτσι, δεν είναι τόσο επικίνδυνο να κάνει την επεξεργασία. Εάν το κάνατε λάθος, μπορείτε να το επαναλάβετε. Έχεις χρόνο, ξέρεις. Έχει πραγματικά αλλάξει την κλίμακα αυτού, όπου, ξέρετε, αυτά τα είδη κινδύνων έγιναν πραγματικά πραγματικά επιχειρησιακά προβλήματα για τους ανθρώπους όταν προσπαθούσαν να λειτουργήσουν λύσεις MDM. Θα πρέπει να έχετε 30 άτομα υπεράκτιες για τη διαχείριση δεδομένων και για όλα. Και έτσι, πρέπει να έχετε μερικά από αυτά, αλλά η ταχύτητα και η κλίμακα με την οποία μπορείτε να τα επεξεργαστείτε τώρα, πραγματικά σας δίνει πολύ περισσότερο χώρο αναπνοής.

Eric: Ναι, αυτό είναι πραγματικά, πραγματικά καλό σημείο. Μου αρέσει αυτό το σχόλιο. Έχετε λοιπόν χρόνο να το επαναλάβετε. Αυτό είναι φανταστικό.

Γιώργος: Ναι.

Eric: Λοιπόν, αλλάζει τη δυναμική, έτσι; Αλλάζει πώς σκέφτεστε τι πρόκειται να δοκιμάσετε. Θέλω να πω, θυμάμαι αυτό πριν από 18 χρόνια στη βιομηχανία της παραγωγής ειδικών εφέ, γιατί είχα έναν πελάτη που ήταν σε αυτό το διάστημα. Και θα πιέζετε τα κουμπιά για να το αποδώσετε και θα πάτε σπίτι. Και ήσασταν πίσω, ίσως το απόγευμα του Σαββάτου, για να δούμε πώς θα πήγαινε. Αλλά αν το λάθος, ήταν πολύ, πολύ, πολύ οδυνηρό. Και τώρα, δεν είναι σχεδόν - δεν είναι καν κοντά στο να είναι τόσο οδυνηρό, ώστε να έχετε την ευκαιρία να δοκιμάσετε περισσότερα πράγματα. Πρέπει να πω, νομίζω ότι αυτό είναι πραγματικά, πραγματικά καλό σημείο.

Γιώργος: Αυτό είναι σωστό. Ναι, και φυσά το επιπλέον πόδι σου. Ξέρετε, παίρνετε στα μισά του δρόμου μια δουλειά στις παλιές μέρες και αποτυγχάνει, έχετε φουσκώσει το SOS σας. Αυτό είναι.

Eric: Ναι. Και είσαι σε μεγάλο πρόβλημα, ναι. Σωστά.

Γιώργος: Αυτό είναι σωστό. Σωστά.

Eric: Keith, επιτρέψτε μου να ρίξω ένα σε εσένα. Θυμάμαι να κάνουμε μια συνέντευξη με το CIL σας, ο Keith Collins, πιστεύω, πίσω στο, νομίζω, το 2011 ίσως. Και μίλησε πολύ για την κατεύθυνση που έλαβε η SAS ειδικά σε σχέση με τη συνεργασία με τους πελάτες για να ενσωματώσει τα αναλυτικά στοιχεία που προέρχονται από το SAS σε λειτουργικά συστήματα. Και φυσικά, ακούσαμε τον Mike Ferguson να μιλάει για τη σημασία της μνήμης. Η όλη ιδέα εδώ είναι ότι θέλετε να είστε σε θέση να συνδέσετε αυτά τα πράγματα στις λειτουργίες σας. Δεν θέλετε ανάλυση σε κενό, αποσυνδεδεμένη από την επιχείρηση. Αυτό δεν είναι καθόλου αξία.

Αν θέλετε ανάλυση που μπορεί να επηρεάσει άμεσα και να βελτιστοποιήσει τις λειτουργίες. Και αν κοιτάω πίσω - και πρέπει να πω, σκέφτηκα ότι είναι μια καλή ιδέα εκείνη την εποχή - μοιάζει με μια πραγματικά, πραγματικά έξυπνη ιδέα σε εκ των υστέρων. Και υποθέτω, αυτό είναι ένα πραγματικό πλεονέκτημα που έχετε. Και φυσικά, αυτή η μεγάλη κληρονομιά, αυτή η τεράστια βάση εγκατάστασης και το γεγονός ότι εστιάσατε στην ενσωμάτωση αυτών των αναλυτικών στοιχείων σε επιχειρησιακά συστήματα, που σημαίνει τώρα - και που έχουν χορηγηθεί, πρόκειται να πάρει κάποια εργασία - Έχω δουλέψει σε αυτό αρκετά σκληρά. Αλλά τώρα, μπορείτε να εκμεταλλευτείτε όλες αυτές τις νέες καινοτομίες και είστε πραγματικά μέσα από το να είναι σε θέση να λειτουργήσει όλα αυτά τα πράγματα με τους πελάτες σας. Είναι μια δίκαιη αξιολόγηση;

Κέιθ: Ναι, απολύτως. Η ιδέα είναι ότι παίρνετε αυτήν την ιδέα σχεδιασμού αποφάσεων ή επιστημών αποφάσεων που είναι, ξέρετε, σε κάποιο βαθμό αυτό που είναι διερευνητικό, επιστημονικό είδος. Εκτός αν μπορείτε να κάνετε μηχανική για τη διαδικασία πραγματικά ... Εάν σκέφτεστε για την ανάπτυξη ενός αυτοκινήτου, έχετε σχεδιαστές που κάνουν αυτό το όμορφο αυτοκίνητο, αλλά δεν είναι μέχρι οι μηχανικοί να θέσει το σχέδιο σε ισχύ και να κάνει ένα πραγματικό βιώσιμο προϊόν πριν από σας μπορεί πραγματικά να θέσει τα πράγματα σε ισχύ, και αυτό είναι ουσιαστικά αυτό που έκανε η SAS. Έχει συγχωνεύσει τη διαδικασία λήψης αποφάσεων - αποφάσεων μαζί με τη διαδικασία λήψης αποφάσεων μαζί, έτσι ώστε όταν μιλάτε για τους επιταχυντές, οι επιταχυντές βαθμολόγησης συγκεκριμένα, ξέρετε, εάν πάρετε ένα μοντέλο που αναπτύξατε και μπορείτε να το σπρώξετε έξω στο Teradata, ή να το σπρώξετε προς την Oracle ή τον Hadoop, με μηδενικό χρόνο διακοπής για την ανάπτυξη μοντέλου, για να διαμορφώσετε την ανάπτυξη. Αυτό είναι το κλειδί, επειδή τα μοντέλα υποβαθμίζονται με την πάροδο του χρόνου, την ακρίβεια αυτών των μοντέλων. Έτσι, όσο περισσότερο χρειάζεται για να το πάρετε αυτό και να το φέρετε σε παραγωγή, αυτή είναι η απώλεια ακρίβειας μοντέλου.

Και τότε, το άλλο κομμάτι είναι, θέλετε να είστε σε θέση να παρακολουθήσετε και να διαχειριστείτε τη διαδικασία με την πάροδο του χρόνου. Θέλετε να εξαντλήσετε τα μοντέλα όταν γίνονται παλιά και ανακριβή. Θέλετε να το δείτε, να ελέγχετε την ακρίβεια αυτών με την πάροδο του χρόνου και να τις ξαναχτίζετε. Και έτσι, έχουμε εργαλεία διαχείρισης μοντέλων που κάθονται πάνω σε αυτό, επίσης, που παρακολουθεί πραγματικά τα μεταδεδομένα γύρω από τη μοντελοποιημένη διαδικασία. Και οι άνθρωποι έχουν πει ότι η μοντελοποίηση, ξέρετε, αυτό το είδος ιδέας είναι σαν ένα μοντέλο εργοστάσιο, ή ό, τι θέλετε να το ονομάσετε. Το θέμα είναι ότι βάζει τα μεταδεδομένα και τη διαχείριση σε εξέλιξη και εκεί είναι τα τρία μεγάλα πράγματα που χτυπήσαμε - βοηθάμε τους ανθρώπους να κερδίζουν χρήματα, να εξοικονομούν χρήματα και να τους κρατούν έξω από τη φυλακή.

Eric: Αυτός ο τελευταίος είναι αρκετά μεγάλος. Ψάχνω να αποφύγω όλα αυτά. Ας μιλήσουμε λοιπόν ...Δίνω μια τελευταία ερώτηση, ίσως και εσείς ο καθένας να μπορεί να πηδήξει σε αυτό το θέμα. Η ανομοιογένεια του κόσμου μας θα αυξηθεί μόνο, μου φαίνεται. Νομίζω ότι σίγουρα θα δούμε κάποια κρυστάλλωση γύρω από τα υβριδικά περιβάλλοντα σύννεφων. Αλλά παρ 'όλα αυτά, θα δείτε πολλούς σημαντικούς παίκτες να κολλάνε. Η IBM δεν πηγαίνει οπουδήποτε. Η Oracle δεν πηγαίνει οπουδήποτε. Η SAP δεν πηγαίνει οπουδήποτε. Και υπάρχουν τόσοι άλλοι πωλητές που συμμετέχουν σε αυτό το παιχνίδι.

Επίσης, στην επιχειρησιακή πλευρά, όπου έχετε κυριολεκτικά χιλιάδες και χιλιάδες διαφορετικά είδη εφαρμογών. Και άκουσα - οι περισσότεροι από εσάς μιλάνε για αυτό, αλλά νομίζω ότι και οι δύο θα συμφωνούσατε με αυτά που έχω πει. Έχουμε δει αυτή την τάση τώρα από την άποψη της υπολογιστικής εξουσίας σε αναλυτικές μηχανές, αρχιτεκτονική. Οι εταιρείες μιλάνε εδώ και χρόνια για να μπορέσουν να αξιοποιήσουν τους άλλους κινητήρες εκεί έξω και να εξυπηρετήσουν ένα είδος ενορχηστρωτικού σημείου. Και υποθέτω, Γιώργος, θα σας το ρίξω πρώτα. Μου φαίνεται ότι είναι κάτι που δεν πρόκειται να αλλάξει. Πρόκειται να έχουμε αυτό το ετερογενές περιβάλλον που σημαίνει ότι υπάρχουν πράγματα όπως CRM σε πραγματικό χρόνο και ποιότητα δεδομένων και διακυβέρνηση δεδομένων. Θα χρειαστείτε, ως πωλητή, να συνδεθείτε με όλα αυτά τα διαφορετικά εργαλεία. Και αυτό είναι που οι πελάτες πρόκειται να θέλουν. Δεν πρόκειται να θέλουν κάτι που το κάνει καλά με αυτά τα εργαλεία και δεν είναι τόσο εντάξει με αυτά τα εργαλεία. Πρόκειται να θέλουν την Ελβετία του MDM και του CRM, σωστά;

Γιώργος: Αυτό είναι σωστό. Και είναι ενδιαφέρον, γιατί έχουμε πολύ αγκαλιάσει αυτό. Μέρος της είναι η ιστορία που είχαμε στο χώρο. Και προφανώς, εργαζόμαστε ήδη σε όλες τις άλλες βάσεις δεδομένων, τους Teradatas και τα κομμάτια του κόσμου. Και στη συνέχεια, έκανε τη - στη διαδικασία υλοποίησης, και συγκεκριμένα τον τρόπο που κάναμε, ακριβώς έτσι ώστε να - έχετε αυτό το span σε όλες αυτές τις διάφορες βάσεις δεδομένων. Ένα από τα πράγματα που θεωρώ ενδιαφέροντα είναι ότι έχουμε κάποιους πελάτες που είναι απλώς εξωφρενικοί στην εξάλειψη όλων των σχεσιακών βάσεων δεδομένων. Και αυτό είναι ενδιαφέρον. Ξέρεις, είναι εντάξει. Είναι ενδιαφέρον. Αλλά δεν βλέπω να συμβαίνει πραγματικά σε μια μεγάλη κλίμακα επιχειρήσεων. Δεν βλέπω να συμβαίνει εδώ και πολύ καιρό. Έτσι, πιστεύω ότι το υβρίδιο είναι εδώ για πολύ καιρό και στην άλλη πλευρά της εφαρμογής μας, όπου έχουμε την πλατφόρμα ανταλλαγής μηνυμάτων στην πλατφόρμα διαχείρισης της καμπάνιας μας. Σχεδιάσαμε ειδικά αυτό ειδικά. Τώρα κυκλοφόρησε μια έκδοση που κάνει αυτό και μπορεί να συνδεθεί τώρα με το περιβάλλον δεδομένων για τα υβριδικά δεδομένα και να διερευνήσει τον Hadoop ή να διερευνήσει οποιαδήποτε βάση δεδομένων, οποιαδήποτε αναλυτική βάση δεδομένων. Επομένως, νομίζω ότι αυτό είναι μόνο το κύμα του μέλλοντος. Και συμφωνώ ότι η εικονικοποίηση θα παίξει σίγουρα ένα μεγάλο ρόλο σε αυτό, αλλά είμαστε απλά - πηγαίνουμε δεξιά στα δεδομένα για όλες τις εφαρμογές μας.

Eric: Εντάξει, ωραία. Και, Keith, θα σας το ρίξω. Τι νομίζετε για τον ετερογενή κόσμο που αντιμετωπίζουμε όταν ενεργούμε σαν ένα πόδι;

Keith: Ναι, είναι πραγματικά συναρπαστικό. Νομίζω, τι βρίσκουμε περισσότερο - όχι μόνο στην πλευρά διαχείρισης δεδομένων - αλλά αυτό που πραγματικά συναρπάζει τώρα είναι η φύση ανοιχτού κώδικα της βάσης των αναλύσεων. Επομένως, βλέπουμε οργανισμούς όπως ή τεχνολογίες όπως το Spark που έρχονται επί του σκάφους και οι άνθρωποι που χρησιμοποιούν Python και R και όλες αυτές τις άλλες τεχνολογίες ανοιχτού κώδικα. Νομίζω ότι θα μπορούσε να ερμηνευτεί ως είδος σύγκρουσης ή απειλής σε κάποιο βαθμό. Αλλά η πραγματικότητα είναι ότι έχουμε πραγματικά υπέροχα συγχαρητήρια με όλες αυτές τις τεχνολογίες ανοιχτού κώδικα. Εννοώ, για ένα, λειτουργούμε πάνω από πλατφόρμες ανοιχτού κώδικα, για το Θεό.

Αλλά, όπως και για παράδειγμα, ένα μοντέλο R σε ένα παράδειγμα SAS σάς επιτρέπει να χρησιμοποιείτε τα καλύτερα και των δύο κόσμων, σωστά; Όπως και έτσι γνωρίζουμε ότι μερικά από τα πειραματικά πράγματα στον ακαδημαϊκό κόσμο και ορισμένα από τα έργα ανάπτυξης μοντέλων είναι εξαιρετικά και πολύ χρήσιμα στη διαδικασία ανάπτυξης μοντέλων. Αλλά και αν μπορούσατε να συνδυάσετε το προϊόν με ένα είδος εργαλείου κλάσης παραγωγής, το κάνετε πολύ καθαρισμό και ποιότητα και ελέγξτε και βεβαιωθείτε ότι τα δεδομένα που δίνουν το μοντέλο είναι σωστά προετοιμασμένα ώστε να μην αποτύχει κατά την εκτέλεση. Και στη συνέχεια, να είναι σε θέση να κάνει πράγματα όπως πρωταθλητής πρόκληση μοντέλα με μοντέλα ανοιχτού κώδικα. Αυτά είναι τα πράγματα που εξετάζουμε για να επιτρέψουμε και ως μέρος αυτού του πραγματικά ετερογενούς οικοσυστήματος όλων αυτών των τεχνολογιών. Ναι, έτσι είναι περισσότερο - για εμάς, είναι περισσότερο για να αγκαλιάσει τις τεχνολογίες αυτές και να αναζητήσει τα συγχαρητήρια.

Eric: Λοιπόν, αυτό ήταν φανταστικό πράγμα, λαοί. Πήγαμε λίγο εδώ, αλλά θα θέλαμε να βρούμε όσο το δυνατόν περισσότερες ερωτήσεις. Θα διαβιβάσουμε σήμερα το αρχείο Q & A στους παρουσιαστές μας. Έτσι, εάν οποιαδήποτε ερώτηση που ρωτήσατε δεν απαντήθηκε, θα διασφαλίσουμε ότι θα απαντηθεί. Και οι λαοί, αυτό αναδιπλώνεται για το 2014. Αληθινά στο ραδιόφωνο DM αύριο και την επόμενη εβδομάδα, και έπειτα όλα γίνονται και είναι ένα διάλειμμα διακοπών.

Τόσες ευχαριστίες σε όλους σας για το χρόνο και την προσοχή σας, για να κολλήσετε μέσα από όλα αυτά τα υπέροχα webcasts. Έχουμε ένα υπέροχο έτος για το 2015. Και θα σας μιλήσουμε σύντομα, παιδιά. Ευχαριστώ και πάλι. Θα φροντίσουμε. Αντίο.