Όταν η SQL Isnt Enough: Έλεγχοι για μαζικά νέα κέντρα δεδομένων

Βίντεο: SAP S/4HANA Accelerated Plan to Product -SAP PP Επισκόπηση. SAP S/4HANA PP Episkópisi.

Περιεχόμενο

Σύστημα αρχείων Google: Μια Μεγάλη Μελέτη Περιπτώσεων
No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας
Μια ματιά στην τεχνολογία πυρήνα
Πώς τα άλλα μεγάλα συστήματα επιτυγχάνουν αυτό;
Διατήρηση ενός DFS

Πάρε μακριά:

Οι προγραμματιστές και οι μηχανικοί πρέπει να εργάζονται συνεχώς για να επιταχύνουν και να βελτιώσουν τις υπηρεσίες τους σε πλατφόρμες που έχουν ξεπεράσει τα κλασικά αρχέτυπα της δεκαετίας του 1990.

Με όλο το βόμβο για τα τεράστια κέντρα δεδομένων NSA που κρατούν gazillions των δεδομένων bit για την ιδιωτική ζωή μας, υπάρχει ένα πράγμα που δεν έχει μιλήσει για πολλά, τουλάχιστον για το CNN. Περιλαμβάνει ένα πρόβλημα μηχανικής που προέκυψε μαζί με την τεχνολογία σύννεφων, τα μεγάλα δεδομένα και τα εντυπωσιακά φυσικά κέντρα αποθήκευσης δεδομένων που κατασκευάζονται σε όλο τον κόσμο. Οπότε, τι είναι? Λοιπόν, ανεξάρτητα από το ποιος διαχειρίζεται ένα από τα μεγάλα συστήματα πληροφορικής που λειτουργούν αυτές τις εγκαταστάσεις, υπάρχει ανάγκη για συστήματα λογισμικού που βοηθούν όλα αυτά τα δεδομένα να εισέρχονται και να εξέρχονται από τον αγωγό γρήγορα. Αυτή η ανάγκη αντιπροσωπεύει ένα από τα πιο ενδιαφέροντα ερωτήματα πληροφορικής ή παζλ που αντιμετωπίζουν σήμερα οι επαγγελματίες.

Όπως επισημαίνουν πολλοί ειδικοί, η σημερινή υπερβολική ζήτηση για επεξεργασία δεδομένων ξεπερνά τις παραδοσιακές προσεγγίσεις. Με απλά λόγια, η χρήση απλών δομών βάσεων δεδομένων και εργαλείων, όπως η διασύνδεση επερωτήσεων SQL, δεν πρόκειται να προσφέρει αρκετή ισχύ επεξεργασίας ή λειτουργικότητα για τα οφέλη των ιδιοκτησιακών συστημάτων που έχουν αναπτυχθεί τα τελευταία χρόνια. Τα αρχεία των σημερινών μεγάλων εταιρειών τεχνολογίας χρειάζονται εξαιρετικά επεκτάσιμη τεχνολογία. Χρειάζονται εργαλεία επεξεργασίας δεδομένων που μπορούν να εισάγουν και να εξάγουν αποτελέσματα σε πολύ υψηλότερο όγκο από ό, τι μπορεί να διευκολύνει ένας μόνος εξυπηρετητής. Χρειάζονται λύσεις που μπορούν να αναπτυχθούν γρήγορα για ανάπτυξη, λύσεις που περιλαμβάνουν πολύπλοκα επίπεδα τεχνητής νοημοσύνης, λύσεις σχεδιασμένες για εύκολη διαχείριση από ένα τμήμα πληροφορικής.

Το ερώτημα είναι πώς οι εταιρείες και οι κυβερνητικοί οργανισμοί κατακτούν τους περιορισμούς της παραδοσιακής οδού διαχείρισης δεδομένων; Εδώ μπορείτε επίσης να ρίξετε μια ματιά σε μια πολύ ελπιδοφόρα επιλογή: Λογισμικό που χειρίζεται μεγάλα δεδομένα και τη διαχείριση πολλών κέντρων δεδομένων.

Σύστημα αρχείων Google: Μια Μεγάλη Μελέτη Περιπτώσεων

Η ιδιόκτητη τεχνολογία που χρησιμοποιεί η Google για την πρόσβαση στα κέντρα δεδομένων της είναι ένα από τα καλύτερα παραδείγματα κοινών μοντέλων για τη διαχείριση μεγάλων δεδομένων και τη διαχείριση πολλαπλών κέντρων δεδομένων. Το σύστημα αρχείων Google (GFS), το οποίο αναπτύχθηκε το 2003, έχει σχεδιαστεί για να υποστηρίξει τον τεράστιο όγκο τροποποιήσεων υψηλής ταχύτητας στα συστήματα δεδομένων που αποτελούν μέρος της απόκτησης τόσων πολλών νέων πληροφοριών μέσα και έξω από μια ενιαία πλατφόρμα, καθώς εκατομμύρια χρήστες κάνουν κλικ μακριά την ίδια ώρα. Οι ειδικοί αναφέρονται σε αυτό ως ένα κατανεμημένο σύστημα αρχείων και χρησιμοποιούν τον όρο "storage object object" για να περιγράψουν αυτές τις εξαιρετικά περίπλοκες τεχνικές. Στην πραγματικότητα, όμως, αυτοί οι όροι δεν γρατζουνίζουν ακόμη και την επιφάνεια με όρους που περιγράφουν τι λειτουργεί.

Μεμονωμένα, τα χαρακτηριστικά και τα στοιχεία που αποτελούν ένα σύστημα όπως το GFS μπορεί να μην είναι πια πρωτοποριακά, αλλά είναι πολύπλοκα. Πολλοί από αυτούς καλύπτονται σε αυτόν τον ιστότοπο ως σχετικά νέες καινοτομίες που αποτελούν μέρος της βάσης για ένα νέο, πάντα συνδεδεμένο, πάντα συνδεδεμένο παγκόσμιο σύστημα πληροφορικής. Συλλογικά, ένα σύστημα όπως το GFS είναι πολύ περισσότερο από το άθροισμα των τμημάτων του: είναι ένα πολύ αόρατο αλλά εξαιρετικά πολύπλοκο δίκτυο που γεμίζει με μεμονωμένα κομμάτια δεδομένων που ρίχνονται με αυτόν τον τρόπο και ότι σε μια διαδικασία που, εάν είναι πλήρως μοντελοποιημένη οπτικά, μοιάζει με χάος. Η κατανόηση του πού πηγαίνουν όλα τα δεδομένα απαιτεί πολλή ενέργεια και δέσμευση, καθώς θα μπορούν εύκολα να παραδεχτούν όσοι ασχολούνται με τους σταθμούς μάχης αυτών των συστημάτων.

"Υπάρχουν πάρα πολλές λεπτομέρειες που έχουν βαθύ αντίκτυπο στους τομείς της χρηστικότητας - συμπεριλαμβανομένου του εξωτερικού και του εσωτερικού κατακερματισμού, των ενημερώσεων με βάση το log και των επιτόπιων ενημερώσεων και των επιπέδων της συνέπειας των συναλλαγών - για να συνοψίσουμε τον τρόπο με τον οποίο λειτουργεί σε μια σύντομη πρόταση , "λέει ο Momchil Michailov, Διευθύνων Σύμβουλος και συνιδρυτής του Sanbolic.

"Ένα κατανεμημένο σύστημα αρχείων είναι είτε ένας κατανεμημένος συσσωρευτής χώρων τοπικών ονομάτων και ελεύθεροι χώροι συμμετεχόντων κόμβων είτε ένα τοπικό σύστημα αρχείων που εκτελείται σε πολλούς κόμβους που έχουν πρόσβαση σε κοινόχρηστο αποθηκευτικό χώρο με τη βοήθεια ενός κατανεμημένου στοιχείου διαχειριστή κλειδώματος", ανέφερε.

Ο Kerry Lebel είναι ανώτερος διευθυντής προϊόντων της Automic, μιας εταιρείας γνωστής για τις πλατφόρμες αυτοματοποίησης που διαθέτει. Ο Lebel λέει ότι ενώ είναι ακριβές να περιγράψουμε ένα DFS ως ένα σύστημα που απλά αναθέτει φορτία στους διακομιστές που συνδέονται με κομμάτια υλικού χαμηλού κόστους, αυτό δεν λέει πραγματικά ολόκληρη την ιστορία.

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

"Αυτό που καταλήγετε λείπει είναι όλος ο δροσερός παράγοντας πως κάνουν ό, τι κάνουν ", είπε ο Lebel.

Όταν απομακρύνεστε από τις τεχνικές λεπτομέρειες και απλά σκεφτείτε τη βασική ιδέα πίσω από το κατανεμημένο σύστημα αρχείων, ο «δροσερός παράγοντας» που μιλάει ο Lebel είναι προφανής. Αυτά τα μεγάλα συστήματα επεξεργασίας δεδομένων αντικαθιστούν τα παλιά συστήματα αρχείων / φακέλων με δομές που περιλαμβάνουν όχι μόνο πολλαπλά συστήματα παράδοσης αλλά προσέγγιση «προσανατολισμένη σε αντικείμενα», όπου ένας μεγάλος αριθμός μονάδων αφαιρείται εδώ και εκεί για να αποφευχθεί η συμφόρηση.

Σκεφτείτε, για παράδειγμα, ένα υπερσύγχρονο σύστημα αυτοκινητοδρόμων, όπου εκατοντάδες χιλιάδες αυτοκίνητα δεν κατευθύνονται απλά κάτω από ένα πολύπλευρο, αλλά βυθίζονται σε καθαρό φύλλο τριφύλλιων ή υποκατάστημα, που περιστρέφονται και αποστέλλονται προς τους προορισμούς τους σε μια ποικιλία παρακάμψεων. Από τον ουρανό, όλα φαίνονται σαν χορογραφημένα σαν ελβετικό ρολόι. Αυτό είναι το είδος του οπτικού μοντέλου που εξετάζουν οι μηχανικοί όταν ονειρεύονται νέους τρόπους για να κατευθύνουν τις πληροφορίες γύρω από τους περιορισμούς, "κλοτσιάζοντάς το" σε διαφορετικά επίπεδα ενός σχήματος περιορισμού των δεδομένων σε πολλά επίπεδα. Αφήνοντας κατά μέρος τις προδιαγραφές, αυτός είναι ο στόχος του ανώτατου επιπέδου ενός συστήματος χειρισμού: να διατηρεί αυτά τα αυτοτελείς αντικείμενα με τα ενσωματωμένα μεταδεδομένα τους που κινούνται με την τελική ταχύτητα σε εκείνο που πρέπει να είναι, να επιτυγχάνουν στόχους συνεκτικότητας, να ικανοποιούν έναν τελικό χρήστη ή ακόμη και για την ενημέρωση μιας παρατήρησης ή ανάλυσης υψηλού επιπέδου.

Μια ματιά στην τεχνολογία πυρήνα

Ένα άρθρο του Sean Gallagher που εμφανίστηκε στην Ars Technica σπάει το σχεδιασμό του GFS σε κάπως πιο διαχειρίσιμα μέρη και υποδεικνύει τι είναι κάτω από το φύλλο της Google.

Το GFS ξεκινά με ένα περιττό και ανθεκτικό σφάλμα μοντέλο για τα δεδομένα που διαβάζει και γράφει. Η ιδέα εδώ είναι ότι αντί να γράφει μια συγκεκριμένη ενημέρωση σε μια ενιαία μονάδα δίσκου, τα νέα συστήματα γράφουν κομμάτια δεδομένων σε πολλούς προορισμούς. Με αυτόν τον τρόπο, εάν αποτύχει η εγγραφή, θα παραμείνουν και άλλοι. Για να γίνει αυτό, ένα βασικό στοιχείο δικτύου εκμεταλλεύεται το χειρισμό δεδομένων σε άλλες δευτερεύουσες μονάδες, επανασυνδέοντας τα δεδομένα όταν ένας πελάτης «καλεί» γι 'αυτό. Όλα αυτά καθίστανται δυνατά από ένα πρωτόκολλο μεταδεδομένων που βοηθά να εντοπίσουμε πού συγκεκριμένες ενημερώσεις και αποτελέσματα μετάδοσης βρίσκονται μέσα στο μεγαλύτερο σύστημα.

Μια άλλη πολύ σημαντική πτυχή αυτού είναι το πώς αυτά τα διπλά βαρύ συστήματα επιβάλλουν τη συνέπεια των δεδομένων. Όπως σημειώνει ο Gallagher, το σχέδιο του GFS θυσιάζει κάποια συνέπεια, ενώ παράλληλα "επιβάλλει την ατομικότητα", ή προστατεύει την αρχή του τρόπου με τον οποίο τα δεδομένα ενημερώνονται σε πολλαπλές μονάδες αποθήκευσης για να ταιριάζουν με την πάροδο του χρόνου. Το "μοντέλο χαλαρής συνέπειας" της Google φαίνεται να ακολουθεί τη βασική θεωρία του μοντέλου BASE, η οποία παρέχει μεγαλύτερη ευελιξία σε αντάλλαγμα για μεγαλύτερο χρονικό διάστημα για την επιβολή της συνέπειας.

Πώς τα άλλα μεγάλα συστήματα επιτυγχάνουν αυτό;

"Όταν επιτευχθεί επαρκής κλίμακα, οι ανακολουθίες ή οι φθορές στα δεδομένα καθίστανται αναπόφευκτες", λέει ο Μιχαήλ. "Ως εκ τούτου, πρωταρχικός στόχος των κατανεμημένων συστημάτων αρχείων πρέπει να είναι η δυνατότητα να διεξάγονται όσο το δυνατόν περισσότερες επιχειρήσεις με την παρουσία διαφθοράς, παρέχοντας παράλληλα αποτελεσματικές μεθόδους αντιμετώπισης της διαφθοράς ταυτόχρονα". Ο Michailov αναφέρει επίσης την ανάγκη διατήρησης της απόδοσης με την προσεκτική εφαρμογή της απόλυσης.

"Για παράδειγμα, η δημιουργία μεταδεδομένων (δεδομένα σχετικά με τα δεδομένα) σε κάθε δίσκο επιτρέπει στον δίσκο να επαναδημιουργήσει τη σωστή δομή δεδομένων, αν το αντίγραφό του είναι καθυστερημένο", δήλωσε ο Μιχαήλ. "Επιπλέον, τα επίπεδα RAID μπορούν να χρησιμοποιηθούν για να καταπολεμήσουν τις αποτυχίες αποθήκευσης είτε στο σύστημα συσσωρευτών του συστήματος αρχείων είτε στα επίπεδα διαχειριστή κοινόχρηστου όγκου."

Συζητώντας ένα άλλο μοντέλο συνέπειας, ο Lebel επικεντρώνεται σε ένα σύστημα που ονομάζεται σύστημα κατανομής αρχείων Hadoop (HDFS), το οποίο ονομάζεται "πρότυπο de facto".

Σε HDFS, λέει ο Lebel, κάθε μπλοκ δεδομένων αναπαράγεται τρεις φορές σε διαφορετικούς κόμβους και σε δύο διαφορετικά ράφια. Τα δεδομένα ελέγχονται από άκρο σε άκρο. Οι αποτυχίες αναφέρονται στο NameNode, ένας χειριστής δεδομένων που ξεφορτώνεται από διεφθαρμένα μπλοκ και δημιουργεί νέα.

Όλα αυτά υποστηρίζουν τα είδη των "καθαρών δεδομένων" που είναι τόσο σημαντικά για την ακεραιότητα ενός από αυτά τα συστήματα μαζικών δεδομένων.

Διατήρηση ενός DFS

Μια άλλη πολύ διαφορετική ματιά στο GFS προέρχεται από ένα άρθρο του Οκτωβρίου του Wired συγγραφέα Steven Levy. Είναι πολύ πιο σύντομο για τον χαρακτηρισμό της προσέγγισης λογισμικού για το συλλογικό χειρισμό δικτύου από την κορυφή προς τα κάτω της Google.

«Με τα χρόνια», γράφει ο Levy, «η Google έχει επίσης κατασκευάσει ένα σύστημα λογισμικού που της επιτρέπει να διαχειρίζεται τους αμέτρητους διακομιστές της σαν να ήταν μια γιγαντιαία οντότητα. Οι προγραμματιστές της μπορούν να δρουν σαν κουκλοπαίχτες, εργασίες τόσο εύκολα όσο τρέχει ένα μόνο μηχάνημα. "

Κάτι τέτοιο συνεπάγεται επίσης τόνους cyber-based και περιβαλλοντικής συντήρησης, από ειδικές ομάδες δοκιμών που προσπαθούν να "σπάσουν" τα συστήματα διακομιστών, σε προσεκτικά ελεγχόμενες θερμοκρασίες στις αίθουσες της κρυπτογραφίας δεδομένων.

Η Levy αναφέρει επίσης συμπληρωματικές τεχνολογίες για το GFS, όπως το MapReduce, ένα εργαλείο εφαρμογών cloud και τον Hadoop, έναν μηχανισμό ανάλυσης που μοιράζεται κάποιες αρχές σχεδίασης με το GFS. Αυτά τα εργαλεία έχουν τον δικό τους αντίκτυπο στο πόσο μεγάλα συστήματα διαχείρισης των κέντρων δεδομένων σχεδιάζονται και ποια είναι πιθανό να προκύψουν στο μέλλον. (Μάθετε περισσότερα σχετικά με αυτές τις τεχνολογίες στην εξέλιξη των μεγάλων δεδομένων.)

Ο Michailov πιστεύει ότι το MapReduce έχει τη δυνατότητα να υποστηρίζει ολοένα και μεγαλύτερα συστήματα κέντρων δεδομένων και μιλά για μια "ενιαία εφαρμογή" κοινών και συγκεντρωτικών συστημάτων αρχείων τα οποία θα μπορούσαν να "διατηρήσουν τους κόμβους ονομάτων ενός συγκεντρωτικού συστήματος αρχείων σε κοινόχρηστο σύμπλεγμα με SSD για αποθήκευση . "

Από τη δική του πλευρά, ο Lebel βλέπει μια μετακίνηση μακριά από την επεξεργασία παρτίδων (η μέθοδος υποστηριζόμενη από τον Hadoop) στην επεξεργασία ροής, η οποία θα φέρει αυτές τις λειτουργίες δεδομένων πιο κοντά σε πραγματικό χρόνο.

"Όσο ταχύτερα μπορούμε να επεξεργαστούμε τα δεδομένα και να τα θέσουμε στη διάθεση των υπεύθυνων για τη λήψη επιχειρηματικών αποφάσεων ή στους πελάτες μας, τόσο περισσότερο ανταγωνιστικό πλεονέκτημα θα υπάρξει", λέει ο Lebel, ο οποίος προτείνει επίσης την αντικατάσταση της παραπάνω ορολογίας επεξεργασίας με όρους που επικεντρώνονται στην τελικός χρήστης. Με το να σκεφτόμαστε τις "σύγχρονες" δραστηριότητες ή τις δραστηριότητες που συγχρονίζονται με τις δράσεις των τελικών χρηστών και τις "ασύγχρονες" δραστηριότητες που είναι πιο ευέλικτες όσον αφορά την υλοποίηση, ο Lebel λέει ότι οι εταιρείες μπορούν να χρησιμοποιήσουν SLAs και άλλους πόρους για να καθορίσουν τον τρόπο λειτουργίας ενός δεδομένου συστήματος υπηρεσιών .

Αυτό που όλα αυτά υποχωρούν, κατά μία έννοια, είναι ότι οι προγραμματιστές και οι μηχανικοί πρέπει να εργάζονται συνεχώς για να επιταχύνουν και να βελτιώσουν τις υπηρεσίες τους σε πλατφόρμες που έχουν ξεπεράσει τα κλασικά τους αρχέτυπα της δεκαετίας του 1990. Αυτό σημαίνει να εξετάζουμε με κριτικό πνεύμα το μηχανισμό των δεδομένων και να σπάζουμε τα σημεία συμφόρησης με τρόπους που υποστηρίζουν όχι μόνο έναν αυξανόμενο πληθυσμό, αλλά ότι η εκθετική αλλαγή συμβαίνει σε ταχύτητα διάρρηξης που οι επικριτές ονομάζουν "την επόμενη βιομηχανική επανάσταση". Είναι πιθανόν όσοι θα σπάσουν τα περισσότερα από αυτά τα μέτωπα θα καταλήξουν να κυριαρχούν στις αγορές και τις οικονομίες του μέλλοντος.