Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα;

Συγγραφέας: Laura McKinney
Ημερομηνία Δημιουργίας: 4 Απρίλιος 2021
Ημερομηνία Ενημέρωσης: 26 Ιούνιος 2024
Anonim
Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα; - Τεχνολογία
Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα; - Τεχνολογία

Περιεχόμενο

Ερ:

Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε μεγάλα δεδομένα;


ΕΝΑ:

Η απάντηση στην ερώτηση είναι ένα ηχηρό ΝΑΙ. Μπορεί να υπάρχουν πάρα πολλά δεδομένα σε ένα μεγάλο έργο δεδομένων.

Υπάρχουν πολλοί τρόποι με τους οποίους αυτό μπορεί να συμβεί και διάφοροι λόγοι για τους οποίους οι επαγγελματίες πρέπει να περιορίσουν και να καθαρίσουν τα δεδομένα με οποιονδήποτε τρόπο για να πάρουν τα σωστά αποτελέσματα. (Διαβάστε 10 μεγάλους μύθους σχετικά με τα μεγάλα δεδομένα.)

Σε γενικές γραμμές, οι ειδικοί μιλούν για τη διαφοροποίηση του "σήματος" από τον "θόρυβο" σε ένα μοντέλο. Με άλλα λόγια, σε μια θάλασσα μεγάλων δεδομένων, τα σχετικά δεδομένα διορατικότητας καθίστανται δύσκολα στοχευμένα. Σε ορισμένες περιπτώσεις, ψάχνετε για μια βελόνα σε ένα άχυρα.

Για παράδειγμα, ας υποθέσουμε ότι μια εταιρεία προσπαθεί να χρησιμοποιήσει μεγάλα δεδομένα για να δημιουργήσει συγκεκριμένες πληροφορίες για ένα τμήμα μιας πελατειακής βάσης και για τις αγορές τους σε ένα συγκεκριμένο χρονικό πλαίσιο. (Διαβάστε τι κάνουν τα μεγάλα δεδομένα;)


Η συγκέντρωση τεράστιου αριθμού στοιχείων δεδομένων μπορεί να έχει ως αποτέλεσμα τη λήψη τυχαίων δεδομένων που δεν σχετίζονται ή μπορεί να προκαλέσει ακόμη και μεροληψία που στρεβλώνει τα δεδομένα σε μια ή την άλλη κατεύθυνση.

Επίσης επιβραδύνει δραματικά τη διαδικασία, καθώς τα συστήματα πληροφορικής πρέπει να παλεύουν με μεγαλύτερα και μεγαλύτερα σύνολα δεδομένων.

Σε τόσα πολλά διαφορετικά είδη έργων, η εξαιρετικά σημαντική για τους μηχανικούς δεδομένων να επεξεργάζονται τα δεδομένα σε περιορισμένα και ειδικά σύνολα δεδομένων - στην παραπάνω περίπτωση, θα ήταν μόνο τα δεδομένα για το συγκεκριμένο τμήμα των πελατών που μελετήθηκαν, μόνο τα δεδομένα εκείνης της χρονικής περιόδου το πλαίσιο που μελετάται και μια προσέγγιση που εξαλείφει πρόσθετα αναγνωριστικά ή πληροφορίες φόντου που μπορούν να μπερδέψουν τα πράγματα ή να επιβραδύνουν τα συστήματα. (Ρόλος ReadJob: Μηχανικός δεδομένων.)

Για περισσότερα, μπορείτε να δείτε πώς λειτουργεί αυτό στα σύνορα της μηχανικής μάθησης. (Διαβάστε τη μάθηση μηχανών 101.)


Οι εμπειρογνώμονες μηχανικής μάθησης μιλούν για κάτι που ονομάζεται "overfitting" όπου ένα υπερβολικά περίπλοκο μοντέλο οδηγεί σε λιγότερο αποτελεσματικά αποτελέσματα όταν το πρόγραμμα εκμάθησης μηχανών είναι χαλαρό σε νέα δεδομένα παραγωγής.

Η υπερφόρτωση συμβαίνει όταν ένα πολύπλοκο σύνολο σημείων δεδομένων ταιριάζει με μια αρχική εκπαίδευση πολύ καλά και δεν επιτρέπει στο πρόγραμμα να προσαρμόζεται εύκολα σε νέα δεδομένα.

Τώρα τεχνικά, η υπερφόρτωση δεν προκαλείται από την ύπαρξη πάρα πολλών δειγμάτων δεδομένων, αλλά από τη στέψη πάρα πολλών σημείων δεδομένων. Αλλά θα μπορούσατε να υποστηρίξετε ότι το να έχετε πάρα πολλά δεδομένα μπορεί να συνεισφέρει και σε αυτό το είδος προβλήματος. Η ενασχόληση με την κατάρα των διαστάσεων περιλαμβάνει μερικές από τις ίδιες τεχνικές που έγιναν σε προηγούμενα μεγάλα έργα δεδομένων, καθώς οι επαγγελματίες προσπάθησαν να εντοπίσουν τι έφεραν τα συστήματα πληροφορικής.

Η ουσία είναι ότι τα μεγάλα δεδομένα μπορούν να είναι εξαιρετικά χρήσιμα για τις εταιρείες ή μπορεί να αποτελέσουν μείζονα πρόκληση. Μια πτυχή αυτού είναι αν η εταιρεία έχει τα σωστά δεδομένα στο παιχνίδι. Οι ειδικοί γνωρίζουν ότι δεν είναι σκόπιμο να απλώς να απορρίπτουν όλα τα στοιχεία ενεργητικού σε μια χοάνη και να καταλήξουν σε ιδέες με αυτόν τον τρόπο - σε νέα σύννεφα-μητρική και εξελιγμένα συστήματα δεδομένων, υπάρχει μια προσπάθεια να ελέγχουν και να διαχειρίζονται και να καθαρίζουν τα δεδομένα, αποτελεσματική χρήση στοιχείων περιουσιακών στοιχείων.