Πώς είναι δομημένα τα δεδομένα σας; Εξέταση δομημένων, μη δομημένων και ημι-δομημένων δεδομένων

Συγγραφέας: Roger Morrison
Ημερομηνία Δημιουργίας: 25 Σεπτέμβριος 2021
Ημερομηνία Ενημέρωσης: 21 Ιούνιος 2024
Anonim
Πώς είναι δομημένα τα δεδομένα σας; Εξέταση δομημένων, μη δομημένων και ημι-δομημένων δεδομένων - Τεχνολογία
Πώς είναι δομημένα τα δεδομένα σας; Εξέταση δομημένων, μη δομημένων και ημι-δομημένων δεδομένων - Τεχνολογία

Περιεχόμενο



Πηγή: monsitj / iStockphoto

Πάρε μακριά:

Μάθετε για δομημένα, αδόμητα και ημιδομημένα δεδομένα.

Ιστορικά, οι αναλυτές δεδομένων ήταν σε θέση να αποκρυπτογραφήσουν και να εξάγουν πληροφορίες από ένα μόνο τύπο δεδομένων: δομημένα δεδομένα. Αυτός ο τύπος δεδομένων ήταν εύκολος να αναζητηθεί λόγω των σαφών προτύπων του, αλλά αντιπροσώπευε ένα μικρό ποσοστό των συνολικών διαθέσιμων δεδομένων.

Τα μη δομημένα δεδομένα περιελάμβαναν βίντεο, ήχο, s και δεδομένα που προέρχονταν από κοινωνικά μέσα και κινητές συσκευές. Ήταν, με τα χέρια κάτω, το μεγαλύτερο απόθεμα ανεπεξέργαστων πληροφοριών, αλλά κανείς δεν μπόρεσε να αξιοποιήσει αξιόπιστα αυτόν τον πόρο.

Τα πράγματα άλλαξαν, ωστόσο, καθώς η αυξημένη διαθεσιμότητα αποθήκευσης και οι ανώτερες δυνατότητες επεξεργασίας γέννησαν μη δομημένες αναλύσεις δεδομένων - μια νέα, και άρα ανώριμη μορφή τεχνολογίας. Η καλύτερη επιχειρηματική ευφυΐα επωφελείται πλήρως από αυτή την ευκαιρία και πραγματοποιούνται σημαντικές επενδύσεις για τη συγκέντρωση δομημένων και αδόμητων αναλυτικών δεδομένων για την πρόσβαση σε αυτήν την προφανώς ατελείωτη χρυσοθήκη πληροφοριών.


Ας δούμε αυτές τις δύο μορφές δεδομένων για να κατανοήσουμε τις διαφορές τους και τι ισχύει για όλους τους αναλυτές δεδομένων.

Τι είναι δομημένα δεδομένα;

Τα δομημένα δεδομένα είναι πληροφορίες ανθρώπινου ή μηχανικού και εξαιρετικά οργανωμένες που μπορούν εύκολα να αποθηκευτούν σε δομές βάσεων δεδομένων που είναι γνωστές ως σχεσιακές βάσεις δεδομένων (RDBs). Είναι οτιδήποτε υπάρχει σε μια μορφή που μπορεί εύκολα να καταγραφεί, να αποθηκευτεί και να οργανωθεί σε μια δομή RDB για να αναλυθεί αργότερα. (Για να μάθετε περισσότερα σχετικά με τις βάσεις δεδομένων, ανατρέξτε στην Εισαγωγή στις Βάσεις Δεδομένων.)

Τα παραδείγματα περιλαμβάνουν ταχυδρομικούς κώδικες, αριθμούς τηλεφώνου και δημογραφικά στοιχεία χρηστών όπως ηλικία ή φύλο. Τα δεδομένα που βρίσκονται σε αυτές τις βάσεις δεδομένων μπορούν να αναζητηθούν με λειτουργίες SQL (Structured Query Language) ή VLOOKUP σε υπολογιστικά φύλλα του Excel. Μπορούν επίσης να γίνουν αλγόριθμοι για την ταχεία αναζήτηση δεδομένων που βρίσκονται στα διάφορα πεδία χρησιμοποιώντας τα ευρετήρια τους ή τα αριθμητικά και αλφαβητικά τους δεδομένα. Ωστόσο, όλα τα δεδομένα ορίζονται αυστηρά από άποψη τύπου πεδίου και ονόματος και η δυνατότητα αποθήκευσης, διερεύνησης και ανάλυσης περιορίζεται σε κάποιο βαθμό.


Τυπικές εφαρμογές που χρησιμοποιούν δομημένα δεδομένα περιλαμβάνουν λογισμικό διαχείρισης νοσοκομείων, εφαρμογές διαχείρισης σχέσεων με πελάτες (CRM) και συστήματα κράτησης αεροπορικών εταιρειών. Λόγω της τακτοποιημένης οργάνωσης και της εύκολης προσβασιμότητας, τα δομημένα δεδομένα είναι χρήσιμα και αποτελεσματικά όταν ασχολούνται με μεγάλους όγκους πληροφοριών. Κατά τη διάτρηση για το μαύρο πετρέλαιο που είναι κρυμμένο στην ατελείωτη ποσότητα δεδομένων που παράγεται καθημερινά από την ανθρωπότητα, όμως, η αναζήτηση δομημένων δεδομένων δεν είναι παρά το ξύσιμο της επιφάνειας.

Τι είναι μη δομημένα δεδομένα;

Η συντριπτική πλειοψηφία των δεδομένων που βρέθηκαν σε έναν οργανισμό είναι αδόμητη, και κάποια εκτιμούν ότι αποτελούν μέχρι και το 80% των συνολικών δεδομένων που είναι σήμερα διαθέσιμα. Εξ ορισμού, τα μη δομημένα δεδομένα είναι όλα που δεν έχουν αναγνωρίσιμη εσωτερική δομή. Ωστόσο, ορισμένοι τύποι δεδομένων εμπίπτουν στην κατηγορία αυτή έχετε κάποια μορφή αόριστης εσωτερικής δομής, αλλά δεν είναι σύμφωνη με βάση δεδομένων ή υπολογιστικό φύλλο.

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας


Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Τα περισσότερα επιχειρηματικά δεδομένα είναι αδόμητα, κυμαινόμενα από τις αλληλεπιδράσεις εξυπηρέτησης πελατών, τα αρχεία, τα αρχεία καταγραφής ιστού, τα βίντεο και άλλα περιεχόμενα πολυμέσων, τις αυτοματοποιήσεις πωλήσεων, τα μηνύματα κοινωνικής δικτύωσης και κοινωνικής δικτύωσης. Δεν χρειάζεται να εξηγήσουμε πόσο πολύτιμα θα μπορούσαν να είναι τα δεδομένα αυτά, αν μπορούσαν να εξορύσσονται, να οργανώνονται και να αναλύονται.

Τα περισσότερα μη δομημένα δεδομένα δημιουργούνται από τους ανθρώπους και έτσι γίνονται κατανοητά από άλλους ανθρώπους. Αυτό σημαίνει ότι η ευφυέστερη ευφυΐα του υπολογιστή δεν κατανοεί αυτόν τον τύπο πληροφορίας, αφού είναι πολύ απομακρυσμένη από τη γραμμικότητα της γλώσσας μηχανής και των δομημένων βάσεων δεδομένων.

Πτώση μεταξύ: Ημι-δομημένα δεδομένα

Τα ημι-δομημένα δεδομένα είναι ένας τρίτος τύπος δεδομένων που αντιπροσωπεύει ένα πολύ μικρότερο κομμάτι ολόκληρης της πίτας (5-10 τοις εκατό). Κυριολεκτικά πιασμένοι μεταξύ των δύο κόσμων, τα ημι-δομημένα δεδομένα περιέχουν εσωτερικές σημασιολογικές ετικέτες και σημάνσεις που αναγνωρίζουν ξεχωριστά στοιχεία, αλλά δεν διαθέτουν τη δομή που απαιτείται για να χωρέσουν σε μια σχεσιακή βάση δεδομένων.

Για παράδειγμα, s μπορεί να φαίνεται σαν δομημένα δεδομένα αφού θα μπορούσαν να ταξινομηθούν ανάλογα με την ημερομηνία, το μέγεθος του αρχείου ή το χρόνο. Ωστόσο, δεν είναι, δεδομένου ότι η πιο πολύτιμη πληροφορία βρίσκεται μέσα σε αυτές, παρά στις σχετικά απλές ετικέτες. λοξοτομείτε αληθινά από το περιεχόμενο και το θέμα, αφού οι άνθρωποι δεν μιλάνε με τέτοια αυστηρά πρότυπα για να επιτρέψουν σε μια μηχανή να τα καταλάβει χωρίς αμφιβολία. Άλλα παραδείγματα ημιδομημένων δεδομένων περιλαμβάνουν τις βάσεις δεδομένων NoSQL, το ανοικτό πρότυπο JSON και τη γλώσσα σήμανσης XML.

Τα ημι-δομημένα δεδομένα συνήθως αναζητούνται και ταξινομούνται για ανάλυση χρησιμοποιώντας ανάλυση μεταδεδομένων. Για παράδειγμα, μια ανίχνευση ακτίνων Χ αποτελείται από έναν τεράστιο αριθμό εικονοστοιχείων που σχηματίζουν την εικόνα - τα οποία είναι εγγενώς μη δομημένα δεδομένα τα οποία δεν είναι προσβάσιμα. Ωστόσο, το αρχείο σάρωσης θα περιλαμβάνει ακόμα ένα τμήμα μεταδεδομένων που παρέχει πληροφορίες σχετικά με αυτό, όπως σχολιασμοί και αναγνωριστικό χρήστη.

Μπορούν τα μη δομημένα δεδομένα να μετατραπούν σε δομημένα δεδομένα;

Η βασική πρόκληση την οποία πρέπει να αντιμετωπίσει κάθε αναλυτής δεδομένων είναι να οργανώσει τις πληροφορίες που βρίσκονται σε τακτά χρονικά διαστήματα, με τακτοποιημένο τρόπο, έτσι ώστε να είναι δυνατή η πρόσβαση και η κατανόησή τους. Τα εργαλεία εξόρυξης δεδομένων συνήθως δεν είναι εξοπλισμένα για να αναλύουν πληροφορίες οι οποίες, εξ ορισμού, είναι πολύ παρόμοιες με την ανθρώπινη γλώσσα, πράγμα που σημαίνει ότι μόνο ένας άλλος άνθρωπος μπορεί να τις συλλέξει και να τις κατηγοριοποιήσει.

Ωστόσο, ο τεράστιος όγκος των αδόμητων δεδομένων κάνει κάθε προσπάθεια αποθήκευσης ή οργάνωσης εξαιρετικά επίπονης και δαπανηρής. Η συλλογή πληροφοριών που προέρχονται, για παράδειγμα, από μια μηχανή αναζήτησης στο διαδίκτυο είναι τόσο τεράστια, ότι τα περισσότερα στοιχεία απαιτούν μια τεράστια επένδυση όσον αφορά την εργασία και τους πόρους μόνο για να εξαγάγετε τα πιο βασικά. Ακόμα και οι πιο αποτελεσματικές τεχνικές εξόρυξης δεδομένων εξακολουθούν να χάνουν μια σημαντική ποσότητα πληροφοριών που βρίσκονται στο διαδίκτυο και, ακόμη χειρότερα, μέσα στον βαθύ ιστό.

Αλλά υπάρχουν τεχνικές. Και αναπτύσσονται με εκπληκτική ταχύτητα. Για παράδειγμα, τα μεταδεδομένα θα μπορούσαν να χρησιμοποιηθούν για τη σύνδεση δομημένων και αδόμητων δεδομένων μαζί. Οι πληροφορίες που συλλέγονται μπορούν να φιλτραριστούν και να αναπροσαρμοστούν από τους χρήστες και τους αλγορίθμους, καθώς και να αναλυθούν τα σχετικά δεδομένα. Άλλες λύσεις περιλαμβάνουν την "διερεύνηση δεδομένων", η οποία είναι μια διαδικασία μέσω της οποίας τα σύνθετα δεδομένα οργανώνονται προοδευτικά βήμα προς βήμα από μη τεχνικούς χρήστες. (Για περισσότερες πληροφορίες σχετικά με τους συνήθεις χρήστες που χειρίζονται δεδομένα, ανατρέξτε στην ενότητα Πώς μπορούν να βοηθήσουν μεγάλα δεδομένα σε αυτοματοποιημένα Analytics.)

Σε κάποιο σημείο, θα είμαστε σε θέση να μετασχηματίσουμε αποτελεσματικά αυτά τα μαζικά ανοργάνωτα ποσά πληροφοριών σε μια πιο οργανωμένη και αναδιαρθρωμένη μορφή. Ίσως όχι σήμερα, ίσως όχι αύριο, αλλά σύντομα θα μπορέσουμε να επιτεθούμε στο μεγαλύτερο θόλο που έχει δει ποτέ η ανθρωπότητα: μεγάλα δεδομένα.