7 βήματα για την εκμάθηση της εξόρυξης δεδομένων και της επιστήμης των δεδομένων

Συγγραφέας: Eugene Taylor
Ημερομηνία Δημιουργίας: 12 Αύγουστος 2021
Ημερομηνία Ενημέρωσης: 22 Ιούνιος 2024
Anonim
The Third Industrial Revolution: A Radical New Sharing Economy
Βίντεο: The Third Industrial Revolution: A Radical New Sharing Economy

Περιεχόμενο


Πηγή: Paul Fleet / Dreamstime.com

Πάρε μακριά:

Η επιστήμη των δεδομένων είναι καλύτερο να διδαχτεί από την πράξη, αλλά ένα καλό θεμέλιο των στατιστικών και της μηχανικής μάθησης θέματα πάρα πολύ.

Με ρωτάει συχνά πώς να μαθαίνω την εξόρυξη δεδομένων και την επιστήμη των δεδομένων. Εδώ είναι η περίληψη μου.

Μπορείτε να μάθετε καλύτερα την εξόρυξη δεδομένων και την επιστήμη των δεδομένων κάνοντας, οπότε αρχίστε να αναλύετε τα δεδομένα το συντομότερο δυνατόν! Ωστόσο, μην ξεχάσετε να μάθετε τη θεωρία, δεδομένου ότι χρειάζεστε μια καλή βάση στατιστικής και μηχανικής μάθησης για να καταλάβετε τι κάνετε και να βρείτε πραγματικά νουγκέτς αξίας στο θόρυβο των μεγάλων δεδομένων.

Εδώ είναι επτά βήματα για την εκμάθηση της εξόρυξης δεδομένων και της επιστήμης των δεδομένων. Παρόλο που αριθμούνται, μπορείτε να τα κάνετε παράλληλα ή με διαφορετική σειρά.

  1. Γλώσσες: Μάθετε R, Python και SQL
  2. Εργαλεία: Μάθετε πώς να χρησιμοποιείτε εργαλεία εξόρυξης δεδομένων και απεικόνισης
  3. βιβλία: Διαβάστε τα εισαγωγικά βιβλία για να κατανοήσετε τα βασικά στοιχεία
  4. Εκπαίδευση: Παρακολουθήστε webinars, παρακολουθήστε μαθήματα και εξετάστε ένα πιστοποιητικό ή ένα πτυχίο στην επιστήμη των δεδομένων (Διαβάστε περισσότερα στο Ben Loricas Πώς να Αναζωογονηθεί ένας Data Scientist.)
  5. Δεδομένα: Ελέγξτε τους διαθέσιμους πόρους δεδομένων και βρείτε κάτι εκεί
  6. Διαγωνισμοί: Συμμετέχετε σε διαγωνισμούς εξόρυξης δεδομένων
  7. Αλληλεπίδραση με άλλους επιστήμονες δεδομένων, μέσω κοινωνικών δικτύων, ομάδων και συνεδριάσεων

Σε αυτό το άρθρο, χρησιμοποιώ την εξόρυξη δεδομένων και την επιστήμη των δεδομένων εναλλακτικά. Δείτε την παρουσίασή μου, Επισκόπηση βιομηχανίας Analytics, όπου εξετάζω την εξέλιξη και τη δημοτικότητα διαφόρων όρων όπως στατιστικές, ανακάλυψη γνώσης, εξόρυξη δεδομένων, προγνωστική ανάλυση, επιστήμη δεδομένων και μεγάλα δεδομένα.


1. Γλώσσες εκμάθησης

Μια πρόσφατη δημοσκόπηση KDnuggets διαπίστωσε ότι οι πιο δημοφιλείς γλώσσες για την εξόρυξη δεδομένων είναι οι R, Python και SQL. Υπάρχουν πολλοί πόροι για τον καθένα, για παράδειγμα:

  • Δωρεάν e-βιβλίο για την επιστήμη των δεδομένων με τον R
  • Ξεκινώντας με την Python για την Επιστήμη των Δεδομένων
  • Python για την Ανάλυση Δεδομένων: Ευέλικτα Εργαλεία για Πραγματικά Παγκόσμια Δεδομένα
  • Μια απαραίτητη Python: Προμήθεια δεδομένων στην επιστήμη των δεδομένων
  • W3 σχολεία Εκμάθηση SQL

2. Εργαλεία: Εξόρυξη Δεδομένων, Επιστήμη Δεδομένων και Λογισμικό Οπτικοποίησης

Υπάρχουν πολλά εργαλεία εξόρυξης δεδομένων για διαφορετικά καθήκοντα, αλλά είναι καλύτερο να μάθετε πώς να χρησιμοποιείτε μια σουίτα εξόρυξης δεδομένων που υποστηρίζει ολόκληρη τη διαδικασία ανάλυσης δεδομένων. Μπορείτε να ξεκινήσετε με εργαλεία ανοιχτού κώδικα (δωρεάν) όπως τα KNIME, RapidMiner και Weka.

Ωστόσο, για πολλές εργασίες ανάλυσης πρέπει να γνωρίζετε τη SAS, η οποία είναι το κορυφαίο εμπορικό εργαλείο και χρησιμοποιείται ευρέως. Άλλα δημοφιλή λογισμικά ανάλυσης και εξόρυξης δεδομένων περιλαμβάνουν το MATLAB, το StatSoft STATISTICA, τον Microsoft SQL Server, το Tableau, το IBM SPSS Modeler και το Rattle.


No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Η απεικόνιση αποτελεί ουσιαστικό μέρος κάθε ανάλυσης δεδομένων. Μάθετε πώς να χρησιμοποιείτε το Microsoft Excel (καλό για πολλές απλούστερες εργασίες), τα γραφικά R (ειδικά το ggplot2) και επίσης το Tableau - ένα εξαιρετικό πακέτο για την απεικόνιση. Άλλα καλά εργαλεία οπτικοποίησης περιλαμβάνουν το TIBCO Spotfire και το Miner3D.

3. βιβλία

Υπάρχουν πολλά βιβλία για την εξόρυξη δεδομένων και τα επιστημονικά δεδομένα, αλλά μπορείτε να τα ελέγξετε:

  • Εξόρυξη δεδομένων και ανάλυση: Θεμελιώδεις έννοιες και αλγόριθμοι, δωρεάν download στο PDF, από τον Mohammed Zaki και τον Wagner Meira Jr.
  • Εξόρυξη Δεδομένων: Εργαλεία και Τεχνικές Εκμάθησης Πρακτικών Μηχανών, από τους Ian Witten, Eibe Frank και Mark Hall, από τους συντάκτες του Weka, και με τη χρήση του Weka εκτενώς σε παραδείγματα
  • Τα στοιχεία της στατιστικής μάθησης, της εξόρυξης δεδομένων, συμπερασμάτων και πρόβλεψης, από τον Trevor Hastie, τον Robert Tibshirani, τον Jerome Friedman. Μια μεγάλη εισαγωγή για το μαθηματικά προσανατολισμένο
  • LIONbook: Μάθηση και έξυπνη βελτιστοποίηση, από τους Roberto Battiti και Mauro Brunato, ελεύθερα διαθέσιμες στο διαδίκτυο, κεφάλαιο ανά κεφάλαιο
  • Εξόρυξη βιβλίου μαζικών δεδομένων, από τον A. Rajaraman, J. Ullman
  • Το StatSoft Electronic Statistics book (δωρεάν), περιλαμβάνει πολλά θέματα εξόρυξης δεδομένων

4. Εκπαίδευση: Webinars, μαθήματα, πιστοποιητικά και βαθμοί

Μπορείτε να ξεκινήσετε παρακολουθώντας μερικά από τα πολλά δωρεάν webinars και webcasts σχετικά με τα τελευταία θέματα στην ανάλυση, τα μεγάλα δεδομένα, την εξόρυξη δεδομένων και την επιστήμη των δεδομένων.

Υπάρχουν επίσης πολλά online μαθήματα, μικρά και μεγάλα, πολλά από τα οποία είναι δωρεάν. (Βλ. KDnuggets online εκπαιδευτικό κατάλογο.)

Ελέγξτε ιδιαίτερα αυτά τα μαθήματα:

  • Machine Learning, στο Coursera, που δίδαξε ο Andrew Ng
  • Μάθηση από τα δεδομένα στο edX, διδάσκονται από τον καθηγητή Caltech Yaser Abu-Mostafa
  • Ανοικτό Ηλεκτρονικό Μάθημα στην Εφαρμοσμένη Επιστήμη Δεδομένων, από το Syracuse iSchool
  • Data Mining με τη Weka, δωρεάν online μαθήματα
  • Δείτε επίσης δωρεάν διαδικτυακές διαφάνειες από το Data Mining Course μου, ένα εξάμηνο εισαγωγικό μάθημα εξόρυξης δεδομένων

Τέλος, εξετάστε το ενδεχόμενο να λάβετε πιστοποιητικά στην εξόρυξη δεδομένων και την επιστήμη των δεδομένων ή τα προχωρημένα πτυχία, όπως το μεταπτυχιακό δίπλωμα στην επιστήμη των δεδομένων.

5. Δεδομένα

Θα χρειαστείτε δεδομένα για ανάλυση - δείτε τον κατάλογο KDnuggets των συνόλων δεδομένων για την εξόρυξη δεδομένων, όπως:

  • Κρατικοί, ομοσπονδιακοί, κρατικοί, αστικοί, τοπικοί και δημόσιοι χώροι δεδομένων και πύλες
  • API δεδομένων, κόμβους, αγορές, πλατφόρμες, πύλες και μηχανές αναζήτησης
  • Δωρεάν δημόσια σύνολα δεδομένων

6. Διαγωνισμοί

Και πάλι, θα μάθετε καλύτερα κάνοντας, έτσι συμμετέχετε σε διαγωνισμούς Kaggle. Ξεκινήστε με διαγωνισμούς αρχαρίων, όπως η πρόβλεψη της τιτανικής επιβίωσης χρησιμοποιώντας τη μάθηση μηχανών.

7. Αλληλεπίδραση: Συναντήσεις, Ομάδες και Κοινωνικά Δίκτυα

Μπορείτε να συμμετάσχετε σε πολλές ομότιμες ομάδες. Δείτε τις 30 κορυφαίες ομάδες LinkedIn για το Analytics, τα μεγάλα δεδομένα, την εξόρυξη δεδομένων και την επιστήμη των δεδομένων.

Το AnalyticBridge είναι μια ενεργή κοινότητα για την ανάλυση και την επιστήμη των δεδομένων.

Μπορείτε να παρακολουθήσετε μερικές από τις πολλές συναντήσεις και συνέδρια σχετικά με το Analytics, τα μεγάλα δεδομένα, την εξόρυξη δεδομένων, την επιστήμη των δεδομένων και την ανακάλυψη γνώσης.

Επίσης, μπορείτε να συμμετάσχετε στην ACM SIGKDD, η οποία διοργανώνει την ετήσια διάσκεψη KDD - η κορυφαία ερευνητική διάσκεψη στον τομέα.

Αυτό το άρθρο είναι καλά από το KDNuggets.com. Έχει χρησιμοποιηθεί με άδεια από τον συγγραφέα.