12 βασικές συμβουλές για τη μάθηση της επιστήμης των δεδομένων

Συγγραφέας: Laura McKinney
Ημερομηνία Δημιουργίας: 3 Απρίλιος 2021
Ημερομηνία Ενημέρωσης: 1 Ιούλιος 2024
Anonim
Facebook: ορθή διαχείριση των προσωπικών μας δεδομένων
Βίντεο: Facebook: ορθή διαχείριση των προσωπικών μας δεδομένων

Περιεχόμενο


Πηγή: Artinspiring / Dreamstime.com

Πάρε μακριά:

Οι επιστήμονες δεδομένων χρειάζονται προφανώς ισχυρές μαθηματικές και κωδικοποιητικές δεξιότητες, αλλά η επικοινωνία και άλλες μαλακές δεξιότητες είναι επίσης απαραίτητες για την επιτυχία.

Ο επιστήμονας δεδομένων κατατάσσεται ως η καλύτερη δουλειά για το 2019 στην Αμερική στο Glassdoor. Με ένα μέσο βασικό μισθό 108.000 δολαρίων και βαθμό ικανοποίησης εργασίας 4.3 από τα 5, καθώς και ένα σωστό αριθμό ανοιγμάτων που προβλεπόταν, αυτό δεν αποτελεί έκπληξη. Το ερώτημα είναι: Τι πρέπει να κάνει κανείς για να φτάσει στο σωστό δρόμο για αυτή την εργασία;

Για να μάθετε, αναζητήσαμε τις συμβουλές που δόθηκαν σε όσους επιδιώκουν να ακολουθήσουν αυτή τη σταδιοδρομία. Πολλά κατεβαίνουν στις σκληρές δεξιότητες στην κωδικοποίηση και τα μαθηματικά. Αλλά αυτός ο ισχυρός υπολογισμός μόνο δεν το κόβει. Οι επιτυχημένοι επιστήμονες δεδομένων πρέπει επίσης να είναι σε θέση να μιλούν με επιχειρηματίες με τους δικούς τους όρους, πράγμα που απαιτεί τις ικανότητες που συνδέονται με τις μαλακές δεξιότητες και την ηγεσία. (Για να μάθετε περισσότερα σχετικά με τα καθήκοντα ενός επιστήμονα δεδομένων, ανατρέξτε στην ενότητα Ρόλος εργασίας: Data Scientist.)


Δημιουργία του Εκπαιδευτικού Ιδρύματος: Τρεις Βασικές Συμβουλές

Ο Drace Zhan, ερευνητής δεδομένων στο NYC Data Science Academy, υπογραμμίζει την ανάγκη για ένα εκπαιδευτικό ίδρυμα που περιλαμβάνει τα βασικά στοιχεία της κωδικοποίησης και της μαθηματικής ικανότητας:

  1. R / Python + SQL. Εάν δεν έχετε τις ικανότητες κωδικοποίησης, χρειάζεστε πολλή δύναμη δικτύωσης και άλλες περιοχές για να ενισχύσετε αυτό το έλλειμμα. Έχω δει επιστήμονες δεδομένων με αδύναμη μαθηματική και μικρή εμπειρία τομέα, αλλά πάντα έφεραν από μια ισχυρή ικανότητα κωδικοποίησης. Η Python είναι ιδανική, αλλά το R είναι ένα μεγάλο εργαλείο πτώσης. Είναι καλύτερο να έχετε και τα δύο στο οπλοστάσιό σας. Η SQL είναι επίσης εξαιρετικά σημαντική για έναν αναλυτή δεδομένων.

  2. Ισχυρές δεξιότητες μαθηματικών. Έχοντας πολύ καλή κατανόηση μερικών από τις κοινώς χρησιμοποιούμενες μεθόδους: τα γενικευμένα γραμμικά μοντέλα, το δέντρο αποφάσεων, τα μέσα Κ και τα στατιστικά τεστ είναι καλύτερα από το να έχουμε μια ευρεία εικόνα διαφόρων μοντέλων ή ειδικοτήτων όπως το RNN.

Αυτά είναι βασικές δεξιότητες που πρέπει να αξιοποιηθούν, αν και μερικοί εμπειρογνώμονες προσθέτουν σε αυτές. Για παράδειγμα, μια λίστα KDnuggets περιλαμβάνει τα εξαρτήματα κωδικοποίησης που ανέφερε ο Zhan και προσθέτει κάποια άλλα χρήσιμα πράγματα που πρέπει να γνωρίζουμε από την τεχνική πλευρά, συμπεριλαμβανομένης της πλατφόρμας Hadoop Apache Spark, απεικόνιση δεδομένων, μη δομημένα δεδομένα, μηχανική μάθηση και AI.


Αλλά αν λάβουμε υπόψη τα συμπεράσματά μας από μια έρευνα σχετικά με τα πιο συχνά χρησιμοποιούμενα εργαλεία που προσδιορίστηκαν για χρήση στην πραγματική ζωή από μια έρευνα Kaggle, έχουμε κάπως διαφορετικά αποτελέσματα. Όπως μπορείτε να δείτε από το γράφημα των κορυφαίων 15 επιλογών παρακάτω, οι Python, R και SQL κάνουν τα τρία πρώτα, αλλά το τέταρτο είναι τα Jupyter notebooks, ακολουθούμενα από TensorFlow, Amazon Web Services, Unix shell, Tableau, C / C ++, NoSQL , MATLAB / Octave και Java, όλα μπροστά από τον Hadoop και τον Spark. Μια ακόμη προσθήκη που μπορεί να εκπλήξει τους ανθρώπους, είναι το Microsoft Excel Data Mining.

Η εικόνα είναι ευγενική προσφορά του Kaggle

Η λίστα KDnuggets περιλαμβάνει επίσης μια συμβουλή σχετικά με την επίσημη εκπαίδευση. Οι περισσότεροι επιστήμονες δεδομένων διαθέτουν προχωρημένους τίτλους σπουδών: το 46% έχει διδακτορικά και το 88% κατέχει τουλάχιστον βαθμό πτυχίου. Οι προπτυχιακοί τίτλοι που κατέχουν γενικά κατανέμονται μεταξύ των σχετικών περιοχών. Περίπου το ένα τρίτο είναι στα μαθηματικά και τα στατιστικά στοιχεία, τα οποία είναι τα πιο δημοφιλή για αυτή την καριέρα. Το επόμενο πιο δημοφιλές είναι το πτυχίο της πληροφορικής, το οποίο κατέχει το 19%, και η μηχανική, η επιλογή του 16%. Φυσικά, τα ειδικά τεχνικά εργαλεία για την επιστήμη των δεδομένων συχνά δεν μελετώνται στα προγράμματα σπουδών, αλλά σε εξειδικευμένα στρατόπεδα μπότες ή μέσω ηλεκτρονικών μαθημάτων.

Περισσότερα από τα μαθήματα: Δύο περισσότερες συμβουλές

Ο Hank Yun, βοηθός έρευνας στο Τμήμα Πνευμονολογίας της Weill Cornell Medicine και φοιτητής της NYC Data Science Academy, συμβουλεύει τους επίδοξους επιστήμονες δεδομένων να σχεδιάσουν το έργο τους και να βρουν έναν μέντορα. Αυτός είπε:

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Μην κάνετε το λάθος που έκανα λέγοντας στον εαυτό σας ότι γνωρίζετε την επιστήμη των δεδομένων επειδή πήρατε ένα μάθημα και έλαβε ένα πιστοποιητικό. Αυτό είναι σπουδαίο ξεκίνημα, αλλά όταν αρχίσετε να σπουδάζετε, πηγαίνετε με ένα έργο στο μυαλό. Στη συνέχεια, βρείτε έναν μέντορα στον τομέα και ξεκινήστε αμέσως ένα έργο πάθους! Όταν είστε φρέσκο, δεν ξέρετε τι δεν ξέρετε, έτσι βοηθά όταν κάποιος είναι εκεί για να σας καθοδηγήσει σε ό, τι είναι σημαντικό για εσάς και τι όχι. Δεν θέλετε να ξοδεύετε πολύ χρόνο σπουδάζοντας με τίποτα για να το δείξετε!

Γνωρίζοντας ποιο εργαλείο να βγείτε από την εργαλειοθήκη σας: Συμβουλή να μείνετε μπροστά από την καμπύλη

Δεδομένης της ανισότητας στην κατάταξη των εργαλείων επιστημών δεδομένων, ορισμένοι μπορεί να αισθάνονται μπερδεμένοι για το τι πρέπει να επικεντρωθεί. Ο Celeste Fralick, επικεφαλής επιστήμονας δεδομένων στην εταιρεία λογισμικού ασφάλειας McAfee, αντιμετωπίζει το θέμα σε ένα άρθρο του CIO που εξετάζει τις βασικές δεξιότητες για έναν επιστήμονα δεδομένων, δηλώνοντας: "Ένας επιστήμονας δεδομένων πρέπει να παραμείνει μπροστά στην καμπύλη στην έρευνα, καθώς και να καταλάβετε ποια τεχνολογία να εφαρμόσετε όταν ". Αυτό σημαίνει ότι δεν θα γοητευτεί από το" σέξι "και το νέο, όταν το πραγματικό πρόβλημα" απαιτεί κάτι πολύ πιο αληθινό. «Η συνειδητοποίηση του υπολογιστικού κόστους για το οικοσύστημα, της ερμηνείας, της καθυστέρησης, του εύρους ζώνης και άλλων οριακών συνθηκών του συστήματος - καθώς και η ωριμότητα του πελάτη - βοηθά τον επιστήμονα να καταλάβει ποια τεχνολογία θα εφαρμοστεί».

Βασικές μαλακές δεξιότητες: Άλλες έξι συμβουλές

Το σημείο που φέρνει ο Fralick σχετίζεται με τις μη τεχνικές δεξιότητες που απαιτεί η δουλειά του επιστήμονα δεδομένων. Αυτός είναι ο λόγος για τον οποίο ο κατάλογος KDnuggets περιλαμβάνει αυτά τα τέσσερα: πνευματική περιέργεια, ομαδική εργασία, δεξιότητες επικοινωνίας και επιχειρηματική διάνοια. Ο Zhan περιλάμβανε επίσης βασικές μαλακές δεξιότητες στις συμβουλές του για τους επιστήμονες δεδομένων, εντοπίζοντας "δεξιότητες επικοινωνίας" όπως το KDnuggets, αλλά χρησιμοποιώντας "εμπειρογνωμοσύνη στον τομέα" αντί για "επιχειρησιακή διάνοια". Ό, τι καλείται, αναφέρεται στην πρακτική εφαρμογή της επιστήμης των δεδομένων επιχείρηση. (Για να μάθετε περισσότερα σχετικά με τις δεξιότητες επικοινωνίας, ανατρέξτε στην ενότητα Η σημασία των δεξιοτήτων επικοινωνίας για τεχνικούς επαγγελματίες.)

Η Olivia Parr-Rud προσέφερε το δικό της γύρισμα σε αυτό, προσθέτοντας δύο ακόμα μαλακές δεξιότητες, με έμφαση στον ρόλο της δημιουργικότητας, υποστηρίζοντας: «Νομίζω ότι η επιστήμη των δεδομένων είναι τέχνη όσο και η επιστήμη», κάτι που απαιτεί την κατάρτιση τις δυνάμεις και των δύο πλευρών του εγκεφάλου. "Πολλοί άνθρωποι μιλούν για την επιστήμη των δεδομένων ως μια σταδιοδρομία που χρησιμοποιεί κυρίως το αριστερό-εγκέφαλο. Έχω διαπιστώσει ότι για να είναι επιτυχής, οι επιστήμονες των δεδομένων πρέπει να χρησιμοποιούν ολόκληρο τον εγκέφαλό τους. "

Εξήγησε ότι η πρόοδος στον τομέα απαιτεί όχι μόνο την τεχνική ικανότητα αλλά τη δημιουργικότητα και το όραμα που απαιτείται για ηγεσία:

Οι περισσότερες εργασίες αριστερού εγκεφάλου / γραμμικής δύναμης μπορούν να αυτοματοποιηθούν ή να εξαντληθούν. Για να προσφέρουμε ένα ανταγωνιστικό πλεονέκτημα ως επιστήμονες δεδομένων, πρέπει να είμαστε σε θέση να αναγνωρίσουμε τα πρότυπα και να συνθέσουμε μεγάλες ποσότητες πληροφοριών χρησιμοποιώντας και τις δύο πλευρές του εγκεφάλου μας. Και πρέπει να είμαστε καινοτόμοι στοχαστές. Πολλά από τα καλύτερα αποτελέσματα προκύπτουν από την ενσωμάτωση του αριστερού και του δεξιού εγκεφάλου.

Τόνισε επίσης γιατί η επικοινωνία ενός οράματος είναι σαφώς απαραίτητη:

Ως επιστήμονες δεδομένων, ο στόχος μας είναι να χρησιμοποιήσουμε δεδομένα για να βοηθήσουμε τους πελάτες μας να αυξήσουν τα κέρδη τους. Τα περισσότερα στελέχη δεν καταλαβαίνουν τι κάνουμε ή πώς το κάνουμε. Πρέπει λοιπόν να σκεφτούμε σαν ηγέτες και να γνωστοποιούμε τα ευρήματά μας και τις συστάσεις μας σε γλώσσα που οι ενδιαφερόμενοι μας κατανοούν και εμπιστεύονται

Το Δόση Δεδομένων

Οι βασικές συμβουλές ενσωματώνουν μεγαλύτερο αριθμό τεχνικών εργαλείων, δεξιοτήτων και δυνατοτήτων, καθώς και λιγότερο ποσοτικά προσδιορισμένες ιδιότητες όπως η ικανότητα δημιουργικότητας και ηγεσίας. Τελικά, δεν είναι μόνο ένα παιχνίδι αριθμών. Δεδομένου ότι η επιστήμη των δεδομένων δεν είναι μόνο για τη δημιουργία μοντέλων σε κενό αλλά για πρακτικές εφαρμογές για την επίλυση προβλημάτων πραγματικής ζωής για τις επιχειρήσεις, όσοι θα επιτύχουν στον τομέα δεν χρειάζεται απλώς να κυριαρχήσουν στην τεχνολογία αλλά να γνωρίσουν τον τομέα των επιχειρήσεων τους και να κατανοήσουν τις ανάγκες τα διάφορα μέλη της ομάδας στην εργασία.