Apache Pig

Συγγραφέας: Robert Simon
Ημερομηνία Δημιουργίας: 16 Ιούνιος 2021
Ημερομηνία Ενημέρωσης: 13 Ενδέχεται 2024
Anonim
Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn
Βίντεο: Hadoop Pig Tutorial | What is Pig In Hadoop? | Hadoop Tutorial For Beginners | Simplilearn

Περιεχόμενο

Ορισμός - Τι σημαίνει Apache Pig;

Το Apache Pig είναι μια πλατφόρμα που χρησιμοποιείται για την ανάλυση μεγάλων συνόλων δεδομένων. Αποτελείται από μια γλώσσα υψηλού επιπέδου για την έκφραση προγραμμάτων ανάλυσης δεδομένων, μαζί με την υποδομή για την αξιολόγηση αυτών των προγραμμάτων. Ένα από τα πιο σημαντικά χαρακτηριστικά του Χοίρου είναι ότι η δομή του ανταποκρίνεται σε σημαντική παραλληλισμό.


Ο χοίρος λειτουργεί στην πλατφόρμα Hadoop, γράφει δεδομένα και διαβάζει δεδομένα από το Hadoop Distributed File System (HDFS) και εκτελεί επεξεργασία με μία ή περισσότερες εργασίες MapReduce. Το Apache Pig διατίθεται ως ανοικτή πηγή.

Το Apache Pig είναι επίσης γνωστό ως Γλώσσα Προγραμματισμού Χοίρων ή Hadoop Pig.

Εισαγωγή στη Microsoft Azure και το Microsoft Σε αυτό τον οδηγό θα μάθετε τι είναι το cloud computing και πώς η Microsoft Azure μπορεί να σας βοηθήσει να μεταφέρετε και να εκτελέσετε την επιχείρησή σας από το cloud.

Η Techopedia εξηγεί το Apache Pig

Το Apache Pig έχει δύο μέρη: τη λατινική γλώσσα των χοίρων και τη μηχανή χοίρων. Η γλώσσα Pig Latin είναι μια γλώσσα scripting που επιτρέπει στους χρήστες να απεικονίζουν τον τρόπο με τον οποίο η ροή δεδομένων από μία ή περισσότερες εισόδους πρέπει να διαβάζεται και να επεξεργάζεται και η θέση στην οποία πρέπει να αποθηκεύεται.

Ορισμένες από τις βασικές ιδιότητες του λατινικού χοίρου είναι οι εξής:


  • Εύκολος προγραμματισμός: Συγκεκριμένες εργασίες που αποτελούνται από διάφορους διασυνδεδεμένους μετασχηματισμούς δεδομένων κωδικοποιούνται σαφώς ως ακολουθίες ροής δεδομένων. Αυτό τους καθιστά απλό να γράφουν, να κατανοούν και να διατηρούν.
  • Επιλογές βελτιστοποίησης: Ο τρόπος με τον οποίο κωδικοποιούνται οι εργασίες επιτρέπει στο σύστημα να βελτιστοποιεί την αυτόματη εκτέλεση. Αυτό επιτρέπει στο χρήστη να δώσει προσοχή στη σημασιολογία αντί στην αποδοτικότητα.
  • Επεκτασιμότητα: Επιτρέπεται στους χρήστες να δημιουργούν τις δικές τους λειτουργίες για τη διεξαγωγή ειδικής επεξεργασίας. Ο κινητήρας Pig είναι υπεύθυνος για την εκτέλεση ροής δεδομένων γραμμένο σε λατινικούς χοίρους. Όπως το τυπικό σύστημα διαχείρισης σχεσιακών βάσεων δεδομένων (RDBMS), το Apache Pig αποτελείται από έναν αναλυτή, βελτιστοποιητή και έλεγχο τύπου, εκτός από τους χειριστές που πραγματοποιούν επεξεργασία δεδομένων. Το γουρούνι δεν περιλαμβάνει συναλλαγές, κατάλογο δεδομένων ή τη δυνατότητα απευθείας διαχείρισης της αποθήκευσης δεδομένων ή χρήσης του πλαισίου εκτέλεσης.