Γιατί ο Hadoop είναι ένας τέλειος αγώνας για την ακολουθία γονιδιώματος

Συγγραφέας: Roger Morrison
Ημερομηνία Δημιουργίας: 19 Σεπτέμβριος 2021
Ημερομηνία Ενημέρωσης: 5 Ενδέχεται 2024
Anonim
Γιατί ο Hadoop είναι ένας τέλειος αγώνας για την ακολουθία γονιδιώματος - Τεχνολογία
Γιατί ο Hadoop είναι ένας τέλειος αγώνας για την ακολουθία γονιδιώματος - Τεχνολογία

Περιεχόμενο


Πηγή: A3701027 / Dreamstime.com

Πάρε μακριά:

Η αλληλούχιση γονιδιώματος απαιτεί ισχυρά εργαλεία τεχνολογίας για να χειριστεί όλα τα δεδομένα της, και ο Hadoop είναι σε θέση να εκπληρώσει το καθήκον.

Η κλινική γονιδιωματική είναι ένα συναρπαστικό θέμα, όπου οι άνθρωποι εργάζονται σε τεχνολογίες αιχμής για να επεξεργάζονται γρήγορα και ακριβή αποτελέσματα. Υπάρχουν πολλοί ακολουθούμενοι γονιδιώματος που διατίθενται στην αγορά και παράγουν πεντακύτταρα δεδομένων αλληλουχίας και η ανάπτυξη της αλληλουχίας θα παράγει exabytes δεδομένων στο εγγύς μέλλον. Εδώ, ο Hadoop είναι η τέλεια πλατφόρμα για την επεξεργασία σύνθετης ροής εργασιών γονιδιωματικής. Ο Hadoop μπορεί να αποθηκεύσει και να ταξινομήσει τεράστιες ποσότητες πληροφοριών και μπορεί επίσης να προβεί σε ουσιαστική ανάλυση. (Για να πάρετε μια ιδέα για το πόσα δεδομένα αυτό πραγματικά συνεπάγεται, διαβάστε την κατανόηση Bits, Bytes και τα πολλαπλάσια.)

Το παρόν και το μέλλον της γονιδιωματικής

Σήμερα, η χαρτογράφηση του γονιδιώματος έχει φτάσει στο αποκορύφωμά της. Πολλοί άνθρωποι που συνδέονται με τη βιομηχανία της γονιδιωματικής εκρήγνυνται με περιέργεια, και καθώς παρουσιάζονται νέες ευκαιρίες, η καλύτερη τεχνολογία είναι η ανάγκη της ώρας. Η αλληλούχιση του γονιδιώματος είναι μια πολύ επαναλαμβανόμενη και απαιτητική εργασία. Μόνο το 2013, παράχθηκαν περίπου 15 πεντακύτταρα δεδομένων και μόνο 2 000 αλληλουχίες. Αυτή η ποσότητα πτώσης σιαγόνων περιελάμβανε 300 KB δεδομένων αλληλουχίας ανθρώπινου γονιδιώματος. Με αυτό το ρυθμό παραγωγής δεδομένων, μπορεί να εκτιμηθεί ότι μέχρι το 2018 θα παραχθεί περίπου ένα exabyte δεδομένων. Αυτό θα οφείλεται στην ανάπτυξη αλληλουχιών, οι οποίες θα παράγουν όλο και περισσότερα δεδομένα ανά διαδρομή. Ένας άλλος λόγος είναι η εμφάνιση εξαιρετικά ισχυρών και χαμηλού κόστους μηχανημάτων προσδιορισμού αλληλουχίας γονιδιώματος. Από το 2008, η τιμή των μηχανών αυτών μειώνεται σταθερά. Αυτό συμβαίνει λόγω ισχυρών μηχανών επόμενης γενιάς που έχουν εισέλθει στην αγορά.


Οι ανάγκες της βιομηχανίας χαρτογράφησης του γονιδιώματος

Χρησιμοποιούνται σύνθετοι αλγόριθμοι για την επεξεργασία των δεδομένων που συλλέγονται από το ανθρώπινο γονιδίωμα. Στη συνέχεια, αυτές οι πληροφορίες πρέπει να αποθηκευτούν. Μπορεί να αναθεωρηθεί στο μέλλον για σύγκριση με τα αρχικά δεδομένα. Το καθήκον επεξεργασίας και αποθήκευσης 100 GB δεδομένων δεν είναι πολύ δύσκολο, ειδικά όταν το κάνετε με τα ισχυρά μηχανήματα που χρησιμοποιούνται στα κέντρα αλληλούχησης. Μελέτες δείχνουν ότι αυτή η ποσότητα δεδομένων μπορεί να επεξεργαστεί σε περίπου 1.000 ώρες CPU, γι 'αυτό είναι πολύ εύκολο. Με αυτό το ρυθμό τεχνικής προόδου, είναι φανερό ότι η βιομηχανία γονιδιώματος θα επεξεργαστεί σύντομα χιλιάδες gigabytes σε λίγα δευτερόλεπτα.

Ωστόσο, οι τεχνικές διαχείρισης και αποθήκευσης δεδομένων δεν εξελίσσονται ταχύτατα, εξαιτίας των οποίων μπορεί να αναμένεται μεγάλη απώλεια πολύτιμων δεδομένων. Αυτό είναι πραγματικά ανεπιθύμητο, καθώς θα εμποδίσει σοβαρά την πρόοδο που έχει σημειωθεί στην ανθρώπινη γονιδιωματική. Έτσι, η ανάγκη για μια αποτελεσματική τεχνική διαχείρισης δεδομένων, η οποία μπορεί εύκολα να ενημερωθεί, είναι πολύ υψηλή. Αυτό μπορεί να είναι αποτελεσματικό, ειδικά στο εγγύς μέλλον, όπου η χαρτογράφηση του γονιδιώματος θα μετακινηθεί από τα μεγάλα εργαστήρια με τους ισχυρούς υπολογιστές σε μικρά νοσοκομεία και εργαστήρια.


Τι αναμένεται στη λύση;

Ο ρυθμός με τον οποίο ανακαλύπτονται και αναπτύσσονται νέες τεχνικές γονιδιωματικής αλληλουχίας είναι εξαιρετικά υψηλή. Αυτός ο ρυθμός μπορεί να είναι πολύ επωφελής για την ιατρική επιστήμη με τη μορφή ενός ισχυρού βήματος προς την εξάλειψη σοβαρών ασθενειών. Ωστόσο, αυτός ο ρυθμός μπορεί να είναι πολύ δύσκολος.

Η πρόκληση έρχεται με τη μορφή διαχείρισης των μεγάλων ποσοτήτων δεδομένων που παράγονται από τα προγράμματα αλληλούχισης. Έτσι, απαιτείται μια αποτελεσματική λύση που θα βοηθήσει στην αποθήκευση και επεξεργασία μεγάλων δεδομένων. Αυτή η λύση πρέπει να είναι φτηνή και γρήγορη, ενώ ταυτόχρονα να είναι προσαρμοστική. Η ανάλυση που παρέχεται από αυτή τη λύση πρέπει επίσης να είναι ακριβής και σταθερή. Λοιπόν, ποια είναι η λύση στο πρόβλημα; Αναμφισβήτητα, είναι ο Hadoop. (Για περισσότερες πληροφορίες σχετικά με τις χρήσεις του Hadoop, ανατρέξτε στο άρθρο 5 Insights About Big Data (Hadoop) ως υπηρεσία.)

Γιατί ο Hadoop είναι η καλύτερη λύση για την ακολουθία γονιδιώματος

Αυτό που χρειάζεται η βιομηχανία γονιδιωματικής είναι μια ανώτερη λύση που μπορεί να τους βοηθήσει να διαχειριστούν αποτελεσματικά τα δεδομένα, να τα επεξεργαστούν και να τα αποθηκεύσουν για μελλοντική χρήση. Αυτή η λύση φαίνεται να ταιριάζει απόλυτα με το λογισμικό Hadoop. Έτσι, Hadoop μπορεί να θεωρηθεί ως το τέλειο μεγάλο λογισμικό διαχείρισης δεδομένων που μπορεί να βελτιώσει σημαντικά τις τρέχουσες τεχνικές αποθήκευσης δεδομένων της βιομηχανίας γονιδιωματικής.

Οι δυνατότητες του Hadoop σε πραγματικό χρόνο καθιστούν δυνατή την ανάλυση και αποθήκευση μεγάλων ποσοτήτων δεδομένων ταυτόχρονα σε πραγματικό χρόνο. Αυτό επιτρέπει επίσης τη μελλοντική χρήση των δεδομένων. Ο Hadoop μπορεί να κερδίσει πολλά παλαιότερα συστήματα, καθώς είναι πολύ ταχύτερη και πιο αξιόπιστη από αυτά.

No Bugs, No Stress - Ο οδηγός σας βήμα προς βήμα για τη δημιουργία λογισμικού που αλλάζει τη ζωή χωρίς να καταστρέφει τη ζωή σας

Δεν μπορείτε να βελτιώσετε τις δεξιότητες προγραμματισμού σας όταν κανείς δεν ενδιαφέρεται για την ποιότητα του λογισμικού.

Τι άλλο μπορεί να κάνει ο Hadoop;

Λόγω του Hadoop, έχουν ανοίξει πολλές δυνατότητες και ευκαιρίες στον τομέα της γονιδιωματικής και της αλληλουχίας γονιδίων. Ο Hadoop προσφέρει παράλληλες επιλογές υπολογισμών, χάρη στις οποίες είναι δυνατή η ταχύτερη αλληλούχιση. Επίσης, χρησιμοποιώντας τη λειτουργία MapReduce του Hadoop, μεγάλος αριθμός γονιδίων μπορεί να χαρτογραφηθεί πολύ εύκολα. Εξαιτίας αυτού, η αλληλούχιση με τον Hadoop θα γίνει πραγματικά "επόμενος-γεν" και θα είναι πολύ λιγότερο περίπλοκη.

Ευκαιρίες για τον Hadoop

Ο Hadoop έχει αρκετές ευκαιρίες στη βιομηχανία του γονιδιώματος, αλλά η καλύτερη προέκυψε από το άρθρο της Lynda Chin, "Κατανοώντας τα γονιδιωματικά δεδομένα του καρκίνου", στο περιοδικό Genes & Development. Σε αυτό το άρθρο, συζητά πώς η σύγχρονη γονιδιωματική έχει ανοίξει νέες πόρτες και αυτό έχει οδηγήσει σε πολλά θετικά αποτελέσματα όπως η ανακάλυψη γονιδιωματικών πληροφοριών σχετικά με τον καρκίνο. Λόγω αυτού, είμαστε πιο κοντά στην ανακάλυψη της θεραπείας στον καρκίνο. Ωστόσο, αυτό απαιτεί λίγο περισσότερη προσοχή και ισχυρή εφαρμογή διαχείρισης δεδομένων για καλύτερη ερευνητική ικανότητα στον τομέα. Αυτό μπορεί να είναι η καλύτερη ευκαιρία για τον Hadoop να αποδείξει την ταχύτητα, τη δύναμη και την ακρίβειά του.

Crossbow: Η πλατφόρμα διαχείρισης δεδομένων επόμενης γενιάς

Το Crossbow, το οποίο είναι ένας αγωγός λογισμικού που προορίζεται για την ανάλυση της επανεξέτασης του γονιδιώματος, είναι μια από τις καλύτερες λύσεις. Αυτό ήταν το αποτέλεσμα της ενσωμάτωσης μέσα στον Hadoop μεταξύ ενός γρήγορου αλγορίθμου για την ευθυγράμμιση των δεδομένων αλληλουχίας, που ονομάζεται Bowtie, και ενός ισχυρού αλγορίθμου που συγκρίνει και εξετάζει τα δεδομένα αλληλουχίας, δηλ. Έναν γονότυπο που ονομάζεται SoapSNP. Είναι χτισμένο σε Apache Hadoop και βασίζεται σε μια εφαρμογή του πλαισίου MapReduce. Το Crossbow είναι φορητό, κλιμακωτό και είναι επίσης κατάλληλο ως εργαλείο υπολογιστικού νέφους.

Με αυτή την ισχυρή ολοκλήρωση, ένα πλήρες γονιδίωμα μπορεί να εξεταστεί σε μία μόνο ημέρα σε ένα τοπικό σύμπλεγμα που έχει 10 κόμβους. Με μια ομάδα 40 κόμβων, η διαδικασία είναι ακόμη πιο γρήγορη και ολοκληρώνεται σε μόλις τρεις ώρες με συνολικό κόστος κάτω των $ 100! Μια μελέτη που διεξήχθη για να ελέγξει την ακρίβεια του Crossbow έδειξε ότι μπορεί να συγκρίνει κάθε γονιδίωμα με 99% ακρίβεια. Ένα άλλο χρήσιμο χαρακτηριστικό του Crossbow είναι ότι τρέχει στο σύννεφο. Έτσι, το Crossbow θα δώσει τη δυνατότητα σε χιλιάδες μελλοντικά κέντρα αλληλουχίας, όπως τα νοσοκομεία, να ακολουθήσουν μεγάλες ποσότητες δεδομένων γονιδιώματος χωρίς την ανάγκη για ισχυρούς, δαπανηρούς υπολογιστές και τεχνολογία.

Άλλα λογισμικά γονιδιωματικής βασισμένα στο Hadoop

Πολλές εταιρείες έχουν αναγνωρίσει τη δύναμη του Hadoop στην αλλαγή του κόσμου της γονιδιωματικής. Έχουν τροποποιήσει κατάλληλα τον Hadoop για να αξιοποιήσουν τις δυνατότητές του για προηγμένη ανάλυση γονιδιώματος. Μερικά παραδείγματα διάσημων λύσεων προσδιορισμού αλληλουχίας γονιδιώματος που βασίζονται σε Hadoop δίνονται παρακάτω:

  • Hadoop-BAM: Αυτό είναι ένα ισχυρό εργαλείο διαχείρισης δεδομένων που χρησιμοποιεί τη λειτουργία MapReduce του Hadoop για διάφορες δραστηριότητες που σχετίζονται με τη γονιδιωματική, όπως ο προσδιορισμός των γονότυπων. Αυτό λειτουργεί στη μορφή Binary Alignment / Map.
  • Cloudburst: Αυτή η λύση με βάση το Hadoop δημιουργήθηκε το 2009. Είναι εξαιρετικά αποτελεσματική στη σύγκριση ακολουθιών γονιδιώματος και χαρτογράφησης μεμονωμένων γονιδίων. Αυτή είναι επίσης μία από τις πρώτες εφαρμογές με βάση το Hadoop που έχουν σχεδιαστεί για το σκοπό αυτό.

συμπέρασμα

Η ενσωμάτωση μεταξύ των μεγάλων δεδομένων και της βιομηχανίας γονιδιωματικής αποδεικνύεται ότι είναι ένα όφελος στη σύγχρονη εποχή. Αυτές οι πλατφόρμες είναι αποτελεσματικές στην ανακάλυψη των θεραπειών αρκετών ασθενειών όπως ο καρκίνος. Τα δεδομένα που βρίσκονται με τη χαρτογράφηση του γονιδιώματος μπορούν να χρησιμοποιηθούν για τη διαμόρφωση προληπτικής πληροφόρησης για τέτοιες ασθένειες. Η έλευση μεγάλων δεδομένων μπορεί να θεωρηθεί ως σημείο καμπής στον κόσμο της γονιδιωματικής, και αν οι πληροφορίες χρησιμοποιούνται με σύνεση, τότε ενδεχομένως και στον ευρύτερο τομέα της υγειονομικής περίθαλψης. Ο μόνος τρόπος για να προχωρήσει αυτό το πεδίο είναι η χρήση κατάλληλων εργαλείων διαχείρισης δεδομένων όπως ο Hadoop.