Τεχνολογία αναγνώρισης φωνής: Χρήσιμη ή ωφέλιμη;

Συγγραφέας: Judy Howell
Ημερομηνία Δημιουργίας: 28 Ιούλιος 2021
Ημερομηνία Ενημέρωσης: 1 Ιούλιος 2024
Anonim
Τεχνολογία αναγνώρισης φωνής: Χρήσιμη ή ωφέλιμη; - Τεχνολογία
Τεχνολογία αναγνώρισης φωνής: Χρήσιμη ή ωφέλιμη; - Τεχνολογία

Περιεχόμενο


Πάρε μακριά:

Η αλληλεπίδραση με τα ηλεκτρονικά των συνομιλιών γίνεται όλο και συχνότερη - και απαραίτητη. Μέχρι στιγμής όμως, τα αποτελέσματα είναι αναμφισβήτητα μικτά.

Έχετε καλέσει ποτέ μια εταιρεία για να πάρετε κάποια βοήθεια ή να πληρώσετε το λογαριασμό σας, μόνο για να σας υποδεχτεί μια ευχάριστη ηχογραφημένη φωνή που θέλει να έχει μια συνομιλία μαζί σας - αλλά δεν μπορείτε να καταλάβετε το μισό από αυτό που λέτε; Ή ίσως έχετε ένα iPhone, και ενώ η Siri έμοιαζε για πρώτη φορά σαν ένας καλός σύμμαχος, έχετε συνειδητοποιήσει ότι μερικές φορές (εντάξει, ας είμαστε ειλικρινείς, συχνά) απλά δεν το καταφέρνει; Η τεχνολογία αναγνώρισης φωνής (VRT), γνωστή και ως ομιλία-προς-, πέφτει σε μια κοινή παγίδα: έχει τη δυνατότητα να είναι απίστευτα δροσερή (και αγόρι, στηρίζουμε για αυτό), αλλά πιο συχνά, σε απογοήτευση.

Μόλις μια ιδέα που ανήκε στη σφαίρα της επιστημονικής φαντασίας, η φωνητική αναγνώριση έχει αυξηθεί από την αρχή της δεκαετίας του 1950, όταν το σύστημα Bell Laboratories Audrey σχεδιάστηκε για να αναγνωρίζει τα ψηφία που ομιλούνται με μία φωνή, στο σύγχρονο δίκτυο ηλεκτρονικών συνομιλιών που αλληλεπιδράμε τώρα σε καθημερινή βάση - με μικτά αποτελέσματα.

Για να μιλήσετε σε έναν άνθρωπο, πατήστε 0

Πολλές από τις σημερινές επιχειρήσεις χρησιμοποιούν πλέον συστήματα που ονομάζονται διαδραστική φωνητική απόκριση (IVR) για τη διαχείριση κλήσεων εξυπηρέτησης πελατών. Η πιο συνηθισμένη χρήση είναι για φωνητικά μενού, αλλά ορισμένες εταιρείες χρησιμοποιούν συστήματα IVR που μπορούν να έχουν πρόσβαση σε πληροφορίες λογαριασμού πελατών και να απαντούν σε δευτερεύουσες ερωτήσεις. Το λογισμικό IVR στο μενού έχει συνήθως περιορισμένο λεξιλόγιο, το οποίο μπορεί να περιορίζεται σε "ναι", "όχι" και αριθμούς. Τα πιο πολύπλοκα συστήματα μπορούν να αναγνωρίσουν λέξεις και φράσεις συγκεκριμένης εταιρείας.

Τα συστήματα αυτά γίνονται όλο και πιο δημοφιλή - τουλάχιστον για τις επιχειρήσεις - για έναν απλό λόγο: είναι οικονομικά αποδοτικά. Σύμφωνα με μια έκθεση του Wall Street Journal για το 2010, μια τυπική κλήση πελάτη που φθάνει σε έναν πράκτορα κοστίζει μεταξύ $ 3 και $ 9, ενώ μια κλήση που διαχειρίζεται μέσω ενός αυτοματοποιημένου συστήματος κοστίζει μόνο πέντε έως επτά λεπτά. Και, βεβαίως, τα προγράμματα ηλεκτρονικών υπολογιστών δεν κουράζονται, καλέστε σε άρρωστα ή απογοητευτείτε με τους πελάτες (αν και οι πελάτες σίγουρα απογοητεύονται από αυτά!).

Ευτυχώς, αυτό δεν σημαίνει πάντα ότι το IVR παίρνει θέσεις εργασίας μακριά από τους ανθρώπους - ή τουλάχιστον ότι όλοι οι άνθρωποι εξαφανίζονται από τα τηλεφωνικά κέντρα. Αυτοί οι ενεργοποιημένοι με φωνή βοηθοί επιτρέπουν στους αντιπροσώπους εξυπηρέτησης πελατών να είναι πιο παραγωγικοί κατευθύνοντας τις κλήσεις και απαντώντας σε απλές ερωτήσεις.

Φυσικά για τους ανθρώπους που αλληλεπιδρούν με αυτές τις τεχνολογίες, δεν είναι πάντα ομαλή ιστιοπλοΐα. Η τεχνολογία συμβάλλει στη βελτίωση των κοινών προβλημάτων στην τεχνολογία IVR, όπως το πρόβλημα με τις προθέσεις, αλλά η απομάκρυνση αυτοματοποιημένων συστημάτων εξακολουθεί να είναι ένα κοινό θέμα στο διαδίκτυο. Ελέγξτε αυτό το κομμάτι κωμωδίας για έναν ανελκυστήρα εξοπλισμένο με φωνητική αναγνώριση, που υπογραμμίζει την απογοήτευση που μπορεί να προκαλέσει δυσλειτουργία στα συστήματα IVR.

Προσωπικές εφαρμογές τηλεφώνου: Siri, Google Now

Οι περισσότεροι άνθρωποι γνωρίζουν την αναγνώριση φωνής για τα smartphones. Ενώ η πλειοψηφία των τελευταίων μοντέλων τηλεφώνου έρχονται με VR, η δημοτικότητά τους - και η φήμη τους - διογκώθηκαν όταν η Apple εισήγαγε το Siri, τον ήπιο σαρκαστικό, ενεργοποιημένο με φωνή "προσωπικό βοηθό" για το iPhone 4S το 2011. Το Google σύντομα δημιούργησε έναν άμεσο ανταγωνιστή: Τώρα για το λειτουργικό σύστημα Android Jelly Bean. Και τα δύο συστήματα διαθέτουν γυναικείες φωνές και εξελιγμένα χαρακτηριστικά γνωρίσματα που επιτρέπουν στους χρήστες να "μιλούν" με τα τηλέφωνά τους χρησιμοποιώντας απλή γλώσσα.

Όμως, ενώ αυτά τα συστήματα είναι πολύ πιο εξελιγμένα και λειτουργικά από τους προκατόχους τους, δείχνουν επίσης ότι η τεχνολογία έχει ακόμα πολύ δρόμο. Τα αστεία για την αποτυχία του Σίρις έχουν γίνει ένα δημοφιλές μίμισμα στο Διαδίκτυο. Ένας άνθρωπος μήνυσε ακόμη και την Apple για ψευδή διαφήμιση σχετικά με τις δυνατότητες Siris.

Ίσως αυτός είναι ο λόγος για τον οποίο, ενώ η Apple δημιούργησε Siri για να είναι προηγμένη και ενημερωτική, το λογισμικό VR είναι επίσης λίγο στην αδίστακτη πλευρά. Για παράδειγμα, αν μιλάς μία από τις πιο περίφημες γραμμές τεχνολογίας πληροφοριών στην ιστορία του κινηματογράφου από την ταινία του 1968 "2001: Μια διαστημική οδύσσεια" - "ανοίξτε τις πόρτες του κόλπου" - η Siri θα απαντήσει είτε με τη γραμμή απάντησης από την ταινία, Λυπάμαι (το όνομά σας), φοβούμαι ότι δεν μπορώ να το κάνω αυτό, "ή το πιο σαρκαστικό," εμείς οι πράκτορες της νοημοσύνης δεν θα ζήσουν ποτέ αυτό κάτω, προφανώς. "

Σας καλώντας με το όνομα είναι μόνο μία από τις λειτουργίες που προσπαθεί να κάνει το Siri ευκολότερο να αγαπά, και λίγο πιο ανθρώπινο. Ο βοηθός VR μπορεί να ακολουθήσει τις φωνητικές εντολές για να κάνει κλήσεις, να κάνει υπαγόρευση και να πραγματοποιήσει αναζήτηση στο Internet για πληροφορίες, να βρει κοντινά καταστήματα, να δώσει οδηγίες οδήγησης και άλλα, όλα χωρίς να χρειαστεί να αγγίξουμε τίποτα. Οι απαντήσεις εκφωνούνται ταυτόχρονα από το τηλέφωνο και εμφανίζονται στην οθόνη.

Το Google Now, το τμήμα VR της πλατφόρμας Android Jelly Bean, είναι πολύ παρόμοιο με το Siri. Το σύστημα προσφέρει τις ίδιες εκτεταμένες δυνατότητες αναγνώρισης μεταφέροντας την περιστασιακή ομιλία σε εντολές που επιτρέπουν στους χρήστες να πραγματοποιούν κλήσεις, να πραγματοποιούν αναζητήσεις, να εκτελούν υπολογισμούς και μετατροπές, να αρπάζουν ορισμούς λέξεων, να ρυθμίζουν συναγερμούς, να παίζουν τραγούδια και να λαμβάνουν χάρτες και οδηγίες.

Με προσωπικούς βοηθούς φωνής όπως το Siri και το Google Now, τα οφέλη είναι προφανή. Τα πάντα από την κλήση και την αναζήτηση στην αναζήτηση και την ψυχαγωγία είναι ταχύτερα και πιο εύκολα. Απλά πείτε τι θέλετε, και (τις περισσότερες φορές) η εφαρμογή VR το αρπάζει για εσάς. Η τεχνολογία hands-off του VR είναι ιδιαίτερα χρήσιμη κατά την οδήγηση. Και ενώ πολλοί άνθρωποι έχουν κατηγορήσει Siris αδυναμίες, και οι συγγραφείς έχουν υποστηρίξει ότι η Google Nows ικανότητα να τρέχει ουσιαστικά τη ζωή των χρηστών είναι τόσο τρομακτικό λίγο ενοχλητικό, οι περισσότεροι άνθρωποι εξακολουθούν να αισθάνονται ότι αυτές οι φουτουριστικές τεχνολογίες είναι αρκετά δροσερό.

Φυσικά, οι προσωπικές εφαρμογές τηλεφώνου όπως το Siri και το Google Now απέχουν πολύ από την τέλεια - αν και δείχνουν πού θα μπορούσε να οδηγήσει αυτή η τεχνολογία στο μέλλον. Αυτό σημαίνει ότι ακόμα και όταν η Siri ανακαλύψει μια λανθασμένη απάντηση, ήταν πιθανό να γελάσει και να της συγχωρήσει, γνωρίζοντας ότι η επόμενη έκδοση θα είναι πολύ καλύτερη.

Όπου το VR Falls Flat

Αν συναντήσατε ποτέ ένα IVR όταν έχετε καλέσει μια επιχείρηση, ίσως έχετε παρατηρήσει ορισμένα εμπόδια στην επικοινωνία. Ορισμένα προγράμματα χρησιμοποιούν μια φωνή ρομποτικής προς ομιλία, η οποία ανατρέπει τις λέξεις και καθιστά τα πράγματα δύσκολα κατανοητά. Άλλοι έχουν προβλήματα ευαισθησίας που έχουν ως αποτέλεσμα το λογισμικό να μην μπορεί να επεξεργαστεί ό, τι λέτε εάν είστε πολύ δυνατός, πολύ μαλακός ή δεν δημοσιεύετε προσεκτικά.

Επιπλέον, πολλοί άνθρωποι εξακολουθούν να μην αισθάνονται άνετα να μιλούν σε μια μηχανή. Αν εκτελέσετε μερικές αναζητήσεις στο IVR, θα συναντήσετε λίστες που έχουν βάλει μαζί τους τρόπους για να παρακάμψετε τα συστήματα IVR και να φτάσετε σε ένα "πραγματικό πρόσωπο". Αυτές οι λύσεις κυμαίνονται από "συνεχίσετε να πιέζετε 0 για έναν χειριστή" για να "ορκιστείτε στο μηχάνημα μέχρι να τραβήξει ένα ανθρώπινο ον." Ως αποτέλεσμα, μεγάλο μέρος της πρόσφατης εξέλιξης των συστημάτων IVR έχει περιστραφεί γύρω από το να γίνει πιο ευχάριστο για τους ανθρώπους. καθιστώντας τις φωνές πιο συμπαθητικές και λιγότερο ρομποτικές, καθιστώντας το σύστημα πιο εύκολο στην πλοήγηση και αφήνοντας τους καλούντες να ξέρουν πόσο καιρό το όλο θέμα θα πάρει από την αρχή μέχρι το τέλος. Αυτό δείχνει ότι η καλύτερη τεχνολογία είναι μόνο η μισή μάχη εδώ. το άλλο μισό παίρνει τους χρήστες στο σκάφος μιλώντας σε μια μηχανή.

Τι κρατάει το μέλλον

Παρά τις προκλήσεις αυτές, η τεχνολογία αναγνώρισης φωνής βελτιώνεται συνεχώς. Εφαρμογές όπως το Siri και το Google Now - ατέλειες και όλα - εξακολουθούν να είναι εξαιρετικά εντυπωσιακά στην απόδοσή τους και αρκετές εταιρείες επεκτείνουν τις δυνατότητες του VR σε άλλες εφαρμογές.

Για παράδειγμα, η Nuance, οι δημιουργοί της ομιλίας σε λογισμικό Dragon NaturallySpeaking, έχει ήδη αναπτύξει φωνητικούς ελέγχους για τηλεοράσεις και αυτοκίνητα και οι εκδόσεις αυτής της τεχνολογίας ενσωματώνονται σε ορισμένες τηλεοράσεις Samsung και τα συστήματα ψυχαγωγίας SYNC που χρησιμοποιούνται σε ορισμένα οχήματα της Ford.

Και καθώς η Google και η Apple συνεχίζουν να βρίσκουν νέες χρήσεις για τις τεχνολογίες αναγνώρισης φωνής, είναι πολύ πιθανό να μιλάνε ολοένα και περισσότερο με όλα τα είδη καθημερινών μηχανών, από τις τηλεοράσεις έως τους φρυγανιέρους μας. Και, για άλλη μια φορά, φαίνεται ότι η επιστημονική φαντασία ήταν σωστή. Απλά πρέπει να ελπίζουμε ότι αυτοί οι έξυπνοι συγγραφείς δεν έκαναν λάθος σε ένα πράγμα. Εάν τα μηχανήματα αυτά αναλάβουν, θα μπορούσατε να είστε σε πολλά προβλήματα τη επόμενη φορά που θα ζητήσετε από τη Siri να "ανοίξει τις πόρτες του κόλπου της πόλεως".