Η Alexa σε ένα τραπέζι με ένα συννεφάκι ομιλίας που λέει,

Η Alexa ακούει πάντα, αλλά δεν κάνει συνεχή εγγραφή. Δεν στέλνει τίποτα σε διακομιστές cloud, έως ότου ακούσει να λέτε τη λέξη αφύπνισης (Alexa, Echo ή Computer). Αλλά η ακρόαση λέξεων αφύπνισης είναι πιο δύσκολη από ό, τι νομίζετε.

Το υλικό Echo δεν είναι τόσο έξυπνο. Χωρίς το Διαδίκτυο, οποιοδήποτε αίτημα ή ερώτηση θα αποτύχει. Αυτό συμβαίνει επειδή οι εντολές σας αποστέλλονται στο cloud για ερμηνεία και αποφάσεις. Η Amazon δεν θέλει να καταγράφεται κάθε συνομιλία που έχετε μπροστά από ένα έξυπνο ηχείο, αλλά μάλλον οι εντολές που δίνετε στο έξυπνο ηχείο. Για το λόγο αυτό, η εταιρεία χρησιμοποιεί μια λέξη αφύπνισης για να τραβήξει την προσοχή του έξυπνου ομιλητή. Για να το πετύχει αυτό, η Amazon χρησιμοποιεί έναν συνδυασμό μικροσυσκευασμένων μικροφώνων, ένα σύντομο buffer μνήμης και μια εκπαίδευση νευρωνικών δικτύων.

Μικροφωνικά συντονισμένα με ακρίβεια Εντοπίστε τη φωνή σας

Το Amazon Echo dot 3 με το γαλάζιο δαχτυλίδι LED ανάβει.

Τα ηχεία βοηθού φωνής, όπως το Echo και το Echo Dot, έχουν συνήθως πολλά ενσωματωμένα μικρόφωνα. Το Echo Dot, για παράδειγμα, έχει επτά. Αυτός ο πίνακας δίνει στις συσκευές αρκετές δυνατότητες, από εντολές ακρόασης που εκφωνούνται μακριά, έως διαχωρισμό θορύβου στο παρασκήνιο από φωνές.

Το τελευταίο είναι ιδιαίτερα χρήσιμο για την ανίχνευση λέξεων αφύπνισης. Χρησιμοποιώντας τα πολλαπλά του μικρόφωνα, το Echo μπορεί να εντοπίσει την τοποθεσία σας σε σχέση με το πού κάθεται και να ακούσει προς αυτήν την κατεύθυνση, αγνοώντας το υπόλοιπο δωμάτιο.

Αυτό το βλέπετε σε δράση όποτε χρησιμοποιείτε τη λέξη αφύπνισης. Σταθείτε στο πλάι ενός Echo ή Echo Dot και πείτε τη λέξη αφύπνιση. Παρατηρήστε ότι ο δακτύλιος ανάβει σε σκούρο μπλε χρώμα, και στη συνέχεια ένα ανοιχτό μπλε καθώς περιστρέφεται και «δείχνει» προς εσάς. Τώρα, μετακινήστε αρκετά βήματα στο πλάι και πείτε ξανά τη λέξη αφύπνιση. Παρατηρήστε ότι τα μπλε φώτα σας ακολουθούν.

Γνωρίζοντας πού βρίσκεστε, βοηθά τη συσκευή να εστιάσει καλύτερα σε εσάς και να συντονίσει τους θορύβους που προέρχονται από αλλού.

Η σύντομη μνήμη εμποδίζει το ηχείο να κρατήσει πάρα πολύ

Οι συσκευές Echo έχουν άφθονο χώρο αποθήκευσης, αλλά δεν χρησιμοποιούν μεγάλο μέρος αυτού. Σύμφωνα με τον Rohit Prasad, αντιπρόεδρο της Amazon και επικεφαλής επιστήμονας της Alexa Artificial Intelligence, ένας Echo μπορεί να αποθηκεύσει μόνο λίγα δευτερόλεπτα ήχου.

Μειώνοντας τις δυνατότητές του, το Amazon όχι μόνο σας δίνει περισσότερο απόρρητο (είναι λιγότερο ένα μέρος όπου αποθηκεύεται η φωνή σας), αλλά και εμποδίζει την Echo να ακούει ολόκληρες συνομιλίες, περιορίζοντας την εστίασή της στην εύρεση της λέξης αφύπνισης.

Φανταστείτε ότι είχατε μια κασέτα τριών δευτερολέπτων και ένα μαγνητόφωνο. Ας υποθέσουμε ότι αφού έφτασε στο τέλος, η ταινία γύρισε ξανά στην αρχή ξανά και ξανά. Εάν ξεκινήσατε την εγγραφή μιας συνομιλίας, όλα όσα είπατε πριν από τέσσερα δευτερόλεπτα θα σβηστούν και θα καταγραφούν αμέσως. Αυτό κάνει το Amazon Echo.

Καταγράφει συνεχώς, αλλά σκουπίζει όλα όσα ηχογράφησε ταυτόχρονα. Αυτό το σύντομο εύρος προσοχής σημαίνει ότι το μόνο που μπορεί να ακούσει είναι η λέξη «Alexa» και όχι πολύ περισσότερο. Τρία δευτερόλεπτα, ωστόσο, είναι αρκετά μεγάλα για να καταγραφεί, να εξεταστεί και να εφαρμοστεί σωστά αυτή η λέξη.

Το Neural Net Training βοηθά με την αντιστοίχιση μοτίβων

Ένα διάγραμμα ροής των επιπέδων αλγορίθμου Amazon.

Τέλος, το Amazon εξαρτάται από την εκπαίδευση νευρωνικών δικτύων για να διδάξει στην Echo πώς να ταιριάζει με το μοτίβο. Όπως και άλλες μορφές μηχανικής μάθησης, το Amazon εκπαιδεύει τους αλγορίθμους του τροφοδοτώντας την μετά την παρουσία της λέξης Alexa (ή Computer, ή Echo, ανάλογα με το ποια λέξη αφύπνισης εκπαιδεύει η εταιρεία).

ΣΧΕΤΙΖΕΤΑΙ ΜΕ: Τι είναι οι αλγόριθμοι και γιατί κάνουν τους ανθρώπους να νιώθουν άβολα;

Η ιδέα είναι να καλύψουμε κάθε κλίση και έμφαση, αλλά και το πλαίσιο. Η Amazon θέλει το Echo σας να αναγνωρίζει τη διαφορά όταν μιλάτε σε αυτό, όταν μιλάτε για αυτό ή, ίσως, όταν μιλάτε σε ένα άτομο που ονομάζεται Alexa. Τα κατευθυντικά μικρόφωνα βοηθούν επίσης με αυτόν τον στόχο.

Με κάθε λέξη που ακούει το Echo, εκτελεί ήχο μέσω επιπέδων αλγορίθμων. Κάθε στρώμα έχει σχεδιαστεί για να αποκλείει ψευδώς θετικά, αναζητώντας παρόμοιες ήχους ή ενδείξεις περιβάλλοντος. Εάν περάσει ένας έλεγχος επιπέδου, η λέξη πηγαίνει στο επόμενο. Τέλος, όταν η τοπική συσκευή αποφασίσει ότι άκουσε τη λέξη αφύπνισης, αρχίζει να εγγράφει και να μεταδίδει τον ήχο στους διακομιστές cloud της Amazon. Η Amazon χρησιμοποιεί τέσσερις αλγόριθμους: έναν για κάθε λέξη αφύπνισης (Alexa, Computer, Echo) και ένας για την Alexa Guard, η οποία αντιμετωπίζει συγκεκριμένους ήχους, όπως θραύση γυαλιού, σαν λέξη αφύπνισης.

Αλλά ακόμη και όταν συμβαίνει ένας αγώνας, το Amazon εξακολουθεί να εκτελεί πιο περίπλοκους ελέγχους. Έχετε παρατηρήσει ότι όταν κάποιος μιλά τη λέξη Alexa σε μια τηλεοπτική εκπομπή ή μια διαφήμιση, συνήθως δεν προκαλεί απάντηση από το Echo; Αυτό συμβαίνει επειδή η Amazon κάνει επίσης έλεγχο cloud.

Το Cloud Checks αποκλείει ορισμένα ψευδή θετικά

Άνθρωπος από την εμπορική Alexa κοιτάζοντας την αναμμένη οδοντόβουρτσα Echo.

Όταν οι εταιρείες κάνουν διαφημίσεις που διαθέτουν Alexa, μπορούν να υποβάλουν τον ήχο στο Amazon. Η εταιρεία εκτελεί τον ήχο μέσω παρόμοιων αλγορίθμων αντιστοίχισης μοτίβων που χρησιμοποιούνται για την αναγνώριση της λέξης αφύπνισης. Μόλις καταχωριστεί πλήρως αυτή η ακριβής παρουσία, προστίθεται σε μια βάση δεδομένων.

Ως μέρος της διαδικασίας κατά την επικοινωνία με το cloud, το Echo σας περιλαμβάνει πληροφορίες σχετικά με τη λέξη αφύπνισης που άκουσε και ελέγχει τη συγκεκριμένη βάση δεδομένων. Κάθε φορά που βρίσκει αγώνα, το Amazon δίνει εντολή στο Echo σας να αγνοήσει τη λέξη αφύπνισης, να κλείσει και να απορρίψει τυχόν ηχογραφημένο ήχο.

Επιπλέον, το Amazon ελέγχει για τις περιπτώσεις της λέξης αφύπνισης που εκφωνείται ταυτόχρονα. Δεν υποβάλλει κάθε εταιρεία ήχος στο Amazon, οπότε η εταιρεία βρήκε μια νέα λύση δημιουργίας αντιγράφων ασφαλείας. Αφού έλεγξε μια αντιστοίχιση βάσης δεδομένων, η εταιρεία συγκρίνει το αποτύπωμα λέξης αφύπνισης με άλλες περιπτώσεις που έρχονται ταυτόχρονα. Είναι απίθανο δύο άτομα που λένε ότι η Alexa να ακούγεται ταυτόχρονα ακριβώς, οπότε αν υπάρχει αγώνας, η Amazon γνωρίζει ότι είναι πιθανότατα μια εμπορική ή τηλεοπτική εκπομπή και αγνοεί το αίτημα.

Παρά όλους τους ελέγχους, εξακολουθούν να εμφανίζονται ψευδώς θετικά. Μπορείτε να ακούσετε τι έχει καταγράψει το Echo στο κέντρο απορρήτου της Amazon και πιθανότατα θα βρείτε τουλάχιστον ένα ψευδώς θετικό στην ομάδα. Αλλά η τεχνολογία βελτιώνεται συνεχώς και, τελικά, η Amazon θα ήθελε να λειτουργεί χωρίς να ξυπνά καθόλου.