ΤΑ "ΕΞΥΠΝΑ" ΠΛΟΙΑ ΤΩΝ ΦΑΙΑΚΩΝ
Δημοσιεύτηκε: Δευ 05 Δεκ 2011, 10:55
«Πες μου, την πατρίδα σου, τον δήμο σου και την πόλη σου για να σε πάνε εκεί κατ’ ευθείαν τα καράβια μας που έχουν σκέψη και νου. Γιατί δεν έχουν τα καράβια των Φαιάκων κυβερνήτες, ούτε και πηδάλια, σαν όλα τα άλλα πλοία, αλλά γνωρίζουν από μόνα τους τη σκέψη και τις διαθέσεις των ανθρώπων και ξέρουν τις πόλεις όλων, ως και τα καρπερά χωράφια ξέρουν κι είναι τόσο γοργά, ώστε ταχύτατα περνούν τις θάλασσες καλυμμένα με πυκνή ομίχλη και καταχνιά, κι ούτε φοβούνται πως θα χαθούν ή θα πάθουν κανένα κακό». (Οδ. θ΄555-569)
Με αυτούς τους στίχους από την Οδύσσεια, μπορούμε να κάνουμε λόγο για ένα αναπτυγμένο σύστημα αναγνώρισης φωνής (speech recognition), βάση του οποίου με ορισμένες λέξεις κλειδιά (keywords) πατρίδα, δήμος, πόλη, ο ευφυής πράκτορας (intelligent agent) του καραβιού μπορεί να μεταφέρει τον ταξιδιώτη στον τόπο του.
Δεν υπάρχει ένας ορισμός κοινά αποδεχτός για την ορολογία «αναγνώριση φωνής». Η περιγραφή του όρου όμως, είναι γύρω από όμοιες λέξεις/φράσεις. Λέξεις όπως δυνατότητα, μετατροπή, αναγνωρίζω, καταλαβαίνω, ομιλία, δέχομαι σήμα.
Ο Lai (2000), ορίζει την αναγνώριση φωνής, ως την τεχνολογία κατά την οποία ο υπολογιστής μετατρέπει το ακουστικό σήμα σε κείμενο και ελευθερώνει τους χρήστες από τους περιορισμούς των εικονιδίων, παραθύρων, μενού. Κατά τον Boyce (2000) η αναγνώριση της Φυσικής Γλώσσας αναφέρεται στα υπολογιστικά συστήματα, τα οποία αναγνωρίζουν και δρουν πάνω σε μη περιορισμένη ομιλία. Δηλαδή, σε μια μη περιορισμένη ομιλία, ο χρήστης χρειάζεται να γνωρίζει μια γκάμα από δοσμένες εντολές (φράσεις κλειδιά) για να χρησιμοποιήσει το σύστημα αυτό με επιτυχία. Ο Markowitz (2000) περιγράφει την αναγνώριση φωνής ως μια επεξεργασία φωνής, η οποία αναγνωρίζει τί λέει ο χρήστης. Το περιοδικό υπολογιστών ΑΙ (2002) την αναφέρει ως την ικανότητα των υπολογιστών να καταλαβαίνουν ομιλία με απώτερο σκοπό να δέχονται φωνητικές εντολές και δεδομένα από τον χρήστη. Η εταιρία Apple (2003) ορίζει την αναγνώριση φωνής ως την ικανότητα των υπολογιστών να καταλαβαίνουν εντολές ομιλίας και αναδράσεις.
Συνοψίζοντας τις παραπάνω περιγραφές για το τί είναι η αναγνώριση φωνής, θα μπορούσαμε να την περιγράψουμε ως την ικανότητα και την επεξεργασία, κατά την οποία ένας υπολογιστής καταγράφει ένα ακουστικό σήμα ομιλίας ως δεδομένο εισόδου και αναπαράγει ένα πιστό αντίγραφο αυτής της ομιλίας ως δεδομένο εξόδου.
Παράδειγμα:
Στο ένα άκρο είναι ο υπολογιστής και στο άλλο άκρο είναι ο χρήστης. Ανάμεσα στους δύο υπάρχει ένα λογισμικό που «μεταφράζει» το αναλογικό σήμα σε ψηφιακό.
Με τους στίχους Πες μου, την πατρίδα σου, τον δήμο σου και την πόλη σου για να σε πάνε εκεί κατ’ ευθείαν τα καράβια μας που έχουν σκέψη και νου. Θεωρώ πως το σύστημα αναγνώρισης φωνής που είχαν τα καράβια αυτά, δέχονταν «σπαστά» τις φωνητικές εντολές (discrete recognition) και όχι με συνεχή ροή (continuous recognition).
Τα αρχικά προγράμματα αναγνώρισης φωνής δεχόντουσαν μόνο την φωνή σπαστά, δηλαδή το λογισμικό αναγνώριζε έναν περιορισμένο αριθμό λεξικού και οι λέξεις έπρεπε να είχαν μια μικρή χρονική καθυστέρηση μερικών δευτερολέπτων μεταξύ τους. Ο λόγος για αυτές τις παύσεις ήταν για να καθορίσουν τα ηχητικά όρια των λέξεων εύκολα και οι λέξεις να είναι αναγνωρίσιμες και προσβάσιμες από το λογισμικό. Η αναγνώριση φωνής με «σπαστή» φωνητική εντολή εξαρτάται μόνο από τη φωνολογική είσοδο. Για να χρησιμοποιηθεί η «σπαστή» αναγνώριση φωνής, η χρήστης πρέπει να μιλήσει την προγραμματισμένη εντολή (πατρίδα, δήμος, πόλη) και ο υπολογιστής εκτελεί την εντολή αυτή. Αυτές οι εφαρμογές είναι γνωστές ως command-and-control applications.
Ένας σημαντικός παράγοντας στην αναγνώριση φωνής είναι το μέγεθος του λεξικού (λέξεων και φράσεων) στις οποίες είναι «εκπαιδευμένη» η φωνητική εφαρμογή. Δηλαδή, δέχεται – καταλαβαίνει – δρα σωστά. Στα αρχικά συστήματα, το μέγεθος του λεξικού ήταν μικρό 10 με 20 λέξεις. Ένα τυπικό φωνητικό λεξικό ήταν οι έντεκα αριθμητικές λέξεις (μηδέν, ένα, δύο … δέκα), καθώς επίσης μερικές εντολές enter, stop, go, backup, repeat. Τα προγράμματα αναγνώριση φωνής που αναπτύχθηκαν στις δεκαετίες του 1980 και 1990, έχουν μεγαλύτερα λεξικά, μερικά αναγνωρίζουν έως και 100.000 λέξεις. Βέβαια, με λεξικά κάθε μεγέθους, μπερδέματα και λάθη γίνονται. Όσο μεγαλύτερο είναι το λεξικό, τόσο περισσότερες είναι οι πιθανότητες για λάθος. Από την άλλη πλευρά, όσο μικρότερες είναι οι λέξεις τόσο πιο δύσκολα είναι να αναγνωριστούν επειδή η πληροφορία του λεκτικού τους εύρους είναι μικρό.
Κάποια προγράμματα αναγνώρισης φωνής είναι καλύτερα από άλλα όσο αφορά την ευαισθησία τους στον θόρυβο περιβάλλοντος. Κάθε είδος θόρυβος εμποδίζει την φωνητική αναγνώριση. Σε περιβάλλοντα θορύβου, μικρόφωνα που αναιρούν τον θόρυβο βοηθούν την φωνητική αναγνώριση. Αυτά τα μικρόφωνα, προσπαθούν να αφαιρέσουν τον θόρυβο περιβάλλοντος από το φωνητικό σήμα εισόδου. Αυτό στο παράδειγμα με τα «έξυπνα» πλοία των Φαιάκων, μας βάζει σε σκέψεις στο πόσο αθόρυβα ή μη ήταν τα καράβια τους και τί είδους τεχνολογία (μικρόφωνα/μεγάφωνα/ηχεία) είχαν για την «ασφαλή» είσοδο της φωνητικής εντολής από τον χρήστη.
Ένα σύστημα για να επεξεργαστεί την φωνή, πρέπει να είναι σε θέση να έχει είσοδο και έξοδο φωνητικής εντολής (Jurafsky & Martin, 2000)(Fromkin, 2000). Μεταξύ της εισόδου και εξόδου της φωνητικής εντολής, μια σειρά από επεξεργασίες λαμβάνουν χώρα, οι οποίες εξαρτώνται από τον σκοπό του σχεδιασμένου συστήματος. Η επεξεργασία μιας λέξης μπορεί να εμπεριέχει πολλές λειτουργίες πάνω σε ένα συγκεκριμένο στοιχείο γλώσσας. Αυτές οι λειτουργίες είναι η σύνθεση (συνθέτει την λέξη από μικρότερα κομμάτια), η ανάλυση (διαχωρίζει την λέξη στις επιμέρους της), παραμόρφωση (αλλάζει την λέξη σε μία παρεμφερή της έννοια) και συμπέρασμα (βγάζει τελικά αποτελέσματα από την υπάρχουσα και ήδη αποθηκευμένη πληροφορία).
Στα «έξυπνα» πλοία των Φαιάκων, έχουμε ένα παράδειγμα αλληλεπίδρασης μηχανής με άνθρωπο με αναγνώριση φωνής. Η αναγνώριση φωνής χρησιμοποιείται ως μια ευθύς αντικατάσταση του οδηγού/πλοηγού/καπετάνιου και όχι ως μια επιπρόσθετη και παράλληλη είσοδο πληροφορίας. Έχουμε στον Όμηρο, ένα δείγμα χαμηλού επιπέδου γλωσσικής επικοινωνίας μεταξύ χρήστη και μηχανής. Από την πλευρά του χρήστη, η αναγνώριση φωνής δεν έχει να κάνει μόνο με την κατανόηση της ομιλούμενης εντολής, αλλά περισσότερο με τον τρόπο που ένα υπολογιστικό σύστημα καταλαβαίνει και αντιδρά πάνω στην εντολή του χρήστη.
προταθέν εδω
από το τόπικ εδώ
Με αυτούς τους στίχους από την Οδύσσεια, μπορούμε να κάνουμε λόγο για ένα αναπτυγμένο σύστημα αναγνώρισης φωνής (speech recognition), βάση του οποίου με ορισμένες λέξεις κλειδιά (keywords) πατρίδα, δήμος, πόλη, ο ευφυής πράκτορας (intelligent agent) του καραβιού μπορεί να μεταφέρει τον ταξιδιώτη στον τόπο του.
Δεν υπάρχει ένας ορισμός κοινά αποδεχτός για την ορολογία «αναγνώριση φωνής». Η περιγραφή του όρου όμως, είναι γύρω από όμοιες λέξεις/φράσεις. Λέξεις όπως δυνατότητα, μετατροπή, αναγνωρίζω, καταλαβαίνω, ομιλία, δέχομαι σήμα.
Ο Lai (2000), ορίζει την αναγνώριση φωνής, ως την τεχνολογία κατά την οποία ο υπολογιστής μετατρέπει το ακουστικό σήμα σε κείμενο και ελευθερώνει τους χρήστες από τους περιορισμούς των εικονιδίων, παραθύρων, μενού. Κατά τον Boyce (2000) η αναγνώριση της Φυσικής Γλώσσας αναφέρεται στα υπολογιστικά συστήματα, τα οποία αναγνωρίζουν και δρουν πάνω σε μη περιορισμένη ομιλία. Δηλαδή, σε μια μη περιορισμένη ομιλία, ο χρήστης χρειάζεται να γνωρίζει μια γκάμα από δοσμένες εντολές (φράσεις κλειδιά) για να χρησιμοποιήσει το σύστημα αυτό με επιτυχία. Ο Markowitz (2000) περιγράφει την αναγνώριση φωνής ως μια επεξεργασία φωνής, η οποία αναγνωρίζει τί λέει ο χρήστης. Το περιοδικό υπολογιστών ΑΙ (2002) την αναφέρει ως την ικανότητα των υπολογιστών να καταλαβαίνουν ομιλία με απώτερο σκοπό να δέχονται φωνητικές εντολές και δεδομένα από τον χρήστη. Η εταιρία Apple (2003) ορίζει την αναγνώριση φωνής ως την ικανότητα των υπολογιστών να καταλαβαίνουν εντολές ομιλίας και αναδράσεις.
Συνοψίζοντας τις παραπάνω περιγραφές για το τί είναι η αναγνώριση φωνής, θα μπορούσαμε να την περιγράψουμε ως την ικανότητα και την επεξεργασία, κατά την οποία ένας υπολογιστής καταγράφει ένα ακουστικό σήμα ομιλίας ως δεδομένο εισόδου και αναπαράγει ένα πιστό αντίγραφο αυτής της ομιλίας ως δεδομένο εξόδου.
Παράδειγμα:
Στο ένα άκρο είναι ο υπολογιστής και στο άλλο άκρο είναι ο χρήστης. Ανάμεσα στους δύο υπάρχει ένα λογισμικό που «μεταφράζει» το αναλογικό σήμα σε ψηφιακό.
Με τους στίχους Πες μου, την πατρίδα σου, τον δήμο σου και την πόλη σου για να σε πάνε εκεί κατ’ ευθείαν τα καράβια μας που έχουν σκέψη και νου. Θεωρώ πως το σύστημα αναγνώρισης φωνής που είχαν τα καράβια αυτά, δέχονταν «σπαστά» τις φωνητικές εντολές (discrete recognition) και όχι με συνεχή ροή (continuous recognition).
Τα αρχικά προγράμματα αναγνώρισης φωνής δεχόντουσαν μόνο την φωνή σπαστά, δηλαδή το λογισμικό αναγνώριζε έναν περιορισμένο αριθμό λεξικού και οι λέξεις έπρεπε να είχαν μια μικρή χρονική καθυστέρηση μερικών δευτερολέπτων μεταξύ τους. Ο λόγος για αυτές τις παύσεις ήταν για να καθορίσουν τα ηχητικά όρια των λέξεων εύκολα και οι λέξεις να είναι αναγνωρίσιμες και προσβάσιμες από το λογισμικό. Η αναγνώριση φωνής με «σπαστή» φωνητική εντολή εξαρτάται μόνο από τη φωνολογική είσοδο. Για να χρησιμοποιηθεί η «σπαστή» αναγνώριση φωνής, η χρήστης πρέπει να μιλήσει την προγραμματισμένη εντολή (πατρίδα, δήμος, πόλη) και ο υπολογιστής εκτελεί την εντολή αυτή. Αυτές οι εφαρμογές είναι γνωστές ως command-and-control applications.
Ένας σημαντικός παράγοντας στην αναγνώριση φωνής είναι το μέγεθος του λεξικού (λέξεων και φράσεων) στις οποίες είναι «εκπαιδευμένη» η φωνητική εφαρμογή. Δηλαδή, δέχεται – καταλαβαίνει – δρα σωστά. Στα αρχικά συστήματα, το μέγεθος του λεξικού ήταν μικρό 10 με 20 λέξεις. Ένα τυπικό φωνητικό λεξικό ήταν οι έντεκα αριθμητικές λέξεις (μηδέν, ένα, δύο … δέκα), καθώς επίσης μερικές εντολές enter, stop, go, backup, repeat. Τα προγράμματα αναγνώριση φωνής που αναπτύχθηκαν στις δεκαετίες του 1980 και 1990, έχουν μεγαλύτερα λεξικά, μερικά αναγνωρίζουν έως και 100.000 λέξεις. Βέβαια, με λεξικά κάθε μεγέθους, μπερδέματα και λάθη γίνονται. Όσο μεγαλύτερο είναι το λεξικό, τόσο περισσότερες είναι οι πιθανότητες για λάθος. Από την άλλη πλευρά, όσο μικρότερες είναι οι λέξεις τόσο πιο δύσκολα είναι να αναγνωριστούν επειδή η πληροφορία του λεκτικού τους εύρους είναι μικρό.
Κάποια προγράμματα αναγνώρισης φωνής είναι καλύτερα από άλλα όσο αφορά την ευαισθησία τους στον θόρυβο περιβάλλοντος. Κάθε είδος θόρυβος εμποδίζει την φωνητική αναγνώριση. Σε περιβάλλοντα θορύβου, μικρόφωνα που αναιρούν τον θόρυβο βοηθούν την φωνητική αναγνώριση. Αυτά τα μικρόφωνα, προσπαθούν να αφαιρέσουν τον θόρυβο περιβάλλοντος από το φωνητικό σήμα εισόδου. Αυτό στο παράδειγμα με τα «έξυπνα» πλοία των Φαιάκων, μας βάζει σε σκέψεις στο πόσο αθόρυβα ή μη ήταν τα καράβια τους και τί είδους τεχνολογία (μικρόφωνα/μεγάφωνα/ηχεία) είχαν για την «ασφαλή» είσοδο της φωνητικής εντολής από τον χρήστη.
Ένα σύστημα για να επεξεργαστεί την φωνή, πρέπει να είναι σε θέση να έχει είσοδο και έξοδο φωνητικής εντολής (Jurafsky & Martin, 2000)(Fromkin, 2000). Μεταξύ της εισόδου και εξόδου της φωνητικής εντολής, μια σειρά από επεξεργασίες λαμβάνουν χώρα, οι οποίες εξαρτώνται από τον σκοπό του σχεδιασμένου συστήματος. Η επεξεργασία μιας λέξης μπορεί να εμπεριέχει πολλές λειτουργίες πάνω σε ένα συγκεκριμένο στοιχείο γλώσσας. Αυτές οι λειτουργίες είναι η σύνθεση (συνθέτει την λέξη από μικρότερα κομμάτια), η ανάλυση (διαχωρίζει την λέξη στις επιμέρους της), παραμόρφωση (αλλάζει την λέξη σε μία παρεμφερή της έννοια) και συμπέρασμα (βγάζει τελικά αποτελέσματα από την υπάρχουσα και ήδη αποθηκευμένη πληροφορία).
Στα «έξυπνα» πλοία των Φαιάκων, έχουμε ένα παράδειγμα αλληλεπίδρασης μηχανής με άνθρωπο με αναγνώριση φωνής. Η αναγνώριση φωνής χρησιμοποιείται ως μια ευθύς αντικατάσταση του οδηγού/πλοηγού/καπετάνιου και όχι ως μια επιπρόσθετη και παράλληλη είσοδο πληροφορίας. Έχουμε στον Όμηρο, ένα δείγμα χαμηλού επιπέδου γλωσσικής επικοινωνίας μεταξύ χρήστη και μηχανής. Από την πλευρά του χρήστη, η αναγνώριση φωνής δεν έχει να κάνει μόνο με την κατανόηση της ομιλούμενης εντολής, αλλά περισσότερο με τον τρόπο που ένα υπολογιστικό σύστημα καταλαβαίνει και αντιδρά πάνω στην εντολή του χρήστη.
προταθέν εδω
από το τόπικ εδώ