Σελίδα 1 από 1

Aναγνώριση φωνής σε πολλαπλού χειρισμού περιβάλλον διεπαφής

Δημοσιεύτηκε: Πέμ 18 Δεκ 2008, 20:23
από Casandra
(Η παρακάτω εργασία είναι απόσπασμα από δικό μου κείμενο μεταφρασμένο στα ελληνικά)

Πειράματα αναγνώρισης φωνής σε ένα πολλαπλού χειρισμού περιβάλλον διεπαφής σε FPS βιντεοπαιχνίδια

Εισαγωγή
Ο σκοπός αυτού του πειράματος είναι να κατασκευαστεί το έδαφος για την σχεδίαση ενός συνδιαλεκτικού ευφυούς πράκτορα με την ικανότητα να δημιουργήσει και να διατηρήσει μια κοινωνική σχέση με τον χρήστη. Αυτή η ικανότητα δεν είναι μόνο σημαντική για τις εφαρμογές στα FPS βιντεοπαιχνίδια, αλλά παίζει σημαντικό ρόλο σε κάθε εφαρμογή, η οποία μελετά την διάδραση ενός χρήστη με έναν ευφυή πράκτορα.
Αν θέλουμε ο χρήστης να αισθάνεται βολικά με τους πράκτορες, να τους εμπιστεύεται και να πείθεται από αυτούς, τότε είναι σημαντικό να καταλάβουμε πώς οι άνθρωποι εκτελούν αυτές τις λειτουργίες και να δώσουμε στους πράκτορες παρεμφερή συμπεριφορά. Για το παραπάνω πείραμα χρησιμοποιήθηκαν τα FPS βιντεοπαιχνίδια Unreal Tournament® 2003 και Call of Duty® Το πείραμα χωρίστηκε σε δύο περιβάλλοντα. Στο περιβάλλον πολλαπλών χρηστών και στο περιβάλλον ένας χρήστης - ένας πράκτορας.

Περιβάλλον πολλαπλών χρηστών
Η κατηγορία αυτή χωρίστηκε σε δύο επιμέρους πειράματα. Στο πείραμα με τους «γενικούς» “public” χρήστες και στο πείραμα με τους «ειδικούς» “clan” χρήστες.

[box=]Γενικούς χρήστες, ονομάζουμε τα άτομα εκείνα που μοιράζονται ένα κοινό ενδιαφέρον. Να παίζουν το συγκεκριμένο βιντεοπαιχνίδι για παράδειγμα. Ειδικούς χρήστες, ονομάζουμε τα άτομα εκείνα που είναι μέλη οργανωμένων ομάδων και οι οποίοι παίρνουν μέρος σε οργανωμένους διαγωνισμούς στο συγκεκριμένο βιντεοπαιχνίδι για παράδειγμα, τόσο σε τοπικό επίπεδο όσο και σε διεθνές.[/box]
Τα πειράματα συντάχθηκαν χρησιμοποιώντας πολλαπλών παιχτών (multi-player) FPS βιντεοπαιχνίδια χρησιμοποιώντας φυσική γλώσσα και όχι αυτόματη αναγνώριση φωνής, για να τεστάρουμε ποιες είναι οι ποιο πολυχρησιμοποιούμενες φωνητικές εντολές και πώς επικοινωνούν φωνητικά οι παίχτες μεταξύ τους. Αφού οι παίχτες χρησιμοποιούν φυσική γλώσσα, οι φωνητικές εντολές αναμένονταν να είναι μακροσκελείς και πολύπλοκες. Οι Jurafsky και Martin (2002), αναφέρουν πως οι ομιλημένες λέξεις/φράσεις που συναντώνται συχνά, προσπελάσονται γρηγορότερα από τις λέξεις φράσεις που δεν συναντώνται συχνά. Είναι επιτυχώς αναγνωρισμένες σε θορυβώδη περιβάλλοντα ή όταν μόνο ένα μέρος τους έχει λεχθεί. Στόχος του πειράματος είναι η συγκέντρωση μιας βάσεως δεδομένων από φωνητικές οδηγίες και αναδράσεις, οι οποίες θα χρησιμοποιηθούν σαν λεξικό στην τελική κατασκευή του συνδιαλεκτικού ευφυούς πράκτορα.

Μεθοδολογία πειράματος με τους γενικούς χρήστες
Πήραν μέρος 21 άτομα, φοιτητές την Πληροφορικής Σχολής του Πανεπιστημίου του Bradford, Αγγλίας. Δεν πληρώθηκαν να παρακολουθήσουν πειραματικό πρόγραμμα διάρκειας μίας ώρας σε διαδοχικές ημέρες. Όλοι οι φοιτητές ήταν γνώριμοι με χρήση υπολογιστών και ήταν εξικοιωμένοι με τα βιντεοπαιχνίδια. Η φωνητική εγγραφή των πειραμάτων έγινε σε SONY minidisks καθώς οι φοιτητές έπαιζαν με το βιντεοπαιχνίδι.

Οδηγίες
Για να διευκολύνουμε τους χρήστες, τους δόθηκαν σημειώσεις με οδηγίες για το πώς παίζεται το παιχνίδι ‘Capture the Flag’ και μερικά παραδείγματα φωνητικών εντολών που θα μπορούσαν να χρησιμοποιήσουν για να επικοινωνήσουν με τους συμπαίκτες τους. Οι παίχτες έπρεπε να τροποποιήσουν τις εντολές αυτές, να φτιάξουν δικές τους και να επικοινωνήσουν με τους συμπαίκτες τους όσο το δυνατό πιο φυσικά, εφόσον χρησιμοποιούσαν φυσική γλώσσα. Δόθηκε πειραματικός χρόνος 15 λεπτών, για να εγκλιματιστούν οι παίχτες με τις λειτουργίες του παιχνιδιού προτού ξεκινήσει η εγγραφή του πειράματος.

Το πρότυπο σύστημα: Unreal®, Capture The Flag™
Στο παιχνίδι Capture The Flag (CTF), οι χάρτες είναι συνήθως συμμετρικοί και αποτελούνται από δύο βάσεις με μια νεκρή ζώνη ανάμεσά τους. Η κόκκινη βάση είναι στην μία πλευρά και η μπλε στην απέναντι πλευρά. Οι κανόνες είναι απλοί. Ο παίχτης πρέπει να πάει στην σημαία της άλλης ομάδας και να την ακουμπήσει. Μόλις την ακουμπήσει την κουβαλάει. Τότε, πρέπει να περάσει την σημαία στην δική του βάση και να ακουμπήσει την δική του σημαία, έχοντας πάντα στο νου του πως η δική του σημαία πρέπει να βρίσκεται ασφαλής στην βάση της για να σκοράρει. Αν ο αντίπαλος έχει την σημαία του, τότε πρέπει είτε να στείλει τον συμπαίχτη του να την ανακτήσει είτε να το κάνει ο ίδιος. Ο αριθμός κατάκτησης της αντίπαλης σημαίας για να κερδίσεις το παιχνίδι είναι 3.

Διαδικασία
Η ομάδα έπαιζε το παιχνίδι Capture The Flag για μία ώρα. Υπήρχαν δύο ομάδες από δύο παίχτες η καθεμιά, που έπαιζαν αναμεταξύ τους. Για να κερδίσουν έπρεπε να δουλέψουν ομαδικά. Για να δουλέψουν ομαδικά έπρεπε να επικοινωνούν μεταξύ τους. Για να λειτουργήσει η ομάδα σωστά η συνεργασία είναι απαραίτητη, αφού οι παίχτες πρέπει να γνωρίζουν τι κάνει ο συμπαίκτης τους. Αλλιώς και οι δύο παίχτες μπορεί να αμύνονται στην βάση ή ακόμα χειρότερα να επιτίθενται, αφήνοντας την σημαία τους απροστάτευτη.

Αποτελέσματα: Γραμματική και λεξιλογική ανάλυση του περιβάλλοντος πολλαπλών χρηστών με τους γενικούς χρήστες
  • Ανακοινώσεις
Εικόνα Σχήμα 1: Αναλυτικό δένδρο και ανάλυση της “I got killed” ανακοίνωσης
I:Personal pronoun used by a speaker to refer to himself
Got: Past tense of the verb get
Get:Verb; Vi, Vt
Killed:Past participle of the verb kill
Kill: Verb; Vi, Vt

Εικόνα Σχήμα 2: Αναλυτικό δένδρο και ανάλυση της “I have got the flag” ανακοίνωσης
I:Personal pronoun used by a speaker to refer to himself
Have: Auxiliary verb
Got: Past participle of the verb get
Get: Verb; Vi, Vt
The: Definite article
Flag: Noun
  • Ερωτήσεις
Εικόνα Σχήμα 3: Αναλυτικό δένδρο και ανάλυση της “Where are you?” ερώτησης
Where: Wh-adverb
Are: Auxiliary verb
You: Pronoun

Εικόνα Σχήμα 4: Αναλυτικό δένδρο και ανάλυση της “Do you have their flag?” ερώτησης
Do: Auxiliary verb
You: Pronoun
Have: Verb
Their: Pronoun
Flag: Noun
  • Επιφωνήματα
Oh: Interjection Σχήμα 5: Λεξικό του “Oh” επιφωνήματος
Damn: Interjection Σχήμα 6: Λεξικό του “Damn” επιφωνήματος

Μεθοδολογία πειράματος με τους ειδικούς χρήστες
Πήραν μέρος 15 άτομα, τα οποία όλα ήταν μέλη της ομάδας Χ.
[box=]Επειδή η ηχογράφηση έγινε σε ώρα που η ομάδα έκανε την τελική τους «προπόνηση» πριν από αναμέτρηση σε διαγωνισμό σε εθνικό επίπεδο, ζητήθηκε να μην αποκαλυφθεί η ονομασία της ομάδας και διαρεύσουν έτσι κάποιες τεχνικές τους. Τους δόθηκε το όνομα Χ. Είχαν όλοι τους πολύ καλή γνώση υπολογιστών και ήταν άριστοι παίχτες του συγκεκριμένου βιντεοπαιχνιδιού.[/box]
Επικοινωνία ομιλίας
Για την φωνητική τους επικοινωνία χρησιμοποίησαν το TeamSpeak. Το TeamSpeak είναι μια εφαρμογή, η οποία επιτρέπει στους παίχτες να ομιλούν αναμεταξύ τους μέσω του Διαδικτύου. Είναι σχεδιασμένη έτσι, ώστε να «τρέχει» στο «πίσω» μέρος των βιντεοπαιχνιδιών διαδικτύου.

Οδηγίες
Δεν δόθηκε καμία οδηγία στους παίχτες για το πώς θα παίξουν και θα επικοινωνήσουν αναμεταξύ τους. Ο παρατηρητής του πειράματος δεν ήταν παρόν στην ηχογράφηση. Όλα τα μέλη της ομάδας Χ γνώριζαν πως οι συνομιλίες τους ηχογραφόταν.
Το πρότυπο σύστημα: Call of Duty®, Search & Destroy™
Σε αυτό το βιντεοπαιχνίδι, παιζόταν με γύρους επίθεσης και άμυνας, η επιθετική ομάδα πρέπει να καταστρέψει κάποια συγκεκριμένα σημεία πάνω στον χάρτη, ενώ η αμυντική ομάδα πρέπει να τα προστατέψει. Η επιθετική ομάδα κερδίζει πόντους καταστρέφοντας αυτά τα σημεία. Η αμυντική ομάδα κερδίζει πόντους με το κρατά όλα τα σημεία ασφαλή καθ' όλη την διάρκεια του γύρου. Μια ομάδα κερδίζει όταν έχει σκοτώσει όλους τους αντιπάλους στον χάρτη.

Αποτελέσματα: Γραμματική και λεξιλογική ανάλυση του περιβάλλοντος πολλαπλών χρηστών με τους ειδικούς χρήστες
  • Ανακοινώσεις
Εικόνα Σχήμα 7: Αναλυτικό δένδρο και ανάλυση της “I tell you what we are going to do” ανακοίνωσης
I: Personal pronoun used by a speaker to refer to himself
Tell: Verb; Vi, Vt
You: Pronoun
What: Wh-adjective
Are: Auxiliary Verb
Going: Present continuous tense of the verb go
Go: Verb; Vi
To:Preposition
Do: Verb; Vi, Vt

Εικόνα Σχήμα 8: Αναλυτικό δένδρο και ανάλυση της “Support my creep up and see if you can see any high-heeters in the office and in the police-station” ανακοίνωσης
Support: Verb; Vt
My: Adjective
Creep : Noun
Up: Adverb
And: Conjoin
See: Verb; Vi, Vt
If: Conjoin
You: Pronoun
Can: Auxiliary
Any: Adjective
High-heeters: Noun
In: Preposition
The: Definite article
Office: Noun
Police-station: noun
  • Ερωτήσεις
Εικόνα Σχήμα 9: Αναλυτικό δένδρο και ανάλυση της “Are we rushing?”ερώτησης
Are: Auxiliary verb to be
We: pronoun
Rushing: Present continuous tense of the verb rush
Rush: Verb; Vi, Vt

Εικόνα Σχήμα 10: Αναλυτικό δένδρο και ανάλυση της “What is he doing round there?” ερώτησης
What: Wh-adjective
Is: Auxiliary verb of be
He: Pronoun
Doing: Present continuous tense of the verb do
Do: Verb; Vi, Vt
Round: Adverb
There : Adverb

(Θα ακολουθήσουν τα αποτελέσματα των πειραμάτων, η σύγκρισή τους και το δεύτερο σκέλος των πειραμάτων σε περιβάλλον χρήστης-ευφυής πράκτορας)

Re: Aναγνώριση φωνής σε πολλαπλού χειρισμού περιβάλλον διεπαφής

Δημοσιεύτηκε: Παρ 19 Δεκ 2008, 22:24
από TEUTAMOS
Πολύ σημαντικά τα όσα έχεις γράψει, γιατί συμβάλλουν τα μέγιστα στην αυτοματοποίηση των ηλεκτρονικών παιχνιδιών και στην σχεδίαση ευφυούς πράκτορος που θα επιτελεί ρόλο εγκεφάλου και θα αναπτύσσει με τον/τους χρήστη/-ες μια σχεσιοδυναμική σε επίπεδο τόσο κοινωνικό όσο και γλωσσικό. Πραγματικά μπορεί κανείς στηριζόμενος στις αρχές της Εφηρμοσμένης Γλωσσολογίας και ιδίως της Υπολογιστικής Γλωσσολογίας σε συνδυασμό με τις γνώσεις της Πληροφορικής να κατορθώσει να "πλάσει" το κατάλληλο πλαίσιο για την δημιουργία ενός ρομπότ - ανθρώπου.

κάποιες βασικές αρχές που θα πρέπει κανείς να έχει υπ' όψη του είναι:

-την δημιουργία Λεξικού Τομέως (Lexical Section) που θα εμπεριέχει όλα τα ελάχιστα εκείνα γλωσσικά τεμάχια (μορφήματα και λέξεις) τα οποία συνδυάζοντάς τα στα υπερκέιμενα μορφολογικά ή μορφοφωνολογικά επίπεδα να δίνουν λεξήματα (lexems).
-να προβλεφθούν μορφοφωνολογικά επίπεδα, στα οποία θα γίνει η συνθεση και η παραγωγή των μορφημάτων (ελάχιστων τεμαχίων με νόημα).
- σε κάθε επίπεδο (level) μορφοφωνολογικό θα επενεργούν μορφολογικοί (morphological rules) και φωνολογικοί κανόνες (phonological rules).
- οι κανόνες αυτοί θα δρουν καταλυτικά και όσες φορές είναι αναγκαίο.
- Κατά την έξοδο (output)της μορφοφωνολογικής διαδικασίας θα υπάρχουν "φίλτρα" που δεν θα επιτρέπουν να εξαχθούν λέξεις μη γραμματικώς ορθά σχηματισμένες (non well grammatical formed).
-Από τον σχηματισμό λέξεων (word formation) στην Βαθεία Δομή (Deep Structure) αναγόμεθα σε μετασχηματισμό (transformation) στην Επιφανειακή Δομή (Surface Structure) και στον φωνούμενο λόγο.
-Κάπου ανάμεσα στην Βαθεία Δομή και στην Επιφανειακή Δομή πρέπει να λειτουργήσουν και οι Σημασιολογικοί κανόνες (semantic rules). Είναι ζήτημα όμως της θεωρίας πού θα εφαρμοστούν οι κανόνες αυτοί.
- Οι υπόλοιποι κανόνες δεν είναι δυνατό να λειτουργήσουν, γιατί αφορούν στην πραγματολογία (pragmatics) και τις κανονικές συνθήκες ομιλίας και χρήσης της γλώσσας.