Enhancing the user experience for a word processor application through vision and voice

Loading...
Thumbnail Image
Date
2011
Authors
Beelders, Tanya René
Journal Title
Journal ISSN
Volume Title
Publisher
University of the Free State
Abstract
English: Multimodal interfaces may herald a significant improvement on current GUIs which have been commonplace until now. It is also possible that a multimodal interface could provide a more intuitive and natural means of interaction which, simultaneously, negates the reliance on traditional, manual means of interaction. Eye gaze and speech are common components of natural human-human communication and were proposed for use in a multimodal interface for a popular word processor for the purposes of this study. In order for a combination of eye gaze and speech to be a viable interface for a word processor, it must provide a means of text entry and facilitate editing and formatting of the document contents. For the purposes of this study a simple speech grammar was used to activate common word processing tasks, as well as for selection of text and navigation through a document. For text entry, an onscreen keyboard was provided, the keys of which could be pressed by looking at the desired key and then uttering an acceptable verbal command. These functionalities were provided in an adapted Microsoft Word 2007® to increase the customisability and possibly the usability of the word processor interface and to provide alternative means of interaction. The proposed interaction techniques also had to be able to execute typical mouse actions, such as point-and-click. The usability of eye gaze and speech was determined using longitudinal user testing and a set of tasks specific to the functionality. Results indicated that the use of a gravitational well increased the usability of the speech and eye gaze combination when used for pointing-and-clicking. The use of a magnification tool did not increase the usability of the interaction technique. The gravitational well did, however, result in more incorrect clicks due to natural human behaviour and the ease of target acquisition afforded by the gravitational well. However, participants learnt how to use the interaction technique over the course of time, although the mouse remained the superior pointing device. Speech commands were found to be as usable, or even more usable, than the keyboard and mouse for editing and selection purposes, although navigation was hindered to some extent. For text entry purposes, the keyboard far surpasses eye gaze and speech in terms of performance as an input method as it is both faster and results in fewer errors than eye gaze and speech. However, even though the participants were required to complete a number of sessions and a number of text entry tasks per session, more practice may be required for using eye gaze and speech for text entry. Subjectively, participants felt comfortable with the multimodal interface and also indicated that they felt improvement as they progressed through their sessions. Observations of the participants also indicated that as time passed, the participants became more adept at using the multimodal interface for all necessary interactions. In conclusion, eye gaze and speech can be used instead of a pointing device and speech commands are recommended for use within a word processor in order to accomplish common tasks. For the purposes of text entry, more practice is advocated before a recommendation can be made. Together with progress in hardware development and availability, this multimodal interface may allow the word processor to further exploit emerging technologies and be a forerunner in the use of multimodal interfaces in other applications.
Afrikaans: Multi-modale koppelvlakke kan ’n betekenisvolle bydrae lewer tot grafiese gebruikerskoppelvlakke soos wat dit die afgelope tyd bekend was. Dit is ook moontlik dat multi-modale koppelvlakke ’n meer intuitiewe en natuurlike interaksie-medium kan bied om die afhanklikheid van tradisionele handbeheerde interaksie tegnieke te verminder. Visie en spraak is alledaagse komponente van natuurlike mens-tot-mens kommunikasie en word in hierdie studie ook voorgestel vir gebruik in ’n multi-modale koppelvlak vir ’n gewilde woordverwerkingspakket. Om lewensvatbaar te wees in die koppelvlak van ’n woordverwerkingspakket, moet ’n kombinasie van visie en spraak die invoer van teks, redigering asook formatering van ’n dokument, fasiliteer. Vir die doeleindes van hierdie studie is ’n beperkte stel mondelinge opdragte gebruik om alledaagse woordverwerkingsopdragte, sowel as die seleksie van teks en navigering in ’n dokument, te aktiveer. Met die oog op teksinvoer is ’n visuele sleutelbord op die skerm vertoon. ’n Sleutel kon geaktiveer word deur daarna te kyk en dan ’n gepaste opdrag te uiter. Hierdie funksionaliteite is in ’n aangepaste Microsoft Word 2007R woordverwerkingspakket geimplementeer om die aanpasbaarheid en moontlik ook die bruikbaarheid van die oordverwerkingskoppelvlak te verhoog en om alternatiewe interaksietegnieke te voorsien. Die voorgestelde interaksietegnieke moes ook geskik wees om tipiese muis-aksies, byvoorbeeld wys-en-kliek, uit te voer. Die bruikbaarheid van visie en spraak is bepaal deur longitudinale gebruikerstoetsing en ’n stel take wat op spesifieke funksionaliteite betrekking het. Die resultate het aangedui dat die gebruik van ’n gravitasieput die bruikbaarheid van die kombinasie van spraak en visie tydens wys-en-kliek aksies verhoog het. Die gebruik van ’n vergrotingspakket het nie die bruikbaarheid van die interaksietegniek verhoog nie. Natuurlike menslike gedrag en die gemak waarmee teikens gekliek kon word deur gebruik van ’n gravitasieput, het egter veroorsaak dat die gravitasieput meer foutiewe klieks tot gevolg gehad het. Deelnemers het egter mettertyd geleer om die tegniek te gebruik, alhoewel die muis steeds die beste wysertoestel gebly het. Dit is verder bevind dat mondelinge opdragte net so goed of selfs beter is vir redigering en seleksie as die sleutelbord en muis, alhoewel navigering in ’n mate gekortwiek is. Die sleutelbord is verreweg die beste tegniek om teks in te voer aangesien dit vinniger was en deelnemers ook minder foute gemaak het as met spraak en visie. Alhoewel deelnemers ’n aantal take uitgevoer het tydens ’n hele paar sessies, mag meer oefening nodig wees om spraak en visie vir teksinvoer te gebruik. Subjektiewe terugvoer van deelnemers het aangedui dat hulle gemaklik was met die multi-modale koppelvlak en dat hulle ervaar het dat hulle van een sessie tot die volgende verbeter het. Dit is ook waargeneem dat deelnemers meer bedrewe geraak het met oefening en die multi-modale koppelvlak mettertyd vir al die nodige interaksies kon gebruik. Ter opsomming is dit duidelik dat spraak en visie gebruik kan word in die plek van ’n wysertoestel en dit word aanbeveel dat mondelinge opdragte gebruik word om alledaagse woordverwerkingstake uit te voer. Dit is nodig dat deelnemers meer oefening in teksinvoer moet kry voordat ’n aanbeveling gemaak kan word. Hierdie multi-modale koppelvlak kan, in samehang met die ontwikkeling en beskikbaarheid van apparatuur, die woordverwerker toelaat om nuwe tegnologiee te ontgin en die weg te baan vir gebruik van multi-modale koppelvlakke in ander toepassings.
Description
Keywords
Thesis (Ph.D. (Computer Science and Informatics))--University of the Free State, 2011, Word processing, Multi model user interfaces (Computer systems), Automatic speech recognition
Citation