Archives of Design Research

Home > Vol. 26, No. 2

An Exploratory Research on the Correlation between the Perception of Gesture UX (Airtouch UX) Design and Display Code

공간 제스처 UX (Airtouch UX) 디자인과 디스플레이 코드 간 상관관계 연구 사례

Seung Hun Yoo : Korea University

Background This study aims to explore the design concept generation of intuitive non-touch gesture UX (Airtouch UX) and the application domain for gesture. The process was planned to be performed in both an organized top-down process and a creative bottom-up process. Thus, the idea divergent process of the invisible design problem has been examined in consideration of the task-input -feedback cycle of system interaction.

Methods Prior researches on gesture as an input method form were analyzed to be enhanced with a detailed decomposition model of the gesture interaction framework. Work domain analysis and a creative workshop were conducted with 30 designers focusing on gesture UX design for tablet devices. Five representative tasks were extracted based on context analysis and all designers generated two different types of display code gestures: verbal code-based and spatial code-based gestures. Then, gestures were tested in terms of ease-of-recognition and memory-based response.

Results Verbal code gesture showed a superior recognition rate to spatial code gesture. On the other hand, spatial code was preferred in terms of response than verbal code gesture.

Conclusion The effectiveness and efficiency of visual cue visualization for a gesture interface were suggested through this research. In a future study, we will aim to achieve prototype-based usability verification and conduct an additional gesture-mental model compatibility test.

Abstract, Translated

본 연구에서는 스마트 디바이스 조작을 위한 비접촉식 제스처 (Airtouch UX)의 활용 가능성과, 직관적 제스처를 디자인하기 위한 창조적 디자인 발상과정의 탐색실험을 실시하였다. 제스처 인터페이스는 대표적인 비시각적 디자인 영역으로써, 기술과 사용자의 직관을 반영한 디자인 해결과정이 필요하다. 이를 위해 제스처를 입력 수단 위주로 해석한 기존 연구들의 바탕 위에, 단순 입력 수단이 아닌 인터랙션 사이클 매체로서의 제스처 효용을 분석하였다. 또, 사용자와 시스템이 상호작용하는 제스처 인터랙션을 단계별로 나누어 사용자가 인지할 수 있도록 전체 UX를 프레임웍으로 정의 하였다.

연구 방법으로는 Work Domain Analysis에 의한 솔루션 탐색 워크샵 기법을 적용하고, 컨셉 도출과정을 관찰, 평가하였다. 30명의 디자이너들이 제스처의 활용도를 찾는 과정을 거쳤으며, 컨텍스트 분석을 통해 제스처 활용 가능성이 높은 도메인 제품을 선정하였다. 그 다음 각 도메인이 제공하는 기능들과 태스크를 제스처를 그룹별로 제안하고, 타 그룹이 제시한 제스처를 통해 기능을 추측하는 연상 실험을 실시하였다. 실험 결과 정보의 디스플레이 코드에 따라 제스처와 태스크간의 적합도가 달랐다. 인터페이스를 해석하는 태스크의 경우, 디스플레이의 언어적 코드를 활용한 제스처가 적합하였다. 직관적인 조작이 강조되는 태스크와 수행과정의 경우, 디스플레이의 공간적 속성을 활용한 제스처가 더 선호되었다. 본 연구에서는 이 제스처 속성들을 인식률과 반응율로 측정하였고, 제스처-태스크간 적합한 디자인방법을 탐색하고자 하였다.

Keywords:

Gesture UX, Non-touch gesture, Air Touch, Display Code, Modality Fusion, 제스처 UX, 비접촉 제스처, 에어터치, 디스플레이 코드, 모달리티.

pISSN: 1226-8046

eISSN: 2288-2987

Publisher: Korean Society of Design Science

Received: 10 Jan, 2013

Revised: 03 Feb, 2013

Accepted: 06 Feb, 2013

Printed: May, 2013

Volume: 26 Issue: 2

Page: 215 ~ 233

DOI: https://doi.org/10.15187/adr.2013.05.26.2.215

Corresponding Author: SeungHun Yoo (shyoo93@korea.ac.kr)

PDF Download:

Citation:Yoo, S. (2013). An Exploratory Research on the Correlation between the Perception of Gesture UX (Airtouch UX) Design and Display Code. Archives of Design Research, 26(2), 215-233

Notes ; This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/), which permits unrestricted educational and non-commercial use, provided the original work is properly cited.

1. 연구 배경 및 목적

1.1. 연구 배경

제스처 인터랙션, 특히 비접촉식 공간 제스처는 인터랙션 방식의 새로운 대안으로서의 가능성과 한계성을 동시에 지니고 있다. 사용자와 디바이스와의 거리 제약을 극복하면서 원격으로 별도의 도구 없이 자연스러운 조작 (Natural control)이 가능하고, 컨텐츠의 직접조작 (Direct Manipulation)의 개념을 2D 표면에서 3D공간으로 보다 인지적, 인간공학적으로 지원할 수 있다는 장점이 있다(Kim, 2012). 반면, 정보표면과 일정한 거리를 유지해야 하므로 정밀한 조작이 어렵고, 조작 결과에 대한 다양한 시각적 효과의 지원이 제한적이다. 또 조작 시 손가락의 조작감이 없어서 현재 기존 터치 인터페이스 대비하여 우월한 활용 분야를 찾기가 어렵다는 단점 또한 존재한다. 제스처 인터페이스는 디자인의 심미적 측면에서도 여러 가지 도전요소를 지니고 있다. 디자인의 가장 큰 해결과제인 “심미성”에 대한 정의가 불분명하고, 디자인 결과물 또한 비시각적 요소를 많이 포함하고 있기도 하다. 또한, 동작 인식에 관한 기술적 제약 사항과 오작동에 관한 위험요소가 많아서 현실적 솔루션을 위해서는 디자이너들에게 단순히 사용자들의 직관적 행동만을 반영하기 보다는, 어느 정도 시스템에 내제된 기술적 한계나 가능성에 대한 이해가 요구되는 분야이기도 하다(이우훈, 2007).

최근 일고 있는 여러 가지 동작인식 비접촉 제스처 인터페이스들은 사용자의 멘탈모델과의 합일성 에 부합하는 동작을 선정할 경우 (McNeill, D.,, 1992) 비언어적이고 풍부한 인터랙션의 창조가 가능하다 (이원준, 2008). 사용자들이 무의식적으로 자연스럽게 수행하는 행동을 반영하여, 별도의 학습이 필요 없게끔 제안하는 경우가 가장 이상적인 목표이다. 제스처 디자인은 가장 직관적이고 자연스런 행위를 정의해야 하는 만큼 사용자들로부터의 리서치와 접근이 필수적인 분야이다. 반면, 사용자들의 제한된 시스템 이해도로 인해 모든 것을 사용자 분석에만 의지하기 어렵고, 시스템의 기능과 언어적 메타포어가 연관되어 있는 전문가적 속성도 지니고 있어서(Masui, 2006), 약간의 학습을 감수하고 전문가가 제시하는 제스처가 더 효율적일 수도 있다.

그러나, 기존 버튼방식, 터치 제스처 방식과 비교하여 항상 편하고 우위를 점하는 것은 아니다. 특히, 컨텍스트에 따라 제스처가 기본 동작으로 적합한 분야가 있는가 하면, 기존 인터페이스들의 보조적 역할이 더 적합한 분야도 발생 하고 있다. 여기에 학습이 필요한 제스처의 경우 반응이 가능한 명령어의 수와 인간이 기억하고 있어야 하는 작업기업용량 (memory span) 측면도 함께 고려해야 한다. 즉, 물리적 제스처의 메타포어 만으로 제스처 인터페이스를 정의하기 보다는, 제스처가 기존 공간적, 언어적 인터페이스들과 함께 사용되면서 다양한 채널의 디스플레이 모달리티를 공유할 수 있는 방안이 모색되어야 할 것이다 (Wickens, 1998).

1.2. 연구 목표 및 방법

본 연구에서는 제스처 UX 디자인에 있어 디자이너의 창의 프로세스를 지원하는 한편, 명확한 기술적 한계에 부합하는 현실적 문제해결 솔루션을 제안하는 복합적 디자인 프로세스의 실험을 목표로 하였다. 이를 위해, 모션 인식 시스템의 컴퓨팅 능력이 제한되어 있는 태블릿 PC상에서 이미지 변경 폭과 Z축, 방향만이 인식 가능한 모션 센서의 현실적 상황을 설정하였다. 그리고 이러한 상황에서 사용자에게 더 직관적인 제스처 UI로 태블릿을 컨트롤 할 수 있는 방법의 발굴과 디자인을 위해 상향 접근방식의 사용자의 선호기반 리서치와 하향 접근방식의 전문가 제안 제스처 모델링 기법을 혼합하여 적용하였다. 이미지 센서의 모션 인식 해상도는 XGA (1024 * 768) 급으로 설정하였고, 현재의 기술적 제약사항을 반영하여 미세한 손가락의 개수나 움직임 인식에는 제약이 있는 상황을 설정하였다. 이러한 시스템적 제한 상에서 XY 평면상에서의 움직임, Z축상에서의 움직임 모두 인식이 가능하지만, XY축 움직임과 Z축 움직임이 조합되어 의미 있는 명령어를 인식하는 부분은 오류문제로 제한하였다.

Fig. 1 Hypothesis of Airtouch Interaction Space

비시각적 인터랙션 디자인(Invisible Interaction Design)과 제스처, 사용자가 활용하는 입력 채널의 모달리티 융합(Modality Fusion)에 관한 디자인 솔루션을 제시하기 위해 본 연구에서는 이러한 해결안 중심 접근방법을 개방 솔루션 지향적 (Open Solution Oriented Design) 프로세스로 정의하고 문제를 해결하는 사례연구를 실시하였다. 아울러, 체계적 방법들이 지니고 있는 디자이너들의 창의력과의 총돌을 피하고, 논리적 창의성이 발현될 수 있도록 구조적 창의성 (Structured Creativity) 발상과정을 통한 기술지향적(Tech Push) 문제의 디자인적 해결 과정 모델을 제안하고자 하였다.

Fig. 2 Design Model for Technology Driven Problem Domain

2. 관련 연구 고찰

2.1. 제스처 디자인 프로세스

제스처 관련 상향식(bottom up) 접근방식은 탐험적 발견과정(Exploratory Phase)로 정의될 수 있다. 사용자들에게 특정 기능을 수행하라는 요구가 주어졌을 때, 사용자들이 자연스럽게 연상하는 제스처를 수행하는 탐험적 방식을 뜻하며, 스테레오타입 조사연구(Huhn, K., et al. 2011)로도 알려져 있다. 이러한 상향식 접근은 다양한 사용자들이 학습과정 없이 사용할 수 있는 직관적(Hyun, S., et al., 2007)이고, 자연스런 인터페이스 (Hummels, C., et al, 1998)제스처를 수집하는 데에 적합하다. 기술적 제약 등에 대해 지식이 없으므로 생각지 못했던 의외의 제스처가 발견되는 경우도 있다. 그러나 사용자들이 기존에 익숙한 지식의 범위 내에 국한된 결과들이 나오고, 제안되는 제스처가 사용될 컨텍스트가 명확히 정의되어 사용자들에게 제시되어야 한다는 한계가 있다. 또한, 중요한 요소 중 하나로, 사용자들이 제안하는 제스처가 시스템에서 오류없이 인식되기 어려운 노이즈를 많이 포함하고 있다는 점을 들 수 있다.

반면, 하향식 (top down) 접근방식은 시스템의 기능적 요소를 표현할 수 있는 메타포어를 기술적, 이론적 배경으로 도출, 이를 1:1로 기능과 매핑하여 제스처를 적용하는 모델링 기반 방식이다. 따라서 하나의 제스처가 하나의 기능에 명확하게 대응하는 기술적 완결성을 지닌다. 반면, 상대적으로 인위적인 제스처 디자인이 발생하므로, 사용자들의 학습이 요구되는 단점이 있다.

2.2. 제스처와 인터페이스 속성

인터페이스로서의 제스처는 접촉식 제스처와 비접촉식 제스처로 구분될 수 있다.

인간이 지각할 수 있는 정보의 디스플레이는 시각적-청각적 2개의 모달리티와 언어적-공간적 2개의 코드를 지닌다(Wickens, 1998). 인터페이스는 이러한 정보적 속성을 인간이 프로세싱 할 수 있는 언어적, 공간적 요소로 해석하는 접면을 뜻한다. 제스처는 인간의 메모리상에서 공간적 특성을 지니지만, 전달하는 메시지는 언어적 일 수도 있고, 공간적 일 수도 있다. 특정 제스처를 이용하여 특정 기능을 수행도록 한다면 제스처와 기능의 이름 (혹은 언어적 속성) 이 결합되는 언어적 요소로 기능한다. 이럴 경우, 제스처는 마치 시각적 인터페이스에서 버튼 위에 레이블을 기입하고, 그 단어를 묘사하는 것과 유사한 정보 처리 과정을 보인다. 이 경우 제스처는 청각 모달리티 - 언어 코드 (Auditory-Verbal) 조합의 정보와 매핑 된다. 반면 시스템 인터페이스 상의 특정 위치에 기능과 기능명이 적힌 버튼을 배치하고 그 버튼을 제스처로 건드렸을 때 시스템이 반응하게 할 수도 있다. 이 경우 제스처 자체는 위치와 속도, 거리에만 대응되는 공간적 속성을 지닌다. 여기에는 어떠한 언어적 의미도 포함되지 않는다. 이런 경우, 제스처는 시각 모달리티 - 공간 코드 (Visual-Spatial) 정보와 매핑되는 속성을 지닌다. 즉, 겉보기에는 같은 제스처라 할지라도, 시스템 인터페이스와의 조합에 따라 전혀 다른 사용법과 속성을 지니게 된다.

Fig. 3 Code and Channel for Information Display

2.3. 비접촉 제스처 인터페이스의 장단점

기존 터치 기반 제스처의 경우, 직접 조작이 가능하고, 가변성이 용이한 장점이 있는 반면, 사용자의 주의집중(Attention)이 계속 요구되어 블라인드 컨트롤이 불가능하고, 시선이동, 모달리티 고정, 손가락에 의한 정보영역 가림, 하부 내용의 확인이 어려운 단점이 있다. 이러한 시각편중에 의한 단점 극복을 위해, 다양한 인터랙션 모달리티를 동시에 지원하는 모달리티 융합 (modality fusion) 인터페이스 연구가 활발하다. 대표적인 예가 음성 인식이다. 다만, 인식률과 정확도에서 접촉식 터치 제스처가 더 우세하고, 실제 디바이스들의 94%가 제스처를 활용하고 있다 (Eps et al.). 이러한 측면에서 비접촉식 제스처는 그 속성상 기존 인터페이스들과 혼용되어 사용하기 좋은 인터랙션 방식의 가능성이 있다.

그러나 제스처 인터랙션이 지니고 있는 언어적 모호성의 한계가 존재하여, 그 적용 범위와 필요성에 대해서 검증이 필요하다. 특히, 스마트 디바이스에서 비접촉식 제스처를 메인 기능으로 사용하기에는 정확도 측면에서 여러 가지 문제가 따른다.

2.4. 객체지향 제스처 vs 명령어지향 제스처

제스처는 특정 객체를 호출하기 위해 사용될 수 도 있고, 단순 작업이나 선택을 수행하기 위해 사용될 수도 있다. 특정 단어나 객체, 단어에 매핑 되어 사용되는 제스처를 본 연구에서는 객체지향 제스처로, 수행이나 선택 등의 단위 태스크를 수행하는 제스처를 명령어지향 제스처로 구분한다.

단어나 명사에 대응되는 객체지향 제스처는 그 대상 요소가 방대하므로 실제 언어적 표현이나 수화 등에 사용된다. 반면, 명령어 지향 제스처는 상대적으로 적은 명령어로 조작이 가능하다. 대표적인 방식이 그라피티 방식으로써, Palm등 디바이스에서 미리 정의된 패턴 (Pre-defined Path)에 철자와 명령어를 매핑 하는 방법이다.

이러한 제스처들이 시스템에 적용되는 방법은 사용자 분석을 통해 직관적 제스처를 수집하고 필터링 해 나가는 상향식 과정에 의해 이루어진다. 따라서 전체적인 일관성이나 전문적 방향성보다는 컨텍스트별 효용성과 사용자의 일차적 선호도에 기반을 둔 결과들이 주로 도출된다. 이러한 과정은 하향식 방식에 의해 보완될 여지가 있다.

2.5. Work Domain Analysis

도메인별 태스크, 메인과 서브 적용방안을 양방향으로 체크하기 위한 방법 중 하나가 프레임웍을 통한 하향식 (Top down) 접근방식이다. 제스처 디자인 과정에서 하향식 접근방법에는 여러 가지 프로세스가 적용될 수 있는데, 본 연구에서는 시스템공학분야에서 널리 사용되는 WDA(Work Domain Analysis)를 채택하였다. WDA는 모든 시스템을 사용자가 추구하는 목표(goal)와 그 목표를 수행하는 수단(means)의 복합체로 정의하고, 컨텍스트 레벨에서부터 가장 하부의 물리요소, 그래픽 요소까지 하향식으로 정의해 나가는 프레임웍이다. 기술적 목표가 명확하고 개념상 명확치 않은 시스템 문제 해결에 유용한 기법이며, 따라서 제스처 인터페이스의 경우 적합한 기법이라 할 수 있다.

Fig. 4 Abstract Structure of Gesture with WDA Framework

이를 위해 WDA를 통한 하향식 프로세스를 1차로 진행하고, 도메인별 태스크-제스처 적합도 분석을 실행하였다. 실제로 존재하지 않는 제품에 대한 분석, 예측과 체계적 형성을 위한 발견적 기법 (Discovery centric approach)을 시도하였다.

3. Airtouch 제스처UX 프레임웍 제안

본 연구에서는 태블릿 PC의 XGA급 해상도에서 1개의 카메라로 제한된 Z축 인식이라는 기술적 한계를 감안한 시스템에서의 인지적 제스처 UX 제안을 위한 디자인 발상을 실시하였다. 일반적인 상향식 창조성 발상과정에 덧붙여, 동시에 하향식 프레임웍을 동시에 진행하면서 디자이너의 컨셉들이 기술적 방향성을 가지고 조정될 수 있는 반복적 프로세스 (Iterative Process)를 구축하고자 하였다.

Fig. 5 Hypothesis of Airtouch Interaction Space

3.1. Touch-Non Touch 기반 제스처 구분

하단 [Figure 6] 에서 보듯, 시스템 인터랙션에 활용되는 제스처들은 그 코드의 언어적 속성에 따라 지정된 언어를 표현하는 객체지향적(object oriented) 제스처와, 공간적 행동을 표현하는 지시 지향적(command oriented) 제스처로 구분하였다. 사용되는 도메인에 얼마나 특화 되었는가에 따라 범용적 인가, 혹은 어플리케이션 특화적 인가에 따른 도메인 독립적(domain independent) - 도메인 의존적(domain dependant)의 축을 또 하나 생성하였다. 마지막으로 학습이 필요 없이 기능적인가, 혹은 학습이 따르더라도 재미 요소를 지니는가에 따라 직관적(intuitive)- 흥미유발적(intrigue)의 효용적 속성으로 구분하였다.

Fig. 6 Semantic Classification of Gesture Usage

제스처의 의미적 구분에 따라, 본 연구에서는 직관적인 스테레오 타입 제스처와, 학습이 필요하지만 연상과정의 흥미유발 요소가 있는 제스처를 제안하고자 하였다. 예를 들어, 음악 프로그램의 음량 조절에 대한 제스처를 사용자 스테레오 타입으로 조사하였을 때 대부분의 사용자들은 상하, 혹은 좌우 방향으로 손을 움직이는 조작방식을 연상했다. 즉, 30명의 사용자 대부분이 기존 지식과 연관되는 제스처를 제안하였고 이 경우는 대단히 직관적이었다.

Fig. 7 Stereotypical Gestures vs. Learning Required Gestures

이후 다른 팀의 디자이너들이 자체 제안한 손가락을 맞붙여서 지퍼를 닫는 듯한 (Volume Kill) 제스처를 제안한 이후, 사용자들에게 알려주었다. 이 경우, 일정한 강도의 학습 과정을 거치게 되었으나 60%의 사용자들이 스테레오타입 제스처보다는 학습이 필요하지만 의미적 연상과정이 있는 제스처를 선호한다고 대답하였다. 이는 인터랙션 컨트롤에 있어서 단순히 기능과 제스처가 직관적으로 매핑된 결과물 이외에 보다 즐겁고 유희적인 동작이 반영될 경우 사용자들이 기꺼이 학습을 받아들인다는 가능성을 의미한다. 따라서 제스처에 다양한 메타포어와 공간적 코드-언어적 코드의 융합을 활용하여 제스처 컨셉을 발상하고 두 제스처 간 적절성을 비교하였다.

3.2. 제스처 인식 요소

시스템이 인식하는 제스처 정의를 위하여 제스처를 시각적 패턴과 공간적 모션으로 구분, 하기 그림과 같이 구분하였다. 패턴은 사용자 손의 외곽선과 점의 개수를 뜻하며, 손가락을 인식하는 해상도로 정의하였다. 모션은 시스템이 인식하는 움직임으로 시간, 방향, 깊이, 회전의 요소로 구분하였다. 모든 제스처는 이 조합으로 구성하도록 사용자들에게 요구하였다.

Fig. 8 Finger Pattern and Motion for Gesture UX

다음은 조합된 비 접촉식 제스처를 이용해 태블릿 기기에서 수행할 대표적 태스크들을 멀티미디어 어플리케이션 위주로 선정하였다. 디자인 스코프를 명확히 하기 위해, 태블릿 태스크 가운데 멀티미디어 도메인에 해당하는 태스크 5개를 추출했다.

Table 1
Gesture and Task Mapping for Tablet Control

번호	멀티미디어 태스크 타입
Task 1	취소/ Back
Task 2	볼륨 업 / 다운
Task 3	영화화면 끄기
Task 4	기기 간 파일 이동
Task 5	TV 모드 전환

3.3. 디스플레이 코드 기반 제스처 구분

제스처는 공간적인 행위를 통해 인터랙션을 전달하지만, 사용자가 시스템의 정보 디스플레이를 해석하고 수행하는 과정에서는 언어적 코드와 공간적 코드를 활용하는 과정으로 분류된다.

어플리케이션에서 현재 상태를 취소하고 뒤로 나가는 Back 태스크를 수행할 때, 인터페이스의 차이에 따라 해석하는 코드가 달라진다. [Figure 7] A안 디자인은 화면 상단에 취소/Back 버튼을 배치하여 손이 가까이 가면 터치가 가능한 아이콘이 있고, B안 디자인은 좌측방향으로 손을 미는 제스처 인터페이스가 있다. A안 사용자들은 인터페이스 코드를 언어적으로 해석하고, B안 사용자들은 인터페이스 코드를 공간적으로 해석한다. 제스처 인터랙션에 있어, 언어적, 공간적 코드를 사용하는데 따른 수행도와 선호도는 태스크에 따라 다르다.

Fig. 9 Gesture and Display Code

본 연구에서는 디자이너들은 두 팀으로 나누어 각 태스크에 대해 언어 제스처와 공간적 제스처 발상 과정을 하고, 태스크별 수행도를 비교하고자 하는 디자인 과정을 수행하였다.

Table 2
Verbal Coded Gesture and Spatial Coded Gesture

언어적 코드 방식은 화면의 아이콘의 위치에 손을 가져다 대는 방식을 위해 아이콘 위치와 색상, 작동방식에 초점을 두었다. 버튼들은 화면 스크린 상에 존재하므로 암기할 제스처는 적으나, 특정 위치에서 기능이 활성화된다는 제한이 있다.

공간적 제스처 방식은 특정 제스처가 지닌 동적인 메타포에 특정 기능을 매핑하는 방식을 취했으며, 여러 제스처에 기능을 숏컷 매핑 (short cut mapping)하는 방식이며, 위치에 상관없이 제스처 자체를 인식한다.

양쪽 코드 제스처 모두 시스템에서 인식할 때 사용자의 다양한 행위들 가운데 어느 순간부터가 의도를 지닌 제스처 명령인지 인식할 수 있는 명령어 시작점 (command initiator)는 호버링 시간과 손과 스크린 사이의 거리를 의미하는 Z축의 깊이로 고려하였다. 즉, 사용자들이 어느 정도 가까이 오거나 특정 위치에서 1초 정도의 정지상태를 유지하면 태스크의 의도를 보인 것으로 판명하였는데, 이는 조금 부자연스럽더라도 시스템이 오작동을 인식할 가능성을 최소화 하고자 하는 디자인적 제한사항이었다. 그룹 워크샵을 통해 도출된 태스크별 제스처는 [Table 2]와 같다. 언어코드적 제스처는 화면의 특정 공간에 일관성 있는 버튼들을 위치시켰다. 사용자가 제스처를 취할 때 마다, 해당 버튼들이 일시적으로 화면상에 디스플레이 되면서 사용자의 행동을 유도하도록 설계되었다. 따라서 사용자는 화면상의 버튼과 레이블로 제스처의 의미를 구분하며, 각 제스처의 의미를 암기할 필요는 없었다. 결과적으로 다른 태스크 들에서도 사용자가 수행하는 단위 제스처는 유사하거나 심지어 같은 경우도 존재하였다.

공간코드적 제스처는 해당되는 태스크에 연상되는 제스처를 모든 디자이너들이 제시한 제스처들의 경쟁을 통해, 가장 많은 지지와 인식을 받았던 결과 위주로 도출하였다. 제스처가 특정한 모양 (Path)을 지니고 있으며, 자체가 의미를 지니고 있다. 이에 따라 모든 태스크들 경우에서 중복되는 제스처는 발생하지 않도록 조정하였다. 그러나 사용자들은 화면상에 언어적으로 표시되는 정보가 없었으므로 제스처들을 암기하는 학습 과정이 필요하였다.

이 두 가지 코드의 제스처 UX 디자인에서는 모두 터치 기반의 일반 태블릿에서 해당 기능 수행에 사용하는 물리적 제스처와 아이콘을 활용하였다.

4. 수행도 및 선호도 검증 실험

4.1. 실험계획

총 30명의 고려대학교 디자인과 학생들이 제스처 디자인 발상 워크샵에 참여했다. 학생들은 2팀으로 나뉘어 한 팀은 공간적 코드 제스처들을, 다른 한 팀은 언어적 코드 제스처들을 제시하였다.

4.2. 실험 절차 및 진행방법

학생들의 기술적 이해도를 높이기 위해 제스처 기반 인터페이스의 기술적, 컨텍스트적 지식 공유를 하루 동안 진행하였다. 이후, 2인 1조로 극한의 상황을 설정하고, 각 조는 서로 흩어져서 제스처만으로 스토리를 전달하면 다른 조가 그 제스처가 의미하는 태스크를 분석하여 맞추는 게임방식을 수행하였다.

이를 통해 언어 코드에 특화된 제스처와 공간 코드에 특화된 제스처를 서로 비교하고, 아무런 사전 지식 없이 두 종류의 제스처를 보고 어떠한 태스크인지 유추하는 초기 직관성 테스트를 거쳤다. 초기 직관성 검증에는 제스처별로 태스크의 인식까지의 시간을 측정하였다.

이후, 2주일간의 시간을 두고 디자이너들을 다시 소집하였다. 이번에는 순서를 바꿔서 특정 태스크를 수행하도록 했을 때 어떠한 제스처를 취하는지 가장 즉각적으로 반응하여 수행하는 제스처를 살펴보는 비율인 반응율을 측정하였다. 반응율은 사용자들이 양쪽 제스처 모두를 숙지하고 있는 상황에서 각 태스크를 위해 가장 먼저 수행한 제스처를 세는 방식으로 이루어져서 선호도의 양상도 포함하였다.

4.3. 실험 결과 : 태스크-제스처 인식률

새로운 도메인에 관한 지식이 없는 상태에서 자신의 기존 지식을 활용하여 가장 보편적인 스테레오타입 제스처를 인식하는 실험을 수행하였다. 이 실험에서는 특정한 제스처들을 보고, 그 제스처가 어떠한 태스크를 수행하는 것인지를 추측하는 방식으로 진행하였다. 다수의 사용자들이 선택한 제스처가 가장 인식률이 좋은 제스처가 될 것으로 예상했다.

Fig. 10 Gesture Recognition Test Scene

따라서 제스처가 지닌 직관성과 태스크와의 부합성과의 관계를 “인식률” 로 정의하고 검증 과정을 수행하였다. 태스크-제스처 인식률은 태스크 완료시간을 통해 측정하였다. 제스처 디자이너는 각 태스크 별로 대응되어 제시된 제스처를 다른 디자이너들 앞에서 시연한다. 워크샵에 참석한 다른 디자이너들은 자신이 시스템의 역할을 하여, 그 제스처가 어떤 태스크를 수행하는 제스처인지 추측하여 맞추고 인식하기까지 걸린 시간의 통계치로 계산하였다. 이 실험에서는 비언어적인 행위를 언어적인 태스크로 추측하는 과정을 관찰한다. 따라서 인식률은 공간적 제스처를 언어적으로 해석하는 프로세싱에 걸린 시간을 의미한다. 디자이너들이 의견이 일치되지 않아 정답이 나오기까지 여러 다른 대답이 나온 경우는 실패로 측정하지 않고 오류시간으로 계산하여 인식률 시간에 포함시켰다. 이러한 제스처 인식의 평균값은 완료 시간 데이터에 대한 등분산검증 결과, F 통계량에 유의한 차이가 없었으므로, paired t-test를 통하여 검증을 실시하였다.

T-test 결과 언어코드 제스처와 공간코드 제스처 인식 시간에 유의한 차이가 존재하였다. 모든 태스크에서 언어코드를 사용한 제스처가 공간코드를 사용한 제스처보다 빠르게 인식되는 것으로 나타났다.

Table 3
Recognition Time for Gestures with Different Code

	Task1	Task2	Task3	Task4	Task5
언어코드 평균(s)	1.157	0.810	1.384	2.079	2.304
공간코드 평균(s)	1.628	0.871	2.198	3.085	2.779
p-value	0.001	0.000	0.002	0.001	0.000
인식시간차 (%)	40.7	7.5	58.8	48.4	20.6

태스크별로 차이가 있으나 평균 30%가량의 시간차이가 발생하였다. 태스크 3의 경우, 언어코드 제스처를 인식하는데 소요된 시간(1.384 s)과 공간코드 제스처를 인식하는데 소요된 시간(2.198 s)의 차이는 0.814 s로 58.8%의 차이가 난 반면, 태스크 2의 경우 언어코드 제스처(0.810 s) 와 공간코드 제스처(0.871 s)의 차이는 0.06s로 7.5%의 차이만 존재하였다. 인식 시간에 차이가 발생하는 것은, 인터페이스 상에 언어적으로 매핑된 시각적 단서 (Visual Cue)가 사용자로 하여금 제스처의 언어적 의미를 해석하는 프로세싱 과정을 줄여주기 때문으로 풀이된다. 따라서 인어코드 제스처가 공간코드 제스처보다 직관적으로 받아들여지는 것으로 파악되었다.

4.4. 실험 결과 : 태스크-제스처 반응율

인식률 검증 과정을 통해 양쪽코드의 제스처를 모두 숙지한 디자이너들은 2주일 후 보편적인 기억반감기가 지난 후에, 5개의 태스크를 무작위로 수행하도록 요구받았다. 이 때 자연스럽게 맨 처음 수행한 제스처를 측정하는 방식을 통해 가장 자연스런 제스처를 파악하는 반응율을 측정하였다. 반응율은 인식률과는 반대로 언어적으로 지시되는 태스크를 공간적으로 해석하는 과정을 측정하였다. 반응율의 차이가 발생하는 이유는 제스처를 직관적으로 이해하는 과정과는 반대로, 기억과 선호과정을 통해 가장 적합하게 인식된 제스처를 사용자들이 선택하는 프로세스가 수행하기 때문으로 풀이된다.

5개 태스크 모든 상황에서 공간코드 제스처를 우선적으로 수행한 사용자들이 언어코드 제스처를 수행한 사용자들보다 더 많았다. 태스크 2번의 경우는 타입별로 선호한 사용자들의 비율이 같았으나, 태스크 5번의 경우 공간코드 제스처를 수행한 사용자 수 (19명)가 언어코드 제스처를 수행한 사용자 수 (11명)보다 72%나 더 많았다. 이는 인식률 실험과는 거의 반대의 결과로, 사용자들이 언어코드 명령어를 제스처로 변경하여 수행 하는 경우 정보 해석 과정이 반대이므로 일어난 차이로 보인다.

Fig. 11 Response Rate for Gestures with Different Code

4.5. 실험 해석 및 한계점

본 실험에서는 몇 가지 한계점이 존재한다. 우선 실험에 참여한 학생들이 UI에 직간접적 경험이 있는 학생들을 대상으로 진행되었기에 일반 사용자들과의 선호도나 제스처 이해에 훈련도의 차이가 예상된다. 언어코드 제스처와 공간코드 제스처를 측정할 때에는 평가주체가 사용자 역할 디자이너인가 시스템 역할 디자이너인가에 대한 불일치 문제가 제기 되었다. 공간코드 제스처는 시스템 입장에서의 인식률 평가가 명확하나, 언어코드 제스처는 사용자 입장이 더 평가가 되어야 했기 때문이다. 본 실험에서는 실험에 사용된 시스템이 기계가 아닌 사람이라는 점을 활용하여 사용자-시스템 역할 모두 읽을 수 있는 정보를 스크린에 투사하는 방식으로 평가주체를 양쪽 실험 모두 균일하게 통일하였다. 비교적 짧은 시간에 여러 디자이너들의 제스처 기반 컨텍스트 이해 수준을 상향 조정하기 위해 초기 2인 1조의 시나리오 도출과정이나 상황 설정극을 통해 기술 가능성을 디자인 기회 요소로 이해하는 과정들이 간략히 언급하였다. 이 부분도 학생들에 따라 서로 다른 이해도가 존재하였고 제스처 결과물에도 어느 정도의 영향이 있었을 것으로 예상된다.

5. 결론 및 추후 연구과제

본 연구에서는 에어터치로 명명한 비접촉식 제스처 인터페이스가 지닌 속성 가운데 디스플레이의 코드 속성에 주목하고, 태블릿 어플리케이션에서 사용될 수 있는 적합한 제스처 디자인을 제시하는 프로세스를 수행하였다. 이를 위해 정보 디스플레이의 코드와 모달리티를 분석한 모델에 기반, 비접촉식 제스처가 입력수단 및 상호작용 수단으로 적용될 수 있는 프로세싱 차이를 구분하고, 그 속성에 따라 가장 적합한 제스처 디자인을 제안하고자 하였다.

사용자가 특정 태스크를 수행 할 때에는 화면상의 인터페이스를 해석하여 수행 전략을 수립하게 된다. 사용자가 해석하는 인터페이스 정보들은 시각적 모달리티와 공간적, 언어적 코드에 기인하여 공급된다. 따라서 언어적 코드와 시각적 모달리티를 활용한 정보를 제공하면 사용자들은 자연스러운 정보 해석과정을 거치면서 해석 단계에 발생하는 시간을 줄이고 자신이 다음에 행하게 되는 행위를 결정한다. 반면 수행하는 제스처는 공간적 코드를 지니므로 인터페이스를 논리적으로 해석하여 획득된 태스크의 언어적 내용에 연관되는 제스처를 찾는 과정에서 정보부담이 발생하여 더 많은 시간이 소요된다. 제스처의 공간적 속성을 통해 태스크를 수행하는 경우에는 인터페이스의 언어적 정보가 시스템에 존재하지 않고, 사용자가 특정 제스처를 기억해서 수행하게 된다. 따라서 해석단계에서는 언어적 지시사항을 처리해야 하는 과정이 생기면서 시간이 걸리게 된다. 반면, 수행단계에 들어서면 인식적, 직관적으로 기존에 이미 습득된 제스처를 수행하므로, 제스처를 찾는 과정은 단축될 수 있다.

실험 결과 언어적 코드를 활용한 제스처들은 30% 이상의 인식률을, 공간적 코드를 활용한 제스처들은 50% 이상의 반응율을 보이면서 각각의 장점이 있음을 입증할 수 있었다. 따라서 이러한 비접촉 제스처 시스템의 성격에 따라 제스처가 활용하는 코드가 달라져야 할 것으로 판단된다. 공공 시스템이나, 직관성이 더 강조되는 시스템, 혹은 단어나 목적어가 필수적으로 들어가는 객체 지향적 태스크에는 언어적 코드를 사용한 제스처가 적합한 것으로 보인다. 반면, 컨텍스트별로 태스크가 특화되거나, 동사 위주의 기능이 수행되는 명령어 지향적 태스크에서는 공간적 코드를 활용한 제스처 디자인이 제안되는 것이 바람직 할 것으로 보인다.

본 연구에서는 워크샵에서 실제로 도출된 약 60여개의 태스크 가운데 대표적 5개만을 추출하여 압축된 비교를 하였기 때문에 실제 제품에의 적용상을 위해 학습성 및 기억용량에 대한 의미 있는 고려가 필요하다. 공간 코드 제스처의 경우 유사 제스처의 중복이나 모호성 등의 문제가 발생할 수 있다. 여기에 명령어 혹은 기능이 증가에 따른 학습 부담과 학습 결과에 대한 편향도 예측된다. 각 태스크에 대해 표준화 될 수 있는 최적화된 제스처의 디자인과 코드에 대한 적용 사례 및 검증이 후속 연구로 진행될 예정이다. 아울러 본 연구에서 구체적으로 다루지 않은 디스플레이 모달리티, 기억성, 학습성 그리고 제스처 명령 방식의 주요 태스크화 혹은 보조 태스크화에 대한 보다 심도 있는 연구가 제시 되는 것이 바람직할 것이다.

References

1 . Bhuiyan, M., & Picking, R. (2011). A gesture controlled user interface for inclusive design and evaluative study of its usability. Journal of Software Engineering and Applications, 513-521. [https://doi.org/10.4236/jsea.2011.49059]
2 . Choi, J.H., & Jang, E.S. (2008). Development of Finger Gestures for Touchscreen based Web browser operation. Journal of the Ergonomics Society of Korea, 27, 109-117.
3 . Henze, N., & Boll, S. (2010). Designing a CD augmentation for mobile phones.Proceedings of the 28th of the international conference extended abstracts on Human factors in computing systems, 3979-3984. ACM. [https://doi.org/10.1145/1753846.1754089]
4 . Hummels, C., & Stapers, P. J. (1998). Meaningful Gestures for Human Computer Interaction: Beyond Hand Postures. In Automatic Face and Gesture Recognition, 1998. Proceedings. Third IEEE International Conference on, 591-596. [https://doi.org/10.1109/AFGR.1998.671012]
5 . Kim, D.H., & Kim, D.J.,(2006). An intelligent smart home control using body gestures. Hybrid Information Technology, 2006. ICHIT'06. International Conference on (2) 439-446. IEEE. [https://doi.org/10.1109/ICHIT.2006.253644]
6 . Kim, H. S., Hwang, S. W., & Moon, H. J. (2007). A study on vision based gesture recognition interface design for digital TV. Journal of Korean Society of Design Science, 20(3), 257-268 .
7 . Kim, H. (2012), 음성 및 비접촉 제스처 기반 차내 정보시스템 인터랙션 조작 종류에 따른 효과 [The Effects of Operation Types on Interacting withVoice and Non-Touch Gestures in In-vehicle Information Systems]. Journal of Korean Society of Design Science,, 25(2), 93-101.
8 . Kim, H., Kim, S. (2011). What are korean stereotypes on non-touch operation gestures?. International Conference on Advanced 3M, Seoul Technopark, Seoul, Korea.
9 . Kim, Y.J., & Lee, W.H. (2007). 모바일 정보기기의 소지이용성과 텍스트 가독성을 최적화하기 위한 형태적 특성[Morphological Characteristics Optimizing Pocketability and Text Readability for Mobile Information Devices], Journal of Korean Society of Design Science, 49(2), 323-332.
10 . Masui, T., Tsukada, K. & Siio, I. (2006). Mouse Field: A Simple and Versatile Input Device for Ubiquitous Computing. Proc. Ubicomp.
11 . McNeill,D.(1992). Hand and Mind: What Gestures Reveal about Thought. New Edition, University of Chicago Press. [https://doi.org/10.1515/9783110874259.351]
12 . Nielsen,J.(1993). Usability Engineering, Morgan Kauffmann. San Diego, California.
13 . Pirhonen,A., Brewster,S., & Holguin,C.(2002). Gesturaland audio metaphors as a means of control for mobile devices. CHI2002, 1(4), 291-298.
14 . Wickens, C. D., Gordon, S. E., & Liu, Y. (2004). An introduction to human factors engineering.
15 . Yoo, S.H, & Yoon W.C. (2006). Modeling users' task performance on the mobile device: PC convergence system, Interacting with Computers, 18(5), 1084-1100. [https://doi.org/10.1016/j.intcom.2006.01.003]