Archives of Design Research
[ Article ]
Archives of Design Research - Vol. 38, No. 2, pp.349-371
ISSN: 1226-8046 (Print) 2288-2987 (Online)
Print publication date 31 May 2025
Received 17 Jan 2025 Revised 13 Apr 2025 Accepted 17 Apr 2025
DOI: https://doi.org/10.15187/adr.2025.05.38.2.349

심층 인터뷰의 감정 어휘 분석 도구로서 생성형 AI의 가능성 탐색

Yuri Sim , 심유리
Department of Smart Experience Design, Professor, Kookmin University, Seoul, Korea 스마트경험디자인학과, 교수, 국민대학교, 서울, 대한민국
Exploring the Potential of Generative AI as a Tool for Emotional Vocabulary Analysis in In-Depth Interviews

Correspondence to: Yuri Sim yuri_sim@kookmin.ac.kr

초록

연구배경 본 연구는 고객의 숨겨진 니즈와 감정이 신제품과 서비스 발굴에 미치는 중요성을 인식하고, 생성형 AI를 활용하여 심층 인터뷰 데이터를 효과적으로 분석하기 위한 체계적 접근 방안을 마련하고자 하였다. 이를 통해 AI의 활용 가능성과 한계를 탐색하며, 심층 인터뷰 분석 도구로서 가능성을 제안하는 것을 목표로 하였다.

연구방법 이론적 고찰에서는 심층 인터뷰, 한국어 감정 어휘, 그리고 AI 텍스트 분석에 관한 국내외 선행 연구와 문헌 연구가 수행되었다. 실험은 본 실험과 추가 실험으로 진행되었고, 심층 인터뷰 진행, 데이터 추출, 분석 도구 선정, 데이터 분석, 결과 및 시사점 도출의 순서로 진행되었다. 특히, 데이터 분석에서는 감정 어휘의 유형별 빈도, 긍정·부정·중립의 분포, 그리고 감정 유발 요인을 추출하여 보다 심층적으로 결과를 살피고자 하였다.

연구결과 심층 인터뷰 시 감정 표현 어휘는 제 1유형이 평균 95% 정도로 높게 발화되었고, 제 2, 3유형은 약 5% 정도로 낮았다. 발화 데이터에서 생성형 AI는 단순한 제 1유형보다 복잡한 구조와 다양한 표현을 가진 제 2, 3유형의 감정 어휘 추출에 어려움을 보였고, 감정 어휘의 긍정·부정·중립 분포에서는 추가 실험을 통해 개선된 결과를 보여주며 평가자와 유사한 결과의 긍·부정 감정 어휘를 추출하였다. 추가 실험을 통해 향상된 결과에 따라 감정에 대한 유발 요인 또한 원활하게 제시할 수 있었다.

결론 생성형 AI는 감정 어휘 분석의 효율성 측면에서 강점을 보이며 고객의 문제적 상황을 효과적으로 파악하고 적절한 제품이나 서비스를 신속하게 제안할 수 있는 가능성을 보여주었다. 하지만 약점으로 나타난 긍정적 감정 어휘와 제 2, 3유형 감정 어휘의 낮은 추출률을 향상시키기 위해서는 시간이 상당히 소요되는 프롬프트의 과정이 추가될 수 있고, 평가자의 참여가 필요할 수 있다. 본 실험 결과를 바탕으로, 생성형 AI가 새로운 심층 인터뷰 감정 어휘 분석 도구로서 필수적 역할을 수행할 수 있기를 기대한다.

Abstract

Background The purpose of this study is to recognize the importance of understanding customers’ latent needs and emotions in the development of new products and services, and to establish a systematic approach for effectively analyzing in-depth interview data using artificial intelligence(AI) tools. The goal is to explore the potential and limitations of AI, while proposing its possibilities as a tool for in-depth interview analysis.

Methods The theoretical review involved a literature study based on domestic and international prior research on in-depth interviews, Korean emotional vocabulary, and AI text analysis. The experiments were conducted in two phases: the main experiment and additional experiments. The experimental process followed a sequence of conducting in-depth interviews, data extraction, selection of analysis tools, data analysis, and deriving results and implications. In particular, the data analysis aimed to examine emotional vocabulary by the frequency of different types of emotional vocabulary, the distribution of positive, negative, and neutral sentiments, and the extraction of emotional triggers for a more in-depth understanding of the results.

Results During in-depth interviews, the first type of emotional vocabulary was expressed at a high average of about 95%, while the second and third types were low at around 5%. The generative AI showed difficulties in extracting the more complex structures and diverse expressions of the second and third types of emotional vocabulary when compared to the simpler first type. However, the distribution of positive, negative, and neutral emotional vocabulary improved through the additional experiments, yielding results similar to those of the evaluators. Consequently, the identification of emotional triggers was also facilitated.

Conclusions Generative AI demonstrated strengths in efficiency in emotional vocabulary analysis, showing potential to effectively identify problematic customer situations and to suggest appropriate products or services. However, to improve the extraction rates of positive emotional vocabulary and the second and third types, a time-consuming prompting process may be required, along with partial participation from evaluators. Based on the results of this experiment, it is expected that generative AI will play an essential role as a new tool for emotion vocabulary analysis of in-depth interviews.

Keywords:

In-Depth Interviews, Generative AI, Emotional Vocabulary Analysis, Customer Needs, Insight Discovery

키워드:

심층 인터뷰, 생성형 AI, 감정 어휘 분석, 고객 니즈, 인사이트 발굴

1. 서론

1. 1. 연구의 배경 및 목적

고객의 숨겨진 니즈, 표현, 그리고 감정은 기업의 성공을 좌우하는 중요한 요소로, 고객의 목소리를 듣는 것이 혁신의 시작이라는 말처럼 소비자의 진정한 요구를 이해하는 것은 포화된 시장에서 경쟁력을 확보하는 핵심이 된다(Christensen, 2009). 고객의 숨겨진 니즈는 주로 퍼소나의 심층 인터뷰나 행동 관찰을 통해 발견할 수 있으며(Schaffhausen & Kowalewski, 2016), 디자인 사고(Design Thinking) 방법론에서도 이를 디자인 프로세스 초기 단계에 시작하는 통찰의 단계로 보고 있다(Brown, 2009). 질적 연구로서 심층 인터뷰 데이터는 매우 중요한 역할을 하고 있지만, 적은 데이터 양으로 다수를 대변하는데 한계가 존재하기도 하며, 더 많은 데이터를 얻기 위해 대량화하여 진행할 경우 과거의 분석 방법론으로 분석하기에는 시간과 자원의 한계가 존재한다(Deterding & Waters, 2021). 데이터 분석 방법의 대안으로 생성형 AI의 활용을 기대해 볼 수 있지만, 심층 인터뷰 결과에 대해 전문적인 분석을 수행하기 위한 프롬프트 현황 및 가이드라인에 대한 연구는 부족한 상황이다.

본 연구의 목적은 심층 인터뷰 감정 어휘 분석 도구로서 생성형 AI의 한계와 개선 방안을 탐색하여 활용 가능성을 제시하는 데 있다.

선행 연구를 살펴보면 이수빈과 정영욱(Lee & Jeong, 2024)의 경우, 린 스타트업에서 디자이너, 기획자들이 생성형 AI를 활용하여 심층 인터뷰를 어떻게 진행할지에 대해 초점을 맞추었으나, 계획과 협업으로 활용하는 부분이 주 대상이 되었으며, 고객 발화데이터 분석에 대한 AI의 프롬프트 가이드 라인이 구체적으로 제시되지 않았다. 데터딩과 워터스(Deterding & Waters, 2021)의 연구는 질적 데이터 분석(QDA: Qualitative Data Analysis) 기술을 통해 과거의 분석 방법론에서 벗어나 21세기의 진보된 버전을 제시하면서 대규모 인터뷰 데이터를 보다 투명하고 유연하게 분석하는 방법론을 제안하였지만, 데이터 프로그래밍으로 시간 지연, 숨겨진 패턴 탐지 처리 능력, 주관적 편견으로 일관된 결과를 도출이 어려운 점 등의 한계를 제시하였다. 정은희와 최정민(Chung & Choi, 2022)은 AI 디자인 지원 툴 사례 제품, 그래픽, 웹/앱, 패션 등 다양한 분야에서 디자인 프로세스에 기반하여 AI가 디자인 프로세스 내에서 어떤 도구로 활용되는지를 제시하고 있지만, 기획이나 문제점 도출 부분에서 심층인터뷰 도구로서 AI의 역할에 대해 제시된 부분이 부재한 상황이다. 고객의 숨겨진 니즈를 도출하여 인사이트로 활용하기 위한 연구들은 행동 관찰 데이터를 분석하거나(Shin & Yoo, 2017), 분석 기법이 비디오 관찰법(Yoon, Lee, Kwon, Kim, & Kim, 2001)과 같이 분석 데이터 속성과 기법이 다른 경우들이었고, 본 연구와 같이 심층 인터뷰 발화 속 어휘의 코드화 및 AI 분석 실험을 진행한 연구는 존재하지 않았다.

결론적으로, 본 연구는 선행 연구들과 비교할 때 심층 인터뷰 감정 어휘 분석이라는 구체적인 연구 대상, 비교 실험을 통한 생성형 AI 역할에 대한 심층적인 탐색, 한국어 분석 결과 향상을 통해 국내 제품 및 서비스 개발에 실질적 기여의 가능성을 지닌다. 이러한 연구의 차별점은 심층 인터뷰 데이터의 분석의 도구로서 새로운 시각을 제공할 것으로 기대된다.

1. 2. 연구의 범위 및 방법

연구 범위는 심층 인터뷰 단계로 고객의 현재 상황에 대한 페인포인트(Pain Point)와 니즈 파악을 통해 인사이트를 도출하는 지점으로 정하였다. IDEO의 디자인 사고 프로세스, 영국 디자인 카운슬의 더블 다이아몬드 프로세스, 린 스타트업 프로세스 등 제품 및 서비스 디자인 프로세스의 시작점에서 고객의 문제점과 니즈를 파악하는 활동 중 하나로 심층 인터뷰(In-Depth Interview)가 위치한다. 세부적으로 Figure 1과 같은 심층 인터뷰 과정을 거치게 되는데, 생성형 AI 실험 분석은 후반부인 ‘인터뷰 결과 데이터 분석’과 ‘인사이트 추출’ 부분으로 한정하였다. 해당 부분을 전문성을 요하고 시간이 오래 걸리며, 기회요소를 추출하는 매우 중요한 과정으로 보았을 때, 생성형 AI의 활용으로 프로세스화된다면 더 빠른 기회 요인과 해결책을 내놓을 수 있어 해당 단계부터 연구를 진행하는 것이 타당하다고 보았다.

Figure 1

Analysis Points in the In-Depth Interview Process

연구 방법은 이론적 고찰, 실험, 데이터 분석으로 구성된다. 이론적 고찰은 심층 인터뷰, 한국어 감정 어휘, 그리고 AI 텍스트 분석에 관한 내용을 포함한다. 실험은 Figure 2의 모형과 같이 본 실험과 추가 실험으로 진행되었고, 이에 대한 분석 결과와 시사점 도출로 마무리 되었다.

Figure 2

Experimental Model


2. 이론적 고찰

2. 1. 심층 인터뷰의 중요성 및 감정 포인트 발견의 의의

심층 인터뷰는 연구자가 인터뷰이의 경험, 생각, 감정, 동기 등을 깊이 탐구하는 질적 연구 방법으로, 반구조화 또는 비구조화된 질문을 통해 인터뷰이가 자신의 이야기를 자유롭게 표현할 수 있도록 돕는 대화 중심의 접근 방식이다(Boyce & Neale, 2006). 샤프하우젠과 코왈레프스키(Schaffhausen & Kowalewski, 2016)는 디자인과 비즈니스 분야에서 심층 인터뷰는 충족되지 않는 필요를 포착하는 과정으로 중요한 역할을 하고, 응답자의 경험에 대한 깊은 통찰을 제공하여 숨겨진 의미와 동기를 이끌어낼 수 있으며, 이러한 통찰은 혁신적인 아이디어 창출에 기여하여 사용자 경험에 대한 직접적인 이해를 통해 디자인 프로세스의 초기 핵심 단계로 자리 잡는다고 하였다. 또한, 비즈니스 전략 수립에서도 고객의 요구와 시장 변화를 정확히 이해하는 데 도움을 주며, 1:1 또는 소수의 심층 인터뷰는 고객이 명확히 인지하지 못한 요구를 발견하여 경쟁 우위를 확보하는 데 중요한 역할을 한다고 하면서 니즈 탐색(Needfinding)이라는 개념을 제시하였다.

심층 인터뷰에서 도출되는 인사이트는 언어적 표현뿐만 아니라 얼굴 표정과 행동을 포함한 다양한 표현을 통해 나타내지만 본 연구는 감정을 표현하는 언어에 초점을 맞추었다. 부정적 감정 어휘는 고객이 느끼는 문제점이나 불만을 표출하는 데서 나타나고 이는 욕구, 해결책에 대한 인사이트를 제공하게 되며, 긍정적 감정 어휘는 긍정 심리학(Positive Psychology)의 ‘주관적 안녕(Subjective Well-being)’의 정서적 요소 개념(Diener, 1984; Diener, 1994)과 관련되며 긍정 정서가 강할 경우 삶의 만족도가 더 높아진다(Kwon, 2010)는 개념과 같이 고객의 만족, 행복 추구, 긍정적 가치관을 제시할 수 있는 디자인 인사이트를 발견할 수 있다. 이와 같이 고객의 문제점, 불편함, 니즈, 만족 등의 지점을 발견하여 새로운 서비스나 상품의 기회를 탐색하는 데 감정 어휘의 분석적 탐색은 중요한 역할을 할 수 있다.

2. 2. 감정의 개념과 언어적 표현 방식

이숙진(Lee, 2018)은 국립국어원의 표준국어대사전(2017)을 참고하여 ‘감정이란 어떤 현상이나 일에 대하여 일어나는 마음이나 느끼는 유쾌함이나 불쾌함 등의 기분’이라 하였으며, 이영희와 정재욱(Lee & Jeong, 2004)은 감정을 외부적 자극에 대한 인간 내면의 작용으로, 사회적 영향을 받아 표현되는 자신을 표현하는 방법으로 보았다. 최석재, 정연주, 정경미와 홍종선(Choi, Jeong, Jeong & Hong, 2011)은 감정의 중요성을 강조하며, 인간의 행동을 이해하기 위해 감정의 영역을 고려해야 하지만, 그 추상적인 성격으로 인해 잘 파악되지 않는다고 지적한다. 그러나 감정은 관찰 가능한 형태로 드러나며, 에크만(Ekman, 2003)이 말한바와 같이 얼굴 표정, 생리적 변화, 언어 등을 통해서도 표현될 수 있다. 그 중에서도 언어는 자신의 생각을 가장 적극적으로 표현하는 수단으로 여겨진다. 인지언어학 분야에서도 감정을 표출하는 다양한 방식에 대한 연구가 진행되고 있으며(Choi, Jeong, Jeong & Hong, 2011), 이는 의미론적 연구 및 한국어 교육을 위한 연구 등으로 구분되고 있다(Lee, 2009).

2. 3. 감정 어휘 유형과 분류

감정을 표현하는 어휘는 품사에 따라 형용사, 동사, 명사, 부사로 나눌 수 있는데(Lee, 2018) 이는 단일 형식으로도 사용되고, 단일 형식끼리 결합하여 복합 형식으로 사용되기도 한다(Lee, 2009). 한국어의 감정 표현 어휘는 제 1, 2, 3유형으로 구분되며 결합 양상과 특징은 Table 1과 같이 정리된다(Lee, 2009; Lee, 2018; Lim, 1998). 제 1유형은 형용사, 동사, 명사, 부사와 같이 단일 형식으로 이루어진 감정 표현 유형이고, 제 2유형은 감정 명사에 형용사나 동사가 결합하여 문장 전체가 감정을 표현하는 것이다. 제 3유형은 신체나 색깔과 관련된 감정 표현으로 Table 1과 같은 용례로 표현되고 있으며, 이와 같이 한국어 표현은 여러 유형으로 구분되며 감정을 섬세하고 풍부하게 표현하고 있음을 알 수 있다.

Types and Combinations of Korean Emotional Expressions

한국어의 감정 표현 어휘는 Table 1과 같이 유형에 따라서 ‘얼굴이 붉게 변하다’(=부끄럽다)와 같이 생성형 AI가 감정 어휘로 인식하기 어려운 유형이 존재하기 때문에 유형별 탐색 과정과 결과는 연구에 중요한 부분이 될 수 있다.

또한 감정 어휘는 뜻이 가진 의미에 따라서 긍정 혹은 부정적 어휘로 구분되어 나뉠 수 있다. 세부적으로 감정 어휘는 긍정적 감정 어휘와 부정적 감정 어휘, 중립적 감정(기타) 어휘로 분류되며 실제로 부정적 어휘가 감정 어휘 중 가장 높은 비율을 차지하고 있다. 한국어능력시험 분석을 통해 이숙진(Lee, 2018)이 정리한 총 127개의 감정 형용사 중 실제로 부정적 감정의 형용사는 62%, 긍정적 35%, 기타 3% 등의 구성 결과를 보여주었고, 문금현(Moon, 2012)의 연구 결과에서도 부정적 56%, 긍정적 44%로 부정적 표현이 더 많은 비율을 차지함을 보였다.

2. 4. 생성형 AI의 언어 분석 체계

감정 어휘를 추출할 수 있는 생성형 AI는 주어진 입력 데이터를 바탕으로 새로운 텍스트, 이미지, 또는 음성을 생성하는 인공지능 기술로, 특히 언어 모델에서는 사람이 작성한 것과 유사한 텍스트를 자동으로 생성하는 데 사용된다(Yang & Yoon, 2023). 이러한 모델들은 주로 대규모 언어 데이터를 바탕으로 훈련되며, 다양한 문맥에서 문장을 생성할 수 있다. GPT 시리즈나 BERT와 같은 LLM 모델은 많은 양의 데이터를 바탕으로 패턴을 학습하고, 이를 통해 새로운 문장을 예측하거나 생성하는 방식으로 작동한다. 생성형 AI가 언어를 이해하고 학습하는 체계는 주로 딥러닝과 자연어 처리(NLP) 기술을 기반으로 한다. AI 모델은 대규모 데이터에서 패턴을 학습하며, 주어진 텍스트를 입력받으면 그 문맥과 패턴을 바탕으로 다음 단어를 예측하거나, 텍스트의 의미를 분석한다(Cho, 2023).

이러한 학습 과정에서 중요한 것은 ‘임베딩(Embedding)’이다. 언어를 신호 공간에 매핑하는 ‘단어 임베딩(Word Embedding)’은 자연어 처리의 가장 기초적인 단계이며, Figure 3과 같이 단어를 벡터화하여 수치로 표현함으로써 AI가 단어 간의 관계를 학습할 수 있게 한다. AI는 이런 방식으로 언어를 처리하며, 이를 통해 문장 생성, 번역, 요약 등의 다양한 작업을 수행한다(Gang & Yang, 2019).

Figure 3

Embedding ProcessSource: https://www.syncly.kr/blog/what-is-embedding-and-how-to-use

강형석과 양장훈(Gang & Yang, 2018)에 따르면 생성형 AI가 다루는 영어와 한글은 입출력에 있어서 차이를 갖는다. 영어는 주로 알파벳을 기반으로 한 고정된 글자 구조와 어순에 따라 분석되는 반면, 한글은 음절 단위로 분석되어야 하며, 조사와 어미 변화를 통해 문장 내의 역할이 결정된다. 따라서 한국어 말뭉치의 경우는 영어의 경우에서처럼 띄어쓰기 단위로 토큰화(Tokenization)하는 것보다 형태소(Morpheme) 단위로 토큰화하는 것이 바람직하다고 하였다. 한국어 단어 임베딩 모델을 평가하고자 하는 대부분의 경우, 영어 단어 임베딩 모델에 적용되는 성능 검증 방식을 국어에 맞도록 주로 번역을 통해 변형해서 사용해 왔지만 한국어와 영어의 문법적 차이가 크기 때문에, 이런 변형에는 당연히 한계가 존재한다고 하였다. 이는 생성형 AI가 한글을 분석하고 생성할 때 더 복잡한 문법 규칙을 최적화하여 학습해야 함을 의미한다. 또한, 영어는 단어의 순서가 문법적으로 중요하지만, 한글은 단어 순서가 비교적 자유롭고 조사가 중요한 역할을 하기 때문에 생성형 AI가 문맥을 파악하는 방식에도 차이가 존재한다. 이를 잘 파악한다면 생성형 AI 사용이 기존의 감정 분석 AI보다 문맥을 더 잘 이해할 수 있기 때문에 보다 정교한 언어 분석을 할 수 있다.


3. 실험과 분석

심층 인터뷰를 진행함에 따라 인터뷰 발화 데이터를 생성하고 감정 어휘 분석을 진행하기 위해 다음 3.1과 같이 실험을 설계하였으며, 본 실험과 추가 실험으로 연구가 진행되었다.

3. 1. 본 실험 설계

3. 1. 1. 실험 대상자

실험 대상자는 Table 2와 같이 40~50대 기혼 여성 10명이다. 이들은 노화 및 갱년기와 같은 신체적 변화, 자녀의 성장 및 출가, 경제적 환경 변화 등 인생의 과도기적 상황에 처해 있다. 이로 인해 감정의 기복이 크고 주변의 다양한 기회를 통해 더 나은 삶을 바라고 있다. 따라서 이들은 문제 해결에 대한 니즈가 크며, 심층 인터뷰를 통해 비즈니스, 서비스 및 상품 디자인 기회 요소를 발견하기에 적합한 기준을 가진 대상자들이다.

Interview Participant Information

3. 1. 2. 진행 및 방식

심층 인터뷰는 온라인 인터뷰 방식인 줌(zoom) 프로그램을 사용하여 한 명당 50분 정도의 시간 동안 반구조화된 질문 방식으로 진행되었다. 해당 인터뷰의 대화 내용은 모두 녹취되었으며, 이에 동의하는 서명과 함께 연구의 목적으로 사용됨을 알리고 개인정보 보호에 대한 연구윤리를 준수하고자 하였다.

3. 1. 3. 인터뷰 질문

인터뷰 질문은 비즈니스나 서비스 및 제품의 새로운 기회를 포착하기 위한 목적을 갖는다. 따라서 40~50대 여성의 현재 생활의 상황과 어려운 점을 파악하고자 건강, 가족관계, 일상생활 등을 파악하기 위한 질문으로 구성되었다. 추가적으로 가치관, 삶에 대한 태도, 주변 환경과 자아에 대한 관계, 자주 사용하는 서비스 및 제품 등에 대하여 질문하였다. 인터뷰는 반구조화된 질문과 추가 질문에 대해서 50분의 시간을 동일하게 맞추어 조절하며 진행되었다.

3. 1. 4. 데이터 생성 도구 1 (텍스트 변환 AI)

50분간의 인터뷰 내용을 국내 AI 음성 기록 관리 서비스인 네이버의 클로바노트를 활용하여 텍스트 파일로 생성하였다. 이후 녹취를 다시 들으며 잘못 표기된 단어를 수정하여 최종적으로 10개의 텍스트 데이터를 생성하였다.

3. 1. 5. 데이터 생성 도구 2 (생성형 AI)

데이터 생성 도구는 글로벌 기업과 국내 기업에서 사용하는 언어 데이터의 차이에 따라 어떤 AI 프로그램을 선택하느냐에 따라 결과에 큰 영향을 미친다. 예비 선정 과정에서 사용한 생성형 AI 프로그램은 Chat GPT, 뤼튼, Perplexity, 클로바 X로, 이들은 자연어 처리 기반의 대화형 에이전트로 코딩 없이 사용할 수 있다. Perplexity는 한국어 대화에서 부족함을 보였고, 클로바 X는 한국어 이해는 높지만 연구 분석 사용에 적합하지 않은 특징이 발견되었다. 결과적으로 Chat GPT와 뤼튼이 예비 후보로 선정되었으며 각 도구의 특장점은 Table 3과 같다.

Comparison Table of Characteristics of Final Candidates for Generative AI Programs

두 프로그램을 비교하기 위해 Table 4와 같이 인터뷰이 A의 데이터를 동일하게 입력하고 결과 값 차이를 살펴보았으며, 생성형 AI의 특성상 답변의 일관성이 낮을 수 있기 때문에 같은 질문에 대해 5회 반복하여 생성형 AI 답변의 일관성과 변동성을 파악하였다.

Comparison of Extraction Results from Generative AI Programs(Total of 5 Prompts)

결과 총 어휘 추출 개수는 Chat GPT가 더 많았으나, 실제 추출 정확도는 뤼튼이 더 높았다. Chat GPT는 어휘 자체를 잘못 선별하는 오류가 빈번했으며, 뤼튼은 어휘 선별은 잘했으나 품사 유형을 잘못 추출하는 경향이 있었다. 하지만 전체적으로 뤼튼의 추출 정확도가 더 높았고, 품사 선별이 인터뷰 결과 인사이트 도출에 크게 영향을 미치지 않는다고 판단되어 이 점을 반영하였다. 그리고 5회 반복 수행 시 편차는 Chat GPT가 0.49, 뤼튼이 1.72로, 뤼튼의 변동 폭이 컸다. 그러나 뤼튼은 초기 추출한 어휘 수가 2배 이상 많아, 원본 데이터를 재검토할 때 초기 추출 가능성이 더 높았다. 반면, Chat GPT는 일관성이 높아 변동이 적었으나 초기부터 뤼튼의 50% 정도 어휘만 검출해 감정 어휘 탐지에 취약함이 드러났다. 결과적으로 뤼튼이 다양한 프롬프트를 적용할 경우 어휘 검출 정확도가 더 높고, 어휘를 더 많이 찾아낼 가능성이 확인되어 최종적으로 본 연구의 생성형 AI 실험 도구로 선정하였다.

3. 1. 6. 프롬프트 설계

프롬프트 정교화를 위해 1차 테스트를 진행하였으며, 테스트는 ICL(In-Context Learning)의 방법 중 하나인 FSL(Few Shot Learning)을 적용하였다. FSL은 데이터 셋이 작은 경우 제한을 받는 경우 지식과 사전 정보가 포함된 몇 개의 샘플만으로 AI의 결과를 향상시키고 작업 결과를 빠르게 일반화할 수 있는 방법으로, 왕 외(Wang et al., 2020)는 FSL의 세 가지 관점의 분류를 제시하였다. 이전 지식과 샘플의 활용 대상이 데이터, 모델, 알고리즘 차원에 따라 분류될 수 있으며, 데이터의 경험을 보강하는 차원, 가설 공간의 크기를 줄이는 모델 차원의 접근, 주어진 가설 공간에서 최상의 가설을 찾는 방식을 변경하는 알고리즘 차원의 접근이다. 본 연구는 모델과 알고리즘의 개발에 초점이 맞추어진 연구가 아니므로, 데이터 차원의 샘플을 제공하는 방식을 채택하였다. 프롬프트 테스트 실행 순서는 다음과 Figure 4와 같다.

Figure 4

Design for Prompt Development

각 프롬프트 작성 글은 다음 Table 5와 같이 기본 설명, 결과 형태, 샘플 제공 유무 세 가지 차원으로 구성되며, 작성 예시는 이해를 돕기 위해 대표로 샘플 제공이 없는 1-1과 샘플 제공이 있는 1-2를 기재하였다.

Prompt Writing Structure and Text

실제 테스트는 Figure 4와 같이 1-1, 1-2, 1-3, 1-4, 1-5 모두 실행되었다. 프롬프트 1차 설계에서 발견된 문제점으로 제 2, 3유형 감정 어휘가 누락되는 경우가 대부분이었고, 이를 보완하기 위해 가장 많은 추출이 발생한 1-2 형태를 1차 인풋으로 제공한 후, 답변이 도출되면 추가 질문으로 제 2, 3유형의 탐색을 요청하는 문장을 Table 6과 같이 기재하였다. 해당 과정은 제 1, 2, 3유형을 한 번에 요청할 때보다 추출 결과가 향상되었기 때문에 채택되었다. 추가 질문으로 제 2, 3유형의 탐색을 요청할 때 두 분류로 나누어 샘플 테스트한 결과 제 2, 3유형의 경우는 샘플을 제공하지 않는 경우에 해당 감정 어휘 추출률이 더 높았다. 그 이유는 제 2, 3유형의 경우 어휘의 구성이 a+b 혹은 a+b+c 등의 문법적 규칙을 갖는데 AI는 같은 규칙이 적용된 데이터만 집중하여 추출하는 경향을 보였으며, 실제 발화 데이터가 샘플과 정확하게 일치하지 않는 경우를 제외시키고 있었기 때문이다. 이와 같이 실제 발화 데이터와 샘플 표현의 높은 일치는 낮은 확률로 나타나기 때문에 제 2, 3유형은 샘플 제공이 없는 경우가 더 추출률이 높은 것으로 나타났다. 따라서 이를 반영하여 다음 Figure 5와 같이 최종 프롬프트를 진행하였다.

Final Prompt Writing Structure and Text

Figure 5

Final Prompt

Figure 5에 대한 최종 프롬프트 작성 글은 다음 Table 6과 같다.

3. 2. 데이터 분석

3. 2. 1. 데이터 추출 및 코드화 과정

데이터 추출은 생성형 AI 프로그램과 평가자가 나누어 참여하였는데, 평가자의 경우 분석 결과의 일관성과 신뢰성을 확보하기 위해 디자인학 박사 학위 소지자 두 명이 선정되었다. 평가자들은 고객 니즈와 인터뷰 관련 강의 경력 5년 이상, 소비자 조사 및 심층 인터뷰 경력 5년 이상의 전문가들이다. 평가자들은 한국어 감정 어휘 전문 서적, 선행 연구에서 언급한 논문과 자료 등을 참고하여 감정 어휘를 추출하였고, 상호 검토를 거쳐 공동으로 데이터 추출 과정을 진행하였다.

데이터 추출 이후 Table 7과 같이 텍스트 전처리 과정을 통해 분석 기반을 다진 후, 참여자 A부터 순차적으로 넘버링하여 감정 어휘를 코드화하고 분류하였으며, 같은 어휘라도 해당 감정을 유발한 원인이 다를 수 있으므로 개별 코드의 넘버링은 중복 없이 순차적으로 진행하였다. 추가적으로 전체 인터뷰 내용을 살피면서 문맥적으로 감정의 긍부정 상태를 파악하여 재정의하는 과정을 포함하였으며, 감정 유발 원인도 함께 추출하였다. 본 과정에서 생성형 AI의 경우는 Table 7의 3번, 4번, 7번, 8번을 뤼튼에 요청하여 분석이 진행되었고, 나머지 부분은 평가자가 동일하게 진행하였다.

Data Coding Procedure

3. 2. 2. 분석 항목 기준

추출된 데이터를 분석하고 평가하는 기준은 연구 결과에 중요한 영향을 미치므로, Table 8과 같이 분석 항목과 내용을 정의하였으며, 파악하는 의의에 대하여 다음과 같이 정의하였다.

Analysis Items and Content

첫 번째, 감정 어휘 유형별 빈도 분석은 한국어 감정 표현에서 분류되는 디테일한 구분을 생성형 AI가 할 수 있는지 학문적 이론을 바탕으로 구체적으로 평가하는 데 의의가 있다. 두 번째, 감정 어휘의 긍정, 부정, 중립 분류 및 비율 분석은 감정 어휘의 상태에 따른 생성형 AI의 감정 인식 정확성과 추출률을 검증하는 데 중요한 역할을 한다. 이를 통해 고객의 문제점뿐만 아니라 긍정적 경험이 소비와 사용으로 이어지는 기회를 생성형 AI가 얼마나 효과적으로 도출할 수 있는지를 평가할 수 있다. 세 번째, 감정 어휘를 통해 드러난 감정의 유발 요인을 추출하는 것은 생성형 AI가 문맥적 유추를 통해 감정 원인을 정리할 수 있는지를 평가하는 데 필수적이다. 이는 실제 문제와 니즈를 정확히 파악하는 능력을 검증하고, 이 도구가 디자인 기회를 찾는 데 활용될 수 있는지를 판단하는 데 중요한 기준이 된다. 종합적으로, 이 세 가지 분석 항목은 생성형 AI의 감정 인식 능력을 종합적으로 평가하고, 향후 개선 방향을 제시하는 데 중요한 역할을 할 수 있다.


4. 실험 결과 및 시사점

4. 1. 본 실험 데이터 분석 결과

4. 1. 1. 프로토콜 분석 결과

심층 인터뷰 참여자는 10명이었으나, 발화 데이터 분석 결과 참여자 J의 경우, 감정 어휘가 거의 발견되지 않아 제외하고 총 9명의 데이터 분석을 실시하였다. Table 9와 같이 1명의 인터뷰 데이터 평균 분석 소요 시간의 경우 생성형 AI는 준비된 프롬프트 입력 후 데이터 삽입까지 참여자 샘플 한 개당 걸리는 시간이 1분 내외로 총 9분 정도 걸렸지만, 평가자는 참여자 샘플 한 개를 읽고, 추출하고, 분석하는 데 평균 50분정도 소요되었기에 총 450분의 시간이 소요되어 45배 정도의 시간 차이를 보였다. 생성형 AI와 평가자가 추출한 인터뷰 내 언급된 감정 어휘의 일부는 Table 9에 기재하였다. 유형별로 구분한 총 데이터 결과는 Table 9와 같으며, 평가자는 총 208개, 생성형 AI는 총 51개의 감정 어휘를 추출하여 AI는 평가자 추출양의 25% 정도만을 찾아내어 양적 차이를 보였다.

Results Table of Emotion Vocabulary Extraction

프로토콜 데이터 분석에 대한 코드 결과는 참여자별(좌우) 언급된 순서대로(상하) 정렬되었으며, 코드 표기는 Table 7의 원칙대로 정리하였다. 생성형 AI의 결과는 Figure 6, 평가자의 결과는 Figure 7과 같다.

Figure 6

Protocol Analysis Results (Generative AI)

Figure 7

Protocol Analysis Results (Evaluator)

4. 1. 2. 감정 어휘 유형별 빈도

유형별 비교 분석 결과, Figure 8과 같이 생성형 AI와 평가자 모두 제 1유형의 감정 어휘가 가장 높은 빈도를 나타내었다. 생성형 AI는 총 51개의 감정 어휘 중 51개인 100%의 비율로 제 1유형을 추출하였고, 제 2유형과 제 3유형은 0개로 0%를 추출하였다. 반면, 평가자의 경우 총 208개의 감정 어휘를 추출하였고, 제 1유형 195개 94%, 제 2유형 11개 5%, 제 3유형 2개 1%를 추출하였다. AI가 추출하지 못한 유형의 예시로 제 2유형은 ‘마음이 따뜻하다’, ‘마음이 뭉클한’, ‘안심이 되다’, ‘신뢰가 가다’와 같았으며, 제 3유형은 ‘심장이 뛰고’, ‘심장이 두근거리는’과 같은 표현들이 있었다. 생성형 AI는 두 어휘의 복합적 표현의 경우, 각 단어 자체에서 감정 관련 어휘가 나타나지 않을 경우에는 두 단어의 합이 감정을 나타내는 경우라 하더라도 실제로 추출하지 못하는 경우를 보였다. 하지만 평가자는 감정 어휘의 문법적 규칙과 적용 사례를 이해하고 변형된 표현까지 모두 추출하였다.

Figure 8

Graph of Extraction Results for Frequency of Emotion Vocabulary by Type

Figure 9는 생성형 AI와 평가자가 추출한 참가자별 결과의 그래프로 참가자별로 나타난 총 감정 어휘 수는 약 4배정도 차이가 났지만 개인별 감정 어휘 언급 시 유형별 비율에 대한 관계는 특이점이 나타나지 않았다.

Figure 9

Frequency Extraction Results of Emotion Vocabulary by Participant (Left: Generative AI / Right: Evaluator)

4. 1. 3. 감정 어휘의 긍정·부정·중립 상태의 분포

생성형 AI와 평가자가 추출한 감정 어휘의 긍정·부정·중립 분포를 분석한 결과, Figure 10과 같이 생성형 AI가 추출한 어휘는 긍정 25%(13개), 부정 75%(38개)의 분포를 나타내었다. 반면, 평가자가 추출한 어휘는 긍정 36%(75개), 부정 62%(129개), 중립 2%(4개)로 평가자가 총 어휘에 대해 더 고른 분포로 긍정·부정·중립 상태를 추출하였다. 생성형 AI는 참여자 A의 발화에서 ‘좋은’, ‘즐거운’, ‘재미난’과 같은 긍정 어휘를 잘 추출한 반면, 참여자 B의 데이터에서는 동일한 표현이 등장함에도 불구하고 이를 추출하지 못하는 등 데이터 추출의 일관성이 떨어지는 현상이 발견되었다. 또한, 생성형 AI가 추출한 긍정적 어휘의 절대적인 수치는 평가자의 17%에 불과한 것으로 나타났다.

Figure 10

Distribution of Positive, Negative, and Neutral States of Emotion Vocabulary in Total (Left: Generative AI / Right: Evaluator)

Figure 11은 참가자별 세부 결과 그래프이며, 우측 평가자가 추출한 긍정 어휘의 추출이 일정하게 분포하고 있는 것을 확인할 수 있다.

Figure 11

Frequency of Positive, Negative, and Neutral States of Emotion Vocabulary by Participant (Left: Generative AI / Right: Evaluator)

4. 1. 4. 감정 유발 요인 추출

전체 결과로 보았을 때, 생성형 AI는 부정적 감정 어휘에 대한 원인을 문맥적으로 잘 유추하여 원인을 90% 이상 찾아내었지만, 긍정적 감정 어휘는 추출하지 못했기 때문에 요인 또한 제시하지 못하였다.

대표 사례로 가장 감정 어휘를 많이 다양하게 사용한 참여자 A의 결과를 정리한 Table 10을 살펴보면, 생성형 AI는 부정적 감정 어휘 추출량에서 평가자의 50%를, 긍정적 어휘 추출은 0%로 평가자와 큰 차이를 보였다. 생성형 AI가 추출한 총 8개의 부정적 감정 어휘 중 원인을 추출하지 못한 2개의 경우를 제외, 6개의 원인을 제시하였으며, 요인은 신체적 변화, 갱년기 증상, 자녀의 독립, 남편에 대한 서운함 등이었는데 각 부정 어휘의 요인이 독립적이기 보다는 문맥을 유추하여 복합적인 요인으로 추출하는 경우가 많았다.

Example of Result Values for Emotion Inducing Factors (Data from Participant A)

반면 평가자는 생성형 AI가 추출한 부정적 감정 어휘를 모두 포함하여 총 16개를 추출, 긍정적인 감정 어휘는 5개와 이에 대한 감정 유발 요인을 추출하였으며, 문장에 드러난 어휘 그대로 요인을 추출하였다.

Table 10과 같이 긍정적 감정 어휘는 음식, 영화관 가기, 운동, 음악 등 다양한 원인과 연결되어 있었으며, 이는 A의 삶에서 긍정적인 경험, 소비의 대상들이었다. 이와 같이 평가자의 분석에서는 각 감정이 구체적인 원인과 연결되어 부정과 긍정적 감정의 기회 모두를 포착할 수 있는 인사이트 추출의 가능성이 절대적으로 높았다.

4. 2. 본 실험 결과의 시사점

4. 2. 1. 감정 어휘 유형별 추출

생성형 AI 추출의 비율의 경우 제 1유형 100%, 제 2유형 0%, 제 3유형 0%를 기록한 반면, 평가자의 경우 제 1유형 94%, 제 2유형 5%, 제 3유형 1%를 나타내었다. 이러한 결과는 유형별 추출 비율로 보았을 때 생성형 AI가 감정 어휘의 분류에서 평가자와 유사한 추출 경향을 보인 것처럼 볼 수 있지만, 수량으로 보았을 때 총 추출 어휘 수에서 4배 정도의 차이가 났기 때문에 많고 다양한 감정 추출이 중요한 분석 단계에 있어서 저조한 성과로 볼 수 있다.

그리고 한국어의 감정 어휘는 세 유형으로 나뉘는 구체적이고 복잡한 어휘 구성을 갖고 있지만, 생성형 AI는 가장 간단한 형태인 제 1유형의 감정 어휘에 집중하는 경향이 강하게 나타났고, 평가자는 보다 다양한 감정 어휘를 포괄적으로 추출하여 균형 잡힌 분포를 나타내었다. 제 2, 3유형의 경우는 어휘 구성의 틀 자체가 제 1유형보다 복잡하고, 샘플을 제시하였을 때 오히려 생성형 AI 모델이 샘플에 집중하여 조금만 다르게 표현하더라도 이를 제 2, 3유형의 범주 내에 속하지 않는다고 판단하기 때문에 추출이 거의 되지 않는 것을 확인하였다. 실제 제 2, 3유형은 인터뷰에서 발화되는 정도가 상당히 낮기 때문에 중요도가 낮을 수 있지만, 모든 유형을 포괄하는 감정 어휘를 100% 추출해야 하는 경우에는 현재 생성형 AI 상황으로 보아 개선책을 찾기 어려운 상황이기 때문에 평가자의 부분적 참여를 권유할 수 있다. 아직까지 생성형 AI가 한국어의 디테일한 표현에 대해서 분류가 미흡한 것으로 볼 수 있고, 이로 인해 생성형 AI와 평가자 간의 감정 어휘 유형별 추출 범위에서 차이가 나타난 것으로 확인되었다.

4. 2. 2. 감정 어휘의 긍정·부정·중립의 추출 및 비율

생성형 AI는 부정적 감정 어휘 추출률은 높았지만 긍정적 감정은 적게, 중립적인 감정은 전혀 추출하지 못하는 점에서 부족함이 나타났다. 부정적 감정 어휘 추출에 집중되는 원인은 데이터 불균형에 따른 구조적 요인에 기인하는 것으로 볼 수 있다. AI 모델이 학습하는 데이터셋에서 긍정적 감정 표현이 부정적 감정 표현에 비해 상대적으로 적게 포함될 경우, 모델은 긍정적 감정을 인식하는 데 어려움을 겪는다는 편향에 대한 연구(Mao et al., 2023)와 같이 본 실험에서도 부정적 감정 어휘가 긍정적 어휘 추출의 2~3배 정도를 차지하고 있고, 결과적으로 부정적 어휘 추출률이 더 높게 나타나는 경향이 나타났다. 또한 부정적인 사건이나 감정이 긍정적인 것보다 더 강한 영향을 미친다는 부정 편향(Negativity Bias) 개념(Baumeister et al., 2001)을 바탕으로, AI는 인간의 정보처리 과정에서 부정적 정보가 본질적으로 더 강하게 각인되고 중요하게 처리되는 경향(Rozin & Royzman, 2001)을 학습하게 되고, 본 실험의 결과에서도 이러한 현상이 나타남을 확인할 수 있었다.

반면 평가자의 어휘 추출은 모든 측면에서 상대적으로 고르게 분포되어 있었다. 감정 어휘 중 긍정적 감정 어휘는 인사이트 발굴 측면에서 매우 중요한 영향을 미치는데, 생성형 AI가 감정의 전반적인 맥락을 충분히 포착하지 못하고 있음은 인터뷰 분석 시 감정의 다양성을 충분히 반영하지 못할 가능성을 시사한다. 이로 인해 생성형 AI를 활용한 감정 분석 결과가 왜곡되어 사용자에게 잘못된 해석을 제공할 위험이 있으며, 중요한 인사이트를 누락하게 될 수 있다. 따라서 생성형 AI를 인터뷰 텍스트 분석 도구로 사용할 때는 이러한 한계를 인지하고, 평가자의 분석 결과와 함께 활용하여 더 균형 잡힌 감정 분석을 도출해야 한다.

4. 2. 3. 감정 유발 요인 추출

부정적 원인에 대한 분석은 고객의 문제적 상황을 잘 파악하고 이를 해결해주는 적절한 제품이나 서비스를 제시할 수 있는 가능성을 보여주고, 긍정적 감정 원인은 고객의 만족도, 가치관, 관심사, 소비와 관련된 행동으로 확인되었다. 따라서 다양한 감정 상태에 대한 추출은 디자인 기회요소인 인사이트 발굴에 기여도가 높다고 볼 수 있다.

감정 유발 요인 추출에 있어서 평가자는 다양한 긍정적 감정을 포괄적으로 분석하여 긍정적 경험을 더 잘 반영한 것에 비해, 생성형 AI는 긍정적 감정 어휘 추출 비율이 낮아 상반된 결과를 보였다. 하지만 부정적 어휘에 대해서 생성형 AI는 평가자보다 우월한 속도로 추출하고 원인까지 적절하게 제공하는 장점을 보였다. 따라서 생성형 AI는 부정적 감정의 원인을 효과적으로 파악하여 문제점 도출에 유리한 면을 보이지만, 긍정적 감정에 대한 인사이트를 제시하는 데는 한계를 보였다. 반면, 평가자는 긍정적 감정과 그 원인을 함께 분석함으로써 인터뷰 내용의 전반적인 정서 상태를 보다 균형 있게 이해하는 결과를 보였다.

정성적 결과로 심층 인터뷰를 통해 부정적 감정을 유발하는 요인 해결을 위해 소비하는 지출 대비, 긍정적 감정을 유발하는 요인에 대한 소비 지출이 훨씬 더 많았다는 것을 확인할 수 있었다. 이는 긍정 심리학(Positive Psychology)에서 주장하는 바와 같이 사람들이 눈앞의 문제를 해결하기보다는 긍정적인 감정을 경험하는 것에 더 많은 가치를 두는 결과적 경향을 보이는 현상과 유사하였다. 이와 같이 긍정적 감정 어휘의 추출은 기업 입장에서 기회의 요소로 볼 수 있는 중요한 측면으로 볼 수 있지만, 생성형 AI의 결과는 이에 크게 미치지 못하기 때문에 시사하는 점이 크다.

4. 3. 추가 실험 진행 및 결과

본 실험 결과를 바탕으로 생성형 AI가 긍정적 감정 어휘를 잘 추출하지 못하는 원인을 찾고자 추가 실험을 두 차례 진행하였고, 결과는 Table 11Figure 12와 같다.

Comparison of results between the main experiment and additional experiments based on the prompt content and amount of analysis data

Figure 12

Comparison Graph of Positive Emotion Vocabulary Extraction Rates

전체 인터뷰 발화 내용을 대상으로 “감정 어휘를 찾아줘”라고 하였을 때는 본 실험의 결과와 같이 거의 부정적 감정 어휘만 제시하였지만, “긍정적 감정 어휘를 찾아줘”라고 세부적으로 지시한 경우에는 본 실험 대비 7% 향상된 추출률을 보여주었다. 결과적으로 생성형 AI를 활용한 인터뷰 내용 분석에서 긍정적 감정 추출을 원하는 경우, 프롬프트에서 긍정과 부정의 상태를 명확히 지시하는 것이 추출률 향상에 도움이 되었다. 그리고 추가 실험 2의 경우, 한 문장씩 분리하여 “긍정적 감정 어휘를 찾아줘”라고 요청하였으며, 본 실험 대비 10% 향상된 추출률을 보였다. 이는 전체 50분의 발화 내용을 대상으로 요청하는 것보다, 한 문장씩 나누어서 분석을 요청하는 것이 긍정적 어휘 추출에서 가장 높은 효과가 나타남을 보여주었다. 두 번의 추가 실험에서 긍정적 감정 어휘 추출률이 향상된 만큼 긍정적 감정 유발 요인 또한 추출이 향상되었다.

4. 4. 추가 실험 결과의 시사점

추가 실험 결과를 통해 본 실험 결과에서 나타났던 생성형 AI 분석 결과와 평가자 분석에서 나타난 차이의 원인을 분석할 수 있었다. 감정 탐지 이론에 따르면, 감정 탐지는 일반적으로 여러 감정 클래스로 분류하는 과정을 포함하며, 이 과정에서 레이블을 구분하는 어려움이 증가하게 된다. 마오 외(Mao et al., 2023)는 “긍정적 감정 어휘를 찾아줘”와 같이 긍정과 부정을 이진으로 구분하여 선택적으로 요청하는 방식은 상대적으로 더 유용하다고 하였으며, 본 연구에서도 해당 프롬프트가 긍정 어휘 추출률을 높이는 데 효과적이었음을 확인할 수 있었다. 특히 추가 실험 2에서는 문장을 한 문장씩 분리하여 “긍정적 감정 어휘를 찾아줘”라고 요청하였는데, 본 실험 대비 약 10% 향상된 추출률을 보여 가장 높은 효과를 나타냈다. 이 결과는 개인의 경험과 가치관에 따라 다양하게 해석될 수 있는 긍정적 감정의 레이블링이, 보다 명확한 기준으로 구분되는 부정적 감정보다 더 주관적일 수 있다는 선행 연구(Yang et al., 2022)에 기반하여 해석할 수 있다. 즉, 전체 데이터셋에서는 긍정적 감정을 정확히 레이블링하는 것이 어려울 수 있지만, 추가 실험 2처럼 짧은 한 문장 단위로 데이터를 제공하면 주관적 감정 해석의 변동성을 줄일 수 있다. 따라서 짧은 문장 구성에서 긍정적 감정 어휘를 추출하는 방식은 생성형 AI의 해석을 상대적으로 객관화하는 조건이 되어, 생성형 AI의 긍정적 어휘 추출이 전문가 수준과 유사한 결과를 낸 것으로 볼 수 있다. 하지만 추출률을 높이기 위한 추가 실험의 2의 경우 문제점이 존재하게 된다. 분석 대상 데이터 양을 줄여서 진행할 경우 추출률은 높아지지만, 데이터 분리와 각 문장별로 분석을 요청하는 시간이 상당히 소요되기 때문에 효율성이 매우 떨어지는 점이다. 따라서 분석 목표가 결과의 정확도를 요하는 것인지, 과정의 효율성을 요하는지에 따라서 선택적 설계의 필요성이 나타난다.

4. 5. 생성형 AI 활용 프로세스

본 실험과 추가 실험 결과를 통해 심층인터뷰 프로세스 내 적용할 수 있는 생성형 AI 활용 프로세스를 Figure 13과 같이 제시하였다.

Figure 13

Proposing a Framework for Analyzing In-Depth Interviews Using AI

디자인 프로세스 중 초기 단계에 해당하는 고객 정성 조사 단계의 심층인터뷰 방법으로는 Figure 13의 상단과 같이 기존의 분석 프로세스를 살펴볼 수 있고, 하단에 위치한 본 연구의 생성형 AI를 활용한 분석 프로세스를 제시할 수 있다. 기존의 평가자는 감정 어휘와 감정 유발 요인을 추출하여 인사이트로 연결하는 단순한 방법을 사용하였으나, 생성형 AI를 활용하면 기존 프로세스에서 프롬프트 설계 및 결과 추출을 세분화하고 데이터 코드화를 통해 효율적으로 분석할 수 있다. 생성형 AI 활용 프로세스를 상세하게 설명하면, 심층 인터뷰 후 발화 내용을 텍스트로 변환하여 데이터로 생성하고, 이후 프롬프트 설계 단계를 추가한다. 이 단계에서 감정 어휘 추출 과정은 긍정과 부정으로 나누어 상세히 요청하며, 이에 상응하는 감정 유발 요인도 긍정과 부정으로 분류하여 요청한다. 이러한 방식으로 긍정 요인은 극대화 방안으로, 부정 요인은 문제 해결 방안으로 체계적으로 분류하여 인사이트를 쉽게 추출할 수 있다.

생성형 AI와 평가자의 협업은 다음과 같이 구체화된다. 먼저, 생성형 AI는 높은 추출률을 보이는 제 1유형의 데이터에서 감정 어휘와 감정 유발 요인을 자동으로 추출한다. 이후, 평가자는 생성형 AI가 추출한 결과를 검토하고 필요한 경우 추가적인 수정이나 보완을 진행한다. 이어서 추가적으로 제 2, 3유형의 감정 어휘 추출을 시도하는 경우에서는 평가자가 직접 상세한 감정 표현을 추출하고 인사이트를 도출하는 과정을 진행한다. 이러한 협업 방식은 생성형 AI의 효율성을 극대화하면서도 평가자의 전문성을 활용하여 더욱 신뢰성 높은 결과를 도출할 수 있는 개선된 프로세스가 될 수 있다.


5. 결론 및 제언

본 연구의 목적은 생성형 AI와 평가자의 감정 어휘 추출 과정과 결과를 비교 분석하여, 심층 인터뷰 텍스트 분석 도구로서 생성형 AI의 활용 가능성과 한계를 평가하는 것이었다. 그리고 이를 통해 생성형 AI가 심층 인터뷰의 감정 분석에 기여할 수 있는 방안과 함께 평가자의 역할을 재조명하고자 하였다.

본 실험 결과, 생성형 AI는 부정적 감정 어휘 분석에서 강점을 보이며 고객의 문제적 상황을 효과적으로 파악하고, 이에 적절한 제품이나 서비스를 제안할 수 있는 가능성을 보여주었다. 그러나 유형에서 보았을 때 한국어 특유의 언어적 표현으로 볼 수 있는 제 2, 3유형의 어휘를 상세하게 탐지하지 못하고 있고, 긍정적 감정 어휘의 추출 비율이 낮으며, 그에 따른 긍정적 감정의 원인 분석이 부족하여 고객이 추구하는 가치관과 기회요소를 반영하는 데 한계를 드러냈다. 하지만 추가 실험 1, 2를 통해 프롬프트 설계에서 긍정 어휘를 개별적으로 요청하는 상세 프롬프트를 실시하거나, 더 적은 양의 발화 데이터를 제공하면 평가자와 유사한 수준의 분석 결과를 도출할 수 있음을 제시하였다.

따라서 생성형 AI의 감정 분석과 원인 포착의 기능은 시간 효율적으로 가장 유용하지만, 고객의 감정 어휘를 모두 놓치지 않고 신뢰할 수 있는 결과를 도출하기 위해서는 생성형 AI 분석 결과 검토 후 평가자의 검토를 이어서 진행하는 접근 방식이 필요하다. 시사점을 바탕으로 심층인터뷰의 분석에 있어서 생성형 AI를 디자인 프로세스 중 특히 심층 인터뷰 프로세스 내에서 어떻게 활용할 것인가에 대한 가이드라인을 제시하였고, 기존 프로세스와 달리 발화 데이터 수집 이후 ‘음성 데이터 추출’, ‘긍정 어휘와 부정 어휘 추출 상세 프롬프트 실행’, ‘감정 유발 원인 추출 프롬프트 실행’ 단계가 추가되었으며, 인터뷰 데이터 분석 목적에 따라서 평가자가 어떤 단계에서 협업하는 것이 효율적인가를 제시하였다.

본 연구의 한계점으로 본 연구는 2024년 9월에서 11월 시점의 모델 학습 상태와 버전을 사용한 결과를 바탕으로 하며, 추후 업데이트된 모델에서는 결과 값이 변동할 수 있는 가능성이 있고, 또한 감정 표현이 아닌 어휘, 니즈 및 문제점이 추상적으로 빗대어 표현된 경우는 분석 대상에서 제외되었기 때문에 본 연구 결과가 모든 인사이트를 추출한 것으로 보기 어려울 수 있다. 본 연구는 9개의 심층 인터뷰 데이터를 기반으로 하므로 데이터 양이나 분석 범위가 다를 경우 결과의 일반화에 한계가 있을 수 있다. 향후 기업에서 고객 심층 인터뷰 분석에 AI를 활용하거나 새로운 분석 프로그램을 개발할 경우, 본 연구의 결과를 참조할 수 있다. 그러나 추가 실험 결과에 따르면 데이터 양이 많아지면 추출률에 영향을 미칠 수 있으므로, 보다 정확한 지침을 위해서는 더 큰 데이터셋을 대상으로 한 추가 연구가 필요할 것으로 보인다.

본 연구는 생성형 AI의 감정 어휘 인식 및 분석 기능의 현황과 한계를 밝히고, 실무에서 생성형 AI를 활용하여 감정 분석의 정확성과 효율성을 높이는 데 기여하고자 하였다. 이러한 한계들을 인지하고 향후 연구에서 보완한다면, 기술 발전에 발맞추어 연구의 질적 측면과 신뢰성을 확보할 수 있을 것이다. 또한, 실증적 데이터 연구 결과는 학문적 기여뿐만 아니라 산업에도 긍정적인 영향을 미칠 것으로 예상된다. 본 연구 결과는 심층 인터뷰 분석 프로세스를 강화할 수 있는 새로운 감정 어휘 분석 도구로서 생성형 AI의 가능성을 제시하며, 관련 연구에 중요한 기초 자료로 활용될 것으로 기대된다.

Notes

Citation: Sim, Y. (2025). Exploring the Potential of Generative AI as a Tool for Emotional Vocabulary Analysis in In-Depth Interviews. Archives of Design Research, 38(2), 349-371.

Copyright : This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0/), which permits unrestricted educational and non-commercial use, provided the original work is properly cited.

References

  • Barrett, L. F. (2017). How Emotions Are Made (Choi hoyoung, Trans.). Think Research Institute. 32-54.
  • Baumeister, R. F., Bratslavsky, E., Finkenauer, C., & Vohs, K. D. (2001). Bad is stronger than good. Review of General Psychology, 5(4), 323-370. [https://doi.org/10.1037/1089-2680.5.4.323]
  • Boyce, C., & Neale, P. (2006). Conducting in-depth interviews: A guide for designing and conducting in-depth interviews for evaluation input. In Pathfinder International Tool Series: Monitoring and evaluation-2, 2-11.
  • Brown, T. (2009). Change by design: How design thinking creates new alternatives for business and society (Go seong yeon, Trans.). KimYoungsa. (Original work published 2009). 70-93.
  • Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems, 33, 1877-1901.
  • Cho, Y. I. (2023). Super Large AI and Generative Artificial Intelligence. TTA Journal, ICT standard weekly 1145, 36(207), 1-9.
  • Christensen, C. M. (2009). The innovator's dilemma: When new technologies cause great firms to fail (Lee Jinwon, Trans.). Sejong. (Original work published 1997; Translated 2009). 44-70.
  • Chung, E. H., & Choi, J. M. (2022). Directions for AI-based Tools to support Designers' Work Process. Archives of Design Research, 35(4), 269-283. [https://doi.org/10.15187/adr.2022.11.35.4.269]
  • Deterding, N. M., & Waters, M. C. (2021). Flexible coding of in-depth interviews: A twenty-first-century approach. Sociological Methods & Research, 50(2), 708-739. [https://doi.org/10.1177/0049124118799377]
  • Diener, E. (1984). Subjective well-being. Psychological Bulletin, 193(3), 542-575. [https://doi.org/10.1037/0033-2909.95.3.542]
  • Diener, E. (1994). Assessing subjective well-being: Progress and opportunities. Social Indicators Research, 31, 103-157. [https://doi.org/10.1007/BF01207052]
  • Ekman, P. (2003). Emotions Revealed: Recognizing Faces and Feelings to Improve Communication and Emotional Life (Heo, Woo-sung & Heo, Joo-hyung, Trans.). Bada Books.(Original work published 2003; Translated 2020). 11-12.
  • Kang, H. S., & Yang, J. H. (2018). The Analogy Test Set Suitable to Evaluate Word Embedding Models for Korean. Journal of Digital Contents Society, 19(10), 1999-2008. [https://doi.org/10.9728/dcs.2018.19.10.1999]
  • Kang, H. S., & Yang, J. H. (2019). Optimization of Word2vec Models for Korean Word Embeddings. Journal of Digital Contents Society, 20(4), 825-833. [https://doi.org/10.9728/dcs.2019.20.4.825]
  • Kwon, S. M. (2010). The Relationship Between Desire and Happiness from the Perspective of Psychology. Philosophical Thought, 36, 121-152. [https://doi.org/10.15750/chss..36.201005.004]
  • Lee, J. Y. (2009). Study on Emotional Expressions for Korean Language Education. Korean Semantics, 29, 201-227.
  • Lee, S. B., & Jung, Y.W. (2024). A suggestion of in-depth interview guidelines using generative AI services for lean startups. The Journal of the Convergence on Culture Technology (JCCT), 10(2), 471-485.
  • Lee, S. H. (2015). Design Thinking and Strategic Innovation. Mulretime. pp. 37-41.
  • Lee, S. J. (2018). Selection and Classification of Emotional Adjectives for Korean Language Education. Center for Literature and Language Education, 24, 479-511. [https://doi.org/10.24008/klle.2018..24.017]
  • Lee, Y. H., & Jeong, J. W. (2004). A Study on the Analysis of Emotion-expressing Vocabulary for Realtime Conversion of Avatar's Countenances. Design of Korean Society of Design Science, 17(2), 56, 199-208.
  • Lim, E. H. (1998). A Study on Emotion Verbs. Korean Language Education Research Association, 96, 317-337.
  • Mao, R., Liu, Q., He, K., Li, W., & Cambria, E. (2023). The Biases of Pre-Trained Language Models: An Empirical Study on Prompt-Based Sentiment Analysis and Emotion Detection. IEEE Transactions on Affective Computing, 14, 1743-1753. [https://doi.org/10.1109/TAFFC.2022.3204972]
  • Moon, K. H. (2012). Teaching Speaking on Korean Emotion Expressions. Poetics and Linguistics, 22, 175-200.
  • Rozin, P., & Royzman, E. B. (2001). Negativity Bias, Negativity Dominance, and Contagion. Personality and Social Psychology Review, 5, 296-320. [https://doi.org/10.1207/S15327957PSPR0504_2]
  • Schaffhausen, C. R., & Kowalewski, T. M. (2016). Assessing quality of unmet user needs: Effects of need statement characteristics. Design Studies, 44, 1-27. [https://doi.org/10.1016/j.destud.2016.01.002]
  • Shin, S. W., & Yoo, S. H. (2017). Discovering the abstract structure of latent needs and hidden needs in everyday usage environments: Collection and interpretation of behavioral data from smartphone users. Society of Design Convergence, 16(6), 169-184.
  • Wang, Y., Yao, Q., Kwok, J. T., & Ni, L. M. (2020). Generalizing from a few examples: A survey on few-shot learning. ACM Computing Surveys (CSUR), 53(3), Article 63, 1-34. [https://doi.org/10.1145/3386252]
  • Yang, J., Li, J., Li, L., Wang, X., Ding, Y., & Gao, X. (2022). Seeking Subjectivity in Visual Emotion Distribution Learning. IEEE Transactions on Image Processing, 31, 5189-5202. [https://doi.org/10.1109/TIP.2022.3193749]
  • Yang, J., & Yoon, S. (2023). Beyond ChatGPT: Cases of Generative AI Services in Media and Content and Strategies for Competitive Advantage. Korea Broadcasting and Telecommunications Promotion Agency. Media Issue Trend, 55, 1-9.
  • Yoon, J. K., Lee, K. P., Kwon, Y., Kim, H. J., & Kim, B. W. (2001). Understanding hidden needs through video ethnography in a dynamic environment. Korean Society of Design Studies Fall Academic Conference 2001, 22-23.

Figure 1

Figure 1
Analysis Points in the In-Depth Interview Process

Figure 2

Figure 2
Experimental Model

Figure 3

Figure 3
Embedding ProcessSource: https://www.syncly.kr/blog/what-is-embedding-and-how-to-use

Figure 4

Figure 4
Design for Prompt Development

Figure 5

Figure 5
Final Prompt

Figure 6

Figure 6
Protocol Analysis Results (Generative AI)

Figure 7

Figure 7
Protocol Analysis Results (Evaluator)

Figure 8

Figure 8
Graph of Extraction Results for Frequency of Emotion Vocabulary by Type

Figure 9

Figure 9
Frequency Extraction Results of Emotion Vocabulary by Participant (Left: Generative AI / Right: Evaluator)

Figure 10

Figure 10
Distribution of Positive, Negative, and Neutral States of Emotion Vocabulary in Total (Left: Generative AI / Right: Evaluator)

Figure 11

Figure 11
Frequency of Positive, Negative, and Neutral States of Emotion Vocabulary by Participant (Left: Generative AI / Right: Evaluator)

Figure 12

Figure 12
Comparison Graph of Positive Emotion Vocabulary Extraction Rates

Figure 13

Figure 13
Proposing a Framework for Analyzing In-Depth Interviews Using AI

Table 1

Types and Combinations of Korean Emotional Expressions

유형 결합 양상 용례
제 1유형 감정 형용사/감정 동사
감정 명사/감정 부사
기쁜, 슬픈/사랑하다, 미워하다
기쁨/싱글벙글
제 2유형 감정 명사+감정 형용사 기분이 좋다
감정 명사+형용사/동사 기쁨을 맛보다
제 3유형 신체어+형용사/동사 가슴이 후련해지다
신체어+색채어+형용사/동사 얼굴이 붉게 변하다

Table 2

Interview Participant Information

인터뷰 참여자 나이 거주지 주요 고민거리 및 관심사
A 51 서울시 노원구 건강, 가족문제
B 51 서울시 강북구 갱년기, 자녀교육
C 52 서울시 광진구 부모님, 건강
D 47 경기도 안산시 경제적 형편, 미래, 건강
E 58 경기도 고양시 정신과 치료, 갱년기
F 43 인천시 연수구 노후, 회사, 건강관리
G 45 경기도 성남시 갱년기, 자녀 교육, 자아
H 46 서울시 종로구 가족관계, 자녀 교육, 건강
I 49 서울시 강남구 노화, 미래, 부모님
J 57 서울시 서대문구 건강, 퇴직, 가족관계

Table 3

Comparison Table of Characteristics of Final Candidates for Generative AI Programs

항목 Chat GPT 뤼튼
Source: Brown et al.(2020), Open ai와 Written 공식 홈페이지 및 서비스 설명을 참고함
국가 미국 한국
모델 구조 Transformer 기반 (GPT) Transformer 기반 (GPT 또는 유사 모델)
한국어 어휘 처리 강점 다양한 문맥과 방대한 어휘 처리, 자연스러운 대화 능력 콘텐츠 생성에 특화, 짧은 형태의 콘텐츠 처리에 강점
한국어 어휘 처리 약점 미묘하거나 문화적으로 특정된 표현에서 때때로 어려움 깊이 있는 대화적 문맥이나 비표준 언어에 어려움이 있을 수 있음
문맥적 의미 처리 긴 텍스트에서 문맥을 이해하고 유지하는 능력이 뛰어남 마케팅과 같은 목적에 맞는 간결한 텍스트 생성에 우수
학습 데이터 크기 한국어를 포함한 다국어 대규모 데이터 학습 마케팅 콘텐츠 등 특정 도메인에 집중
적용 분야 텍스트 생성, 분석, 대화 등 범용 AI 블로그, 마케팅, 카피라이팅 등 콘텐츠 생성

Table 4

Comparison of Extraction Results from Generative AI Programs(Total of 5 Prompts)

Chat GPT 뤼튼
감정 어휘 총 추출 개수   36 33
정답 추출 개수   28 27
오답 추출 개수 잘못된 어휘 수 8 6
중복된 어휘 수 2 0
잘못된 유형 수 0 11
추출 정확도(평균%)   77.5 84
동일 프롬프트 5회 반복 수행 결과 표준편차 0.49 1.72

Table 5

Prompt Writing Structure and Text

프롬프트 구성 내용
1-1 기본설명 감정에 대한 한국어 어휘는 감정 형용사, 감정 동사, 감정 명사, 감정 부사로 이루어져 있다. 이 단일 어휘는 제 1유형이라고 한다. 감정 어휘들이 첨부하는 워드 문서에서 발견되는 경우, 이를 추출해주기 바란다.
결과형태 결과의 형태는 1.감정 형용사/명사/동사와 동일한 단어 추출 후 긍부정으로 나누고, 각각의 어휘 유형, 빈도수, 그 감정에 대한 목적어, 실제 문장을 표의 내용으로 작성하고 2.최종적으로 1번에서 정리한 모든 감정의 원인이 되었던 대상들이 무엇인지를 각각 감정-원인으로 구분해서 표로 제시하시오.
샘플제공 없음
1-2 기본설명 1-1과 동일
결과형태 결과의 형태는 1. 아래 기재한 감정어휘를 보고, (이후는 A와 동일)
샘플 제공 감정 어휘 샘플

(제 1유형) 감정 형용사
가엾은, 간절한, 감격스러운, ...(외 추가 단어 기재하였음)

(제 1유형) 감정 동사
간절하다, 감격스럽다, 감사하다, ...(외 추가 단어 기재하였음)

(제 1유형) 감정 명사
걱정, 기분, 마음, 공포, 미련, ...(외 추가 단어 기재하였음)

(제 1유형) 감정 부사
싱글벙글, 울먹울먹, 부글부글, ...(외 추가 단어 기재하였음)

Table 6

Final Prompt Writing Structure and Text

프롬프트 구성 내용
제 1 유형 요청 기본설명 감정에 대한 한국어 어휘는 감정 형용사, 감정 동사, 감정 명사, 감정 부사로 이루어져 있다. 이 단일 어휘는 제1유형이라고 한다. 감정 어휘들이 첨부하는 워드 문서에서 발견되는 경우, 이를 추출해주기 바란다.
결과형태 결과의 형태는 1.감정 형용사/명사/동사와 동일한 단어 추출 후 긍부정으로 나누고, 각각의 어휘 유형, 빈도수, 그 감정에 대한 목적어, 실제 문장을 표의 내용으로 작성하고 2.최종적으로 정리한 모든 감정의 원인이 되었던 대상들이 무엇인지를 각각 감정-원인으로 구분해서 표로 제시하시오.
샘플제공 감정 어휘 샘플

(제1유형) 감정 형용사
가엾은, 간절한, 감격스러운, ...(외 추가 단어 기재하였음)

(제1유형) 감정 동사
간절하다, 감격스럽다, 감사하다, ...(외 추가 단어 기재하였음)

(제1유형) 감정 명사
걱정, 기분, 마음, 공포, 미련, ...(외 추가 단어 기재하였음)

(제1유형) 감정 부사
싱글벙글, 울먹울먹, 부글부글, ...(외 추가 단어 기재하였음)
제 2, 3 유형 요청 기본설명 감정에 대한 한국어 어휘는 앞서 요청한 제1유형 외에도 2, 3유형이 있다.
감정명사+감정형용사, 감정명사+감정동사와 같이 2개의 어휘가 복합적으로 구성되는 경우를 제2유형이라고 한다. 신체어(명사)+ 형용사, 신체어(명사)+ 동사, 신체어(명사)+색채어+형용사, 신체어(명사)+색채어+동사 경우를 제3유형이라고 한다. 감정 어휘들이 첨부하는 워드 문서에서 발견되는 경우, 이를 추출해주기 바란다.
결과형태 제 1유형의 결과형태와 동일하게 기재
샘플 제공 제공하지 않음

Table 7

Data Coding Procedure

항목 내용
1 데이터 추출 인터뷰 참여자 A~I까지 10명의 각 50분 분량의 인터뷰 결과 녹음 파일의 텍스트를 추출
2 텍스트 전처리 불용어(불필요한 단어) 제거 및 형태소 분석(단어의 기본 형태로 변환)
3 감정 어휘 추출 발화 속 발견되는 감정 어휘에 대한 텍스트를 모두 추출
4 감정 어휘의 상태 분류(긍정, 부정, 중립) 긍정, 부정, 중립 상태를 판별하여 색으로 표시
5 감정 어휘 개별 코드화 긍정(Positive): P1, P2, P3...
부정(Negative): N1, N2, N3...
중립(Neutral): Ne1, Ne2, Ne3...
6 개별 코드에서 유형별 분류 개별 코드가 각각 어느 유형에 해당되는지에 따라서 뒤에 1, 2, 3유형에 따른 각 숫자를 붙임

P1-1, P2-1, P3-2...
N1-1, N2-1, N3-1...
Ne1-2, Ne2-2, Ne3-3...
7 문맥에 따른 재분류 긍정 어휘로 감지되어도 문맥상 부정적 의미일 경우 재분류하는 작업을 실시
8 감정 유발 요인 추출 문장 분석을 통해 해당 감정 어휘의 원인이 되는 단어 및 요인을 기재

Table 8

Analysis Items and Content

항목 내용
1 감정 어휘 유형별 빈도 전체 감정 어휘에서 제 1, 2, 3유형을 분류하고 각 유형별 빈도 추출
2 감정 어휘 긍정, 부정, 중립의 분포 감정 어휘의 긍정, 부정, 중립 분류 및 비율
3 감정 유발 요인 추출 감정 어휘를 통해 드러난 감정의 유발 요인을 문장에서 추출

Table 9

Results Table of Emotion Vocabulary Extraction

추출 생성형 AI 평가자
어휘
(중복된표현 및 품사만 다른 경우는 삭제하여 기재함)
“감사, 고통, 고마운, 걱정, 기분이 좋다, 기운이 빠지다, 두려움, 다운되다, 불안감, 불안, 힘들다, 지친, 즐거운, 짜증, 슬프게, 우울감, 우울증, 안정감, 상실감, 서운한, 예민한, 화, 위기감, 무서움, 안심 등”을 포함하여 총 51개 “감사, 고생, 고맙다, 기분이 좋다, 기분이 나쁜, 두려움, 불안, 불안감, 서운한, 슬프다, 안정감, 아쉬운, 아프다, 안심이 되다, 예민한, 위안, 위기감, 위로, 즐거움, 짜증, 재밌다, 힘들다, 피로감, 편안해, 혼란스러운, 화, 행복, 심장이 뛰고, 심장 두근거림, 성취감, 좋다 등”을 포함하여 총 208개
참여자 1유형 2유형 3유형 1유형 2유형 3유형
A 8 0 0 8 45 3 0 48
B 7 0 0 7 28 3 0 31
C 6 0 0 6 30 0 0 30
D 2 0 0 2 14 0 0 14
E 6 0 0 6 22 0 0 22
F 5 0 0 5 14 3 0 17
G 3 0 0 3 14 0 2 16
H 9 0 0 9 18 2 0 20
I 5 0 0 5 10 0 0 10
총 개수 51 0 0 51 195 11 2 208
비율(%) 100 0 0 100 94 5 1 100

Table 10

Example of Result Values for Emotion Inducing Factors (Data from Participant A)

생성형 AI 평가자
부정적 어휘 감정 유발 요인 긍정적 어휘 요인 부정적 어휘 감정 유발 요인 긍정적 어휘 요인
1 신경질 얼굴의 열감과 신경질적인 기분, 신체적 변화에 대한 불만 - - 신경질 갱년기 좋은 음식, 비타민, 음악
2 두려움 갱년기 증상에 대한 불안감, 병원에 가는 것에 대한 우려 - - 두려운 갱년기 재미있는 친구와의 수다
3 우울감 자녀의 독립과 관련된 정서적 변화, 갱년기 증상과의 연관성 - - 우울한 자녀의 독립, 인간관계 즐거운 영화관가기, 운동
4 피로감 수면 장애와 갱년기 증상으로 인한 몸의 피로 - - 피로감 갱년기 위로 혼자만의 시간
5 서운할 때 남편의 이해 부족, 감정적 지지의 결여 - - 서운한 자식, 갱년기, 이해못해주는 위안을 받다 따뜻한 말
6 힘들다 (원인 추출 못함) - - 힘든 대화가 없는 것, 몸의 상태 - -
7 예민한 (원인 추출 못함) - - 예민한 마음, 감정 - -
8 걱정 자녀 교육과 남은 인생에 대한 고민 - - 걱정 부작용 - -
9 - - - - 우려스러운 - -
10 - - - - 아쉬운 관계 - -
11 - - - - 싫은   - -
12 - - - - 신경이 쓰이는   - -
13 - - - - 고민   - -
14 - - - - 누그러지다   - -
15 - - - - 불쌍한   - -
16 - - - - 심각한   - -

Table 11

Comparison of results between the main experiment and additional experiments based on the prompt content and amount of analysis data

분류 상세 대상 데이터 프롬프트 범위 추출률(%)
AI 본 실험 AI 1인 전체 발화 감정 어휘 25
추가 실험 1_AI 1인 전체 발화 긍정적 감정 어휘 32
추가 실험 2_AI 한 문장 발화 긍정적 감정 어휘 35
평가자 본 실험_평가자 1인 전체 발화 감정 어휘 36