논문 리뷰 목적
: MCP 를 이용하여 각각의 LLM(한글 지원 되는 Open AI, Gemini 등) 에 주가정보와 기업정보에 대해 리뷰 요청 및 그 결과에 대해 긍정과 부정에 대한 감정분석을 실시.이를 통해 두 집단(긍정, 부정)을 분류하기 위한 목적(긍정 시 매수, 부정 시 매수 보류)
논문 제목
: User Guide for KOTE: Korean Online Comments Emotions Dataset
논문 URL
: https://arxiv.org/abs/2205.05300
User Guide for KOTE: Korean Online Comments Emotions Dataset
Sentiment analysis that classifies data into positive or negative has been dominantly used to recognize emotional aspects of texts, despite the deficit of thorough examination of emotional meanings. Recently, corpora labeled with more than just valence are
arxiv.org
논문 다운로드 URL
: https://arxiv.org/pdf/2205.05300
주요참고자료
1) KoNlPy: https://konlpy.org/en/latest/
2) FastText (Enriching Word Vectors with Subword Information): https://aclanthology.org/Q17-1010.pdf
https://github.com/facebookresearch/fastText
GitHub - facebookresearch/fastText: Library for fast text representation and classification.
Library for fast text representation and classification. - facebookresearch/fastText
github.com
(fastText is a library for efficient learning of word representations and sentence classification.)
[요약] Skip-gram 모델 기반(중심단어와 주변단어를 기반으로 다른 주변 단어를 확율적으로 예측)
: 출력값은 softmax를 통해 처리(출력범위 0 ~ 1, 출력 data: 중심단어가 주어졌을때, 특정 단어가 주변에 등장할 확률)
논문 요약
- KOTE, 한국어 온라인 댓글 감정분석 dataset, 50,000개의 한국어 댓글에 총 43개의 감정 레이블을 수작업으로 등록
- 라벨링 방식: 3,048 명의 클라우드 소싱 참여자에 의해 감정 라벨링
- 감정분류기준: 한국어 감정 개념을 기반, 클러스터링 분석을 통해 감정분류
- 사용모델: KcELECTRA(A (Korean comment ELECTRA; Clark et al., 2020; Lee, 2021)) 모델을 KOTE 데이터셋으로 파인튜닝하여 기존 모델보다 향상된 성능(F1-score 0.56) 달성
적용 방안
기타 추후 보완 필요한 사항
- 해당 자료는 온라인 댓글 기반으로 감정분석이 진행되었기 때문에 금융도메인에 대한 분석 시 정확도가 떨어질 수 있음
-
기타 툴
https://colab.research.google.com/
Google Colab
colab.research.google.com