[NLP 소식] 구글 AI에서 공개한 대규모 이모지 오픈소스 데이터셋 <GoEmotions>
며칠 전, 구글 AI 에서 세분화된 27가지의 감정 분류된 데이터셋을 오픈소스로 공개했다. 아래는 구글 AI 블로그 내용을 내가 이해하며 쓴 의/번역 및 요약 내용이다. 이모지(이모티콘)은 사회적 상호 작용이나 사람들간의 행동이나 관계 형성 하는 데에 있어 가장 핵심적인 측면이라 할 수 있다. 몇 가지 단어들로 다양한 범주의 미묘하고 복잡한 감정들을 표현할 수 있기 때문이다. 지난 10년간, NLP 리서치 커뮤니티는 감성분류에 기반한 데이터셋을 만들어왔다. 대다수는 뉴스 헤드라인, 영화 자막, 우화 같은 영역들이고, 기본적인 6가지 감정(분노, 놀람, 혐오, 기쁨, 두려움, 슬픔) 에 초점이 맞춰져 있었다. 이 데이터들 덕분에 감성 분류에 대한 초기 탐색은 이루어질 수 있었지만, 대규모 데이터셋에 대한 ..
더보기