본문 바로가기

분류 전체보기

[NLP 소식] 구글 AI에서 공개한 대규모 이모지 오픈소스 데이터셋 <GoEmotions> 며칠 전, 구글 AI 에서 세분화된 27가지의 감정 분류된 데이터셋을 오픈소스로 공개했다. 아래는 구글 AI 블로그 내용을 내가 이해하며 쓴 의/번역 및 요약 내용이다. 이모지(이모티콘)은 사회적 상호 작용이나 사람들간의 행동이나 관계 형성 하는 데에 있어 가장 핵심적인 측면이라 할 수 있다. 몇 가지 단어들로 다양한 범주의 미묘하고 복잡한 감정들을 표현할 수 있기 때문이다. 지난 10년간, NLP 리서치 커뮤니티는 감성분류에 기반한 데이터셋을 만들어왔다. 대다수는 뉴스 헤드라인, 영화 자막, 우화 같은 영역들이고, 기본적인 6가지 감정(분노, 놀람, 혐오, 기쁨, 두려움, 슬픔) 에 초점이 맞춰져 있었다. 이 데이터들 덕분에 감성 분류에 대한 초기 탐색은 이루어질 수 있었지만, 대규모 데이터셋에 대한 .. 더보기
[python] Pandas 데이터프레임 NDJSON 타입으로 변환 판다스 데이터프레임을 JSON 타입으로 변환하는 작업은 많은 이들에게 익숙할 것이다 (pandas to_json documentation) 모델 산출물을 Azure Storage 에 연동하여 업로드 하는데, NDJSON 타입으로 업로드 해달라는 요청을 받아 찾아보았다 NDJSON이란? Newline Delimited JSON Data 이라는 용어 자체로 설명 가능 아래 왼쪽이 JSON, 오른쪽이 NDJSON (Reference) 블로그를 읽어보니 NDJSON 타입이 새로운 데이터를 추가할 때 모든 파일을 읽지 않아도 된다는 장점이 있다고 한다 Pandas Dataframe 을 NDJSON 타입으로 READ(읽기) 하고 싶은 경우 에는 ndjson 타입으로 먼저 데이터를 로드한 후, 판다스 데이터프레임으로.. 더보기
[python] googletrans 구글 번역 API Ban 밴 당할 때 우회해서 데이터프레임 한영 변환 해결 (번역 시리즈2) 이전 포스트는 googletrans 라이브러리를 이용하여 데이터프레임 안에 있는 데이터를 한 번에 한영/영한 변환 하는 방법을 다뤄보았습니다. 번역기 사용 중 API Ban 이슈 발생하여 한영 dictionary 를 cache file 에 저장하여 사용하는 우회 방식을 선택해 진행해보았습니다. 0. Issue / Things to Consider 2021.3 API ban 하는 이슈 발생 → 우선 exception 발생하는 경우 API reinitialize 해서 우회 하는 방식 으로 진행 (time.sleep 안 통함) Colab 환경에서 테스트 하였기 때문에, 런타임 초기화로 API reinitialize 가능 stability 위해서는 Google's official translation API 사.. 더보기
[Github] SSH 키 만들고 등록하기: Official Doc 따라해봅시다 Github 에서 push/pull 하기 위해서는 SSH Key 가 필요합니다. Git 의 Official Doc 을 참고 하여 SSH 키를 생성하고 등록해봅시다. (굉장히 친절하게 나와있음..) Terminal 에서 진행 0. SSH Key 있는지 확인 하기 키를 생성하기에 앞서, SSH Key 가 존재하는지 확인 해봅니다. 아래와 같은 key 파일들이 없으면 새로 생성해야 합니다. id_rsa.pub id_ecdsa.pub id_ed25519.pub (base) sooeunoh@MacBook-Pro sooeun67.github.io % ls -al ~/.ssh total 8 drwx------ 3 sooeunoh staff 96 9 23 2020 . drwxr-xr-x+ 56 sooeunoh staf.. 더보기
티스토리 구글 검색 안될 때, 구글 서치 콘솔에 등록하기 업로드 하면 Google Search Console 에서 내 블로그에 대한 ownership 을 verify 한다 google-site-verification=3ThUtxTOHBCzCXy_g-dQYQToV5nOmnIiMygRTz50tlk 티스토리에서 구글 콘솔 플러그인 설치는 아래 블로그 참고: https://truesale.tistory.com/536 구글 서치콘솔 티스토리에 등록하기 안녕하세요. 낭만 부부입니다~ 티스토리도 끊임없이 진보하고 있고 구글과의 협업도 날이 갈수록 유연 해지는 것 같습니다. 그중 하나가 구글 서치 콘솔을 티스토리 플러그인에 손쉽게 추가할 truesale.tistory.com 사이트맵 등록 후에 하루 이틀 지나면 구글 검색에 뜨는 것 확인 더보기
[python] googletrans 구글 번역 무료 API로 데이터프레임 한영 번역/변환을 한번에 (번역 시리즈1) 구글 번역 API (googletrans)를 통해 데이터 프레임(dataframe)을 한글 영어/외래어 변환하는 모듈을 개발 하였습니다. 한 문장 한 문장을 실시간 번역하는 예시는 많이 나와있습니다. 이건 다른 포스트에서 다뤄보겠습니다. 전체 데이터 프레임에 있는 데이터들을 한 번에 번역하고 싶어 개발하게 되었습니다. 0. 개발 배경 건설 회사 견적 품명 데이터를 의뢰 받았는데, 한글과 영어가 혼재되어 있어 통일 필요 샘플 데이터를 받았던 상황이었으므로 분류 모델에 필요한 학습 데이터 부족 -> 따라서 data augmentation (데이터 증강) 의 방법으로 사용 1. 패키지 설치 !pip install googletrans==4.0.0-rc1 # package version update import.. 더보기
커리어 관련 자료 및 블로그 링크 https://github.com/Team-Neighborhood/I-want-to-study-Data-Science https://zzsza.github.io/ Home 메모가 습관인 데이터쟁이입니다 zzsza.github.io 더보기