Python 썸네일형 리스트형 [python] Pandas 데이터프레임 NDJSON 타입으로 변환 판다스 데이터프레임을 JSON 타입으로 변환하는 작업은 많은 이들에게 익숙할 것이다 (pandas to_json documentation) 모델 산출물을 Azure Storage 에 연동하여 업로드 하는데, NDJSON 타입으로 업로드 해달라는 요청을 받아 찾아보았다 NDJSON이란? Newline Delimited JSON Data 이라는 용어 자체로 설명 가능 아래 왼쪽이 JSON, 오른쪽이 NDJSON (Reference) 블로그를 읽어보니 NDJSON 타입이 새로운 데이터를 추가할 때 모든 파일을 읽지 않아도 된다는 장점이 있다고 한다 Pandas Dataframe 을 NDJSON 타입으로 READ(읽기) 하고 싶은 경우 에는 ndjson 타입으로 먼저 데이터를 로드한 후, 판다스 데이터프레임으로.. 더보기 [python] googletrans 구글 번역 API Ban 밴 당할 때 우회해서 데이터프레임 한영 변환 해결 (번역 시리즈2) 이전 포스트는 googletrans 라이브러리를 이용하여 데이터프레임 안에 있는 데이터를 한 번에 한영/영한 변환 하는 방법을 다뤄보았습니다. 번역기 사용 중 API Ban 이슈 발생하여 한영 dictionary 를 cache file 에 저장하여 사용하는 우회 방식을 선택해 진행해보았습니다. 0. Issue / Things to Consider 2021.3 API ban 하는 이슈 발생 → 우선 exception 발생하는 경우 API reinitialize 해서 우회 하는 방식 으로 진행 (time.sleep 안 통함) Colab 환경에서 테스트 하였기 때문에, 런타임 초기화로 API reinitialize 가능 stability 위해서는 Google's official translation API 사.. 더보기 [python] googletrans 구글 번역 무료 API로 데이터프레임 한영 번역/변환을 한번에 (번역 시리즈1) 구글 번역 API (googletrans)를 통해 데이터 프레임(dataframe)을 한글 영어/외래어 변환하는 모듈을 개발 하였습니다. 한 문장 한 문장을 실시간 번역하는 예시는 많이 나와있습니다. 이건 다른 포스트에서 다뤄보겠습니다. 전체 데이터 프레임에 있는 데이터들을 한 번에 번역하고 싶어 개발하게 되었습니다. 0. 개발 배경 건설 회사 견적 품명 데이터를 의뢰 받았는데, 한글과 영어가 혼재되어 있어 통일 필요 샘플 데이터를 받았던 상황이었으므로 분류 모델에 필요한 학습 데이터 부족 -> 따라서 data augmentation (데이터 증강) 의 방법으로 사용 1. 패키지 설치 !pip install googletrans==4.0.0-rc1 # package version update import.. 더보기 이전 1 다음