기타
-
공공데이터포털에서 농촌진흥청 국립농업과학원 농업기상 관측데이터 API 활용하기기타 2021. 9. 3. 01:16
취미로 하는 분석에서 기상 데이터가 필요해졌다. 그래서 농업기상 관측데이터를 가져오기로 했다. 링크: https://www.data.go.kr/data/15078057/openapi.do 사이트에 들어가서 활용신청을 누르고, encodingKey를 얻었다. 프로젝트 디렉토리에 잘 저장을 해두고, 다음과 같이 불러온다. import requests from xml.etree import ElementTree import pandas as pd # get key encodingKey = '' decodingKey = '' with open("./personal/weather.txt", "r") as f: encodingKey = f.readline() decodingKey = f.readline() enco..
-
Kernel died with exit code 1073741845기타 2021. 8. 26. 13:11
주로 VSCODE에서 jupyter notebook extention을 활용해서 데이터 분석을 하는데, 언제부터인가 "Kernel died with exit code 1073741845" 에러가 뜨면서 커널이 안 열리는 것이었다. 아무리 저 키워드로 찾아보고 재설치를 해봐도 고칠 수가 없었다 ... 그래서 터미널에서 직접 jupyter notebook을 실행시켜보았는데, 그것도 작동하지 않더라 그런데 에러코드가 달라져서 달라진 코드로 검색해보고 정답을 찾았다. ipykernel의 jupyter lab과의 충돌 때문이었다! 그래서 다음과 같은 코드를 적어주니 해결 pip uninstall pyzmq pip install pyzmq==19.0.2 나같은 사람이 없도록 공유한다.. 진짜 짜증이었다. --- 아..
-
(AI Hub) 한국어 글자체 데이터셋 파이썬으로 불러오기기타 2021. 8. 1. 22:50
0. Intro 간단한 ocr 모형이 필요한데, 대부분의 ocr 엔진이 유료이고 Tesseract는 인식률이 너무 안 좋았다. 그래서 직접 만드려고 한국어 글자 데이터셋을 검색하니 AI Hub에서 무려 무료로! 방대한 한국어 글자체 이미지를 배포하고 있었다. 손글씨 370만장, 인쇄체 280만장, 실사 이미지 10만장이나 되며, 그 용량은 압축 상태가 200Gb가 넘는다. 조금 짜증스러운 점은.. 다운 받기 위한 프로그램을 설치해야 하고, 이어받기(?) 기능이 없어, 한 번 프로그램을 잘못 종료하면 처음부터 다시 받아야 한다. (내가 당했다..) 인쇄체에서 지원되는 글자체(폰트)는 다음과 같은 50개나 된다. 전체 데이터는 다음과 같이 크게 손글씨, 인쇄체, 실사 데이터셋으로 구분돼있다. 각각의 데이터셋..
-
뽐뿌게시판 컴퓨터 카테고리 제목 크롤링해서 자동으로 가져오기기타 2019. 11. 27. 20:23
블프 시즌을 맞아 컴퓨터를 사려고 뽐뿌를 계속 들어가는데, 직접 일일히 확인하기가 너무 귀찮아서 크롤링 프로그램을 간단하게 만들었다. 이왕 만든김에 포스팅 하려고 두 가지 버전으로 만들었다. 1. BeautifulSoup 스크래핑을 하려는 페이지가 간단할 때 쓰면 좋다. html 문서를 들고와서 그 문서를 분석해서 필요한 내용을 찾을 수 있다. from bs4 import BeautifulSoup import requests # 바로 뽐뿌 컴퓨터 게시판으로 접속한다 r = requests.get('http://www.ppomppu.co.kr/zboard/zboard.php?id=ppomppu&category=4') if r.status_code == 200: # html을 들고와서 bs = Beautif..