한국어데이터
-
(AI Hub) 한국어 글자체 데이터셋 파이썬으로 불러오기기타 2021. 8. 1. 22:50
0. Intro 간단한 ocr 모형이 필요한데, 대부분의 ocr 엔진이 유료이고 Tesseract는 인식률이 너무 안 좋았다. 그래서 직접 만드려고 한국어 글자 데이터셋을 검색하니 AI Hub에서 무려 무료로! 방대한 한국어 글자체 이미지를 배포하고 있었다. 손글씨 370만장, 인쇄체 280만장, 실사 이미지 10만장이나 되며, 그 용량은 압축 상태가 200Gb가 넘는다. 조금 짜증스러운 점은.. 다운 받기 위한 프로그램을 설치해야 하고, 이어받기(?) 기능이 없어, 한 번 프로그램을 잘못 종료하면 처음부터 다시 받아야 한다. (내가 당했다..) 인쇄체에서 지원되는 글자체(폰트)는 다음과 같은 50개나 된다. 전체 데이터는 다음과 같이 크게 손글씨, 인쇄체, 실사 데이터셋으로 구분돼있다. 각각의 데이터셋..