홈
태그
방명록

분류 전체보기 (38)

ABOUT ME

-

트위터
인스타그램

Today: -

Yesterday: -

Total: -

ML STUDY LOG ML STUDY LOG

컨텐츠 검색

한국어데이터

(AI Hub) 한국어 글자체 데이터셋 파이썬으로 불러오기
기타 2021. 8. 1. 22:50

0. Intro 간단한 ocr 모형이 필요한데, 대부분의 ocr 엔진이 유료이고 Tesseract는 인식률이 너무 안 좋았다. 그래서 직접 만드려고 한국어 글자 데이터셋을 검색하니 AI Hub에서 무려 무료로! 방대한 한국어 글자체 이미지를 배포하고 있었다. 손글씨 370만장, 인쇄체 280만장, 실사 이미지 10만장이나 되며, 그 용량은 압축 상태가 200Gb가 넘는다. 조금 짜증스러운 점은.. 다운 받기 위한 프로그램을 설치해야 하고, 이어받기(?) 기능이 없어, 한 번 프로그램을 잘못 종료하면 처음부터 다시 받아야 한다. (내가 당했다..) 인쇄체에서 지원되는 글자체(폰트)는 다음과 같은 50개나 된다. 전체 데이터는 다음과 같이 크게 손글씨, 인쇄체, 실사 데이터셋으로 구분돼있다. 각각의 데이터셋..

이전

1

다음

인기포스트

ABOUT ME

LINK

ADMIN

admin 글쓰기

Designed by Tistory.

티스토리툴바