디지털·가전제품

종이 문서를 텍스트화 하는 가장 효율적인 방법

종이 문서를 엑셀로 만들고 싶은데 기존의 앱들 이용하면 너무 정확성이 떨어지고, AI 활용해봐도 정확도가 그리 높지는 않네요..

방대한 양의 데이터를 문서화할 수 있는 방법이 알고싶습니다!

전문가분들 꿀팁 알려주세요

2개의 답변이 있어요!

  • 저는 집에 북스캐너가 있어서, 그걸로 책을 스캔 했어요.

    책을 고정하는 도구가 있는데, 손으로 책의 하얀 부분을 가려도 자동으로 지워주는 기능이 있어요.

    그리고, 책의 곡률을 계산해서 평평하게 펴주는 기능도 있고요.

    마지막으로 스캔이 된 이미지들을 분석해서 텍스트화시켜주는 OCR 기능도 있어요.

    czur aura pro라는 북 스캐너고, 40만원 정도 해요.

    이렇게 책을 스캔하고난 후, 텍스트화가 된(OCR이 입혀진) pdf 파일을

    복붙해서 텍스트를 긁어오곤 했었는데요.

    오타율이 조금 있긴 했어요.

    이러한 파일을 ai에게 넘겨서 필요한 데이터를 엑셀 파일로 만들어 달라고 요청하는 게 어떨까 싶네요?

    만약 a4 용지처럼 분리될 수 있는 종이 문서라면,

    종이 낱개를 빠르게 스캔하는 전용 스캐너가 있어요.

    근처 프린터 가게에 있을지도 모르겠네요.

    책을 하나씩 스캔하면 책 하나당 1시간 정도 걸리는데,

    종이 낱개를 빠르게 스캔하면 순식간에 방대한 양의 종이 문서를 스캔할 수 있어요.

    그래서 책을 사고 스캔할 때, 책을 낱개로 잘라서 이렇게 스캔하기도 해요.

    이걸 파괴 스캔이라고 말하죠. 책을 자르지 않고 스캔하는 걸 비파괴 스캔이라고 하고요.

    ocr 파일을 만들지 않더라도,

    이미지를 여러 개 인식해서 데이터를 긁어오는 ai 툴이 있다면,

    그걸 써봐도 좋을 거 같네요.

    도움이 되었는지 모르겠네요.

    저도 많은 양의 종이 문서를 텍스트화 해본 적이 없어서,

    그냥 관련 지식을 조금 알려줬어요.

  • 종이 문서를 텍스트화하려면 고해상도 스캔 + OCR + 검수 과정이 가장 효율적입니다 ㅎㅎ

    먼저 300dpi 이상으로 깔끔하게 스캔하고, Adobe Scan이나 Microsoft Lens 같은 OCR 앱을 사용하세요

    그 다음 엑셀로 변환한 후, 꼭 빠르게 검수해서 오류 수정하는 게 중요합니다 ^^

    데이터가 많으면 ABBYY FineReader 같은 전문 OCR이나 엑셀 Power Query 활용하면 훨씬 편해