PDF 파일에서 텍스트 추출하기
각 프로그래밍 언어마다 라이브러리를 통해서 PDF 파일에서 내용 추출하는 것이 가능한데
라이브러리 대부분이 그냥 페이지 내에 있는 모든 텍스트를 가져오는 식이더라구여...
영역을 지정해서 텍스트를 추출한다던가 이런 방식은 없는건지.. 알고싶습니다!!
55글자 더 채워주세요.
3개의 답변이 있어요!
C#에서 pdf box라는 라이브러리를 사용한적이 있습니다.
제가 알기로는 본래 자바라이브러리 입니다.
당시에 한글추출과, 영역추출이 가능해서 사용했습니다.
PDFTextStripperByAreas 객체를 사용하며
우선 페이지를 지정하구요, rectangle을 하나 지정하여 해당영역 글자를 가져올 수 있습니다.
검색키워드는 pdfbox library 입니다.
pdf 파일 내용중 텍스트를 드래그해서 복사 붙여넣기 식으로 가져올수 있습니다. 상용 제춤의 OCR 기능을 이용하여 텍스트를 추출 하거나 오픈소스로 OCR 기능을 만들어 추출 할수 있습니다. 웹에서 pdf 뷰어를 사용하여 pdf 파일을 오픈하고 코멘트를 다는 기능도 있고요 foxit 라고 검색하면 sdk도 제공 하니 기술문서를 한번 참조해 보세요
안녕하세요 질문자님.
파이썬의 모듈에서 전체부터 끝까지 추출도 가능하지만, 특정라인부터도 출력가능합니다.
이때 라인에 특정 단어가있다면 그 라인만 출력또한 가능합니다.
영역이라하면 특정라인으로 지정해서 출력하시면될것같습니다.
모듈명은 pypdf라는 모듈이나 pyminer를 받아서 사용하시면됩니다.