저도 공부한지 오래되어 약간의 오류는 있을 수 있습니다.
하둡은 간단하게 여러곳에 데이터를 저장하는 데이터 저장소 같은 것으로 생각하시면 됩니다.
하이브는 하둡에 있는 데이터를 분석하기 위한 도구로 보시면 됩니다.
분산되어 있는 데이터를 효율적으로 가져와서 분석하는 도구로 보면 됩니다.
스파크는 데이터를 메모리와 같은곳에 올려 놓고 빠르게 분석하는 도구로 알고 있습니다. (이부분은 저도 잘 ^^;;)
이 3개를 다 배워야하는 이유는 많은 곳에서 이런 시스템을 사용하고 있기 때문입니다.
데이터베이스 쪽은 경력직이 많기는 합니다.
특히나 데이터베이스는 신입이 들어가기에는 어려운 부분이 있습니다.
제가 들었던 사례중 하나는 대기업 계열사에 신입사원이 프로젝트 도중 테이블을 드랍시키는 사건이 있었다고 들었습니다.
물론 신입사원에게 드랍 권한을 준것자체도 문제이긴 합니다.