R은 사용해본적은 없지만 통계 관련된 기능이 많다고 들었습니다.
파이썬은 판다스라는 라이브러리가 데이터 분석을 하는데 많이 사용된다고 합니다.
사용하기가 간편하다보니 배우기도 쉽습니다.
AI 관련해서도 파이썬을 많이 활용한다고 합니다.
하둡은 많은 양의 데이터를 분산 처리 하기 위해서 사용합니다.
한개의 고성능 서버를 사용해도 되지만 일정량이 넘어가면 분산처리가 더 빠르다고 책에서 공부했던 기억이 납니다.
스파크는 사용해본적이 없지만 빠르게 연산을 하기 위해 사용한다고 들었습니다.
SQL은 데이터를 분석한다기 보다는 데이터를 저장하고 가져오는 데이터베이스 문법입니다.
제가 알기로는 R + 하둡 조합을 사용하거나 스파크까지 사용하는 경우가 많다고 들었습니다.