데이터분석 프로그램들 차이점이 궁금합니다
R 파이썬 하둡 스파크 SQL 등등 데이터분석에
쓰이는 요소들이 많은데 얘네들의 차이점이 뭔가요??
여러개를 쓸수있어야 효율적인 분석을 하는건가요?
아니면 서로가 쓰이는 분야가 아예 다른건가요?? 궁금합니당
각각 사용처가 다릅니다.
R와 파이썬과 SQL은 프로그래밍 언어입니다.
R와 파이썬은 데이터 과학자를 위한 프로그래밍 언어입니다. 그리고 SQL은 데이터베이스를 처리하기 위한 프로그래밍 언어입니다.
하둡과 스파크는 빅데이터 처리를 위한 오픈소스 프레임워크입니다. 빅데이터를 처리하기 위해서는 하나의 컴퓨터로는 안되고 많은 컴퓨터로 처리를 해야됩니다. 이럴때 필요한 프레임워크가 하둡과 스파크입니다.
R과 파이썬으로 하둡과 스파크를 이용해서 빅데이터처리를 위한 프로그래밍을 할 수 있습니다. 데이터베이스의 데이터를 처리 하기 위해서는 SQL로 하둡과 스파크를 이용해서 빅데이터 처리를 할 수 있습니다
R은 사용해본적은 없지만 통계 관련된 기능이 많다고 들었습니다.
파이썬은 판다스라는 라이브러리가 데이터 분석을 하는데 많이 사용된다고 합니다.
사용하기가 간편하다보니 배우기도 쉽습니다.
AI 관련해서도 파이썬을 많이 활용한다고 합니다.
하둡은 많은 양의 데이터를 분산 처리 하기 위해서 사용합니다.
한개의 고성능 서버를 사용해도 되지만 일정량이 넘어가면 분산처리가 더 빠르다고 책에서 공부했던 기억이 납니다.
스파크는 사용해본적이 없지만 빠르게 연산을 하기 위해 사용한다고 들었습니다.
SQL은 데이터를 분석한다기 보다는 데이터를 저장하고 가져오는 데이터베이스 문법입니다.
제가 알기로는 R + 하둡 조합을 사용하거나 스파크까지 사용하는 경우가 많다고 들었습니다.