EMR 6 버전 출시 (Hadoop 3.0, Hive LLAP, Spark3.0 지원)

EMR 6 버전 출시 (Hadoop 3.0, Hive LLAP, Spark3.0 지원)

아주 오랜만의 포스팅.

EMR 6.0

너무 늦은감이 있지만 EMR 6버전이 새로 출시되었다.

찾아보니 올해 4월에 출시가 되었는데… 무려 7개월만이다.
(https://aws.amazon.com/ko/about-aws/whats-new/2020/04/amazon-emr-announces-emr-release-6-with-new-major-versions-hadoop-hive-hbase-amazon-linux-2-docker/)

주된 내용은 하둡 3.0 지원, 스파크를 Docker 환경에서 돌릴수 있도록 지원, Hive LLAP 지원 등이 있다. EMR이 Hadoop 버전 업데이트를 꽤 늦게 따라가는 감이 있었지만 이번에 대규모로 업데이트가 되는 듯 하다. (하둡 3.0은 작년 5월에 나왔다.)

EMR 6.1

이렇게 4월에 6.0이 나오고 11월인 지금은 6.1 버전이 나와있는데 6.1 버전에도 대규모 변경이 있다. 자세한 내용은 여기(https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-whatsnew.html) 참고.

6.1버전과 5.31버전이 동시에 나왔는데 워낙 내용이 많지만 개인적으로 중요한 내용을 꼽자면

  1. Managed Scaling
  2. Spark 3.0 추가
  3. flink 추가(6.0에는 왜 없었는지를 모르겠다. 5버전에는 있음)
  4. Tensorflow 2.1 추가

spark 2.4버전에서 3.0으로 넘어오면서 업데이트된 특징은 이 글(https://nephtyws.github.io/data/whats-new-in-spark-3/?fbclid=IwAR21yLNh9iUEh-ogS1MlvjYWLNfjadD50-zDuQ4wy_8wMNxhl8Is0GiPIIQ)에서 잘 설명해 주신 것 같다.

EMR 관련해서는 앞으로 포스팅을 좀 더 열심히 해봐야겠다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×