아주 오랜만의 포스팅.
EMR 6.0
너무 늦은감이 있지만 EMR 6버전이 새로 출시되었다.
찾아보니 올해 4월에 출시가 되었는데… 무려 7개월만이다.
(https://aws.amazon.com/ko/about-aws/whats-new/2020/04/amazon-emr-announces-emr-release-6-with-new-major-versions-hadoop-hive-hbase-amazon-linux-2-docker/)
주된 내용은 하둡 3.0 지원, 스파크를 Docker 환경에서 돌릴수 있도록 지원, Hive LLAP 지원 등이 있다. EMR이 Hadoop 버전 업데이트를 꽤 늦게 따라가는 감이 있었지만 이번에 대규모로 업데이트가 되는 듯 하다. (하둡 3.0은 작년 5월에 나왔다.)
EMR 6.1
이렇게 4월에 6.0이 나오고 11월인 지금은 6.1 버전이 나와있는데 6.1 버전에도 대규모 변경이 있다. 자세한 내용은 여기(https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-whatsnew.html) 참고.
6.1버전과 5.31버전이 동시에 나왔는데 워낙 내용이 많지만 개인적으로 중요한 내용을 꼽자면
- Managed Scaling
- Spark 3.0 추가
- flink 추가(6.0에는 왜 없었는지를 모르겠다. 5버전에는 있음)
- Tensorflow 2.1 추가
spark 2.4버전에서 3.0으로 넘어오면서 업데이트된 특징은 이 글(https://nephtyws.github.io/data/whats-new-in-spark-3/?fbclid=IwAR21yLNh9iUEh-ogS1MlvjYWLNfjadD50-zDuQ4wy_8wMNxhl8Is0GiPIIQ)에서 잘 설명해 주신 것 같다.
EMR 관련해서는 앞으로 포스팅을 좀 더 열심히 해봐야겠다.