最近入手了阿里云的学生机,准备搭建一个Spark和Hadoop的分布式集群,记录一下我的“踩坑”过程。第一步是配置阿里云服务器环境,装Java时发现版本不匹配,折腾了半天才搞定 🤦♂️。接着安装Hadoop,配置`core-site.xml`和`hdfs-site.xml`时又遇到问题,日志显示NameNode无法启动,最后发现是端口被占用,果断修改后总算正常运行 🎉。
然后着手Spark配置,下载完Spark后发现需要正确设置Hadoop路径,否则会报错找不到Hadoop库 😅。经过反复调试,终于成功启动Spark Shell,输入`sc.parallelize([1, 2, 3]).collect()`时看到结果 `[1, 2, 3]` 的那一刻,成就感爆棚!🌟
总结下来,搭建集群的关键在于细心检查每一步配置,有问题别急着放弃,多查文档多搜索,相信你也能成功!💪