[关闭]
@rickyChen 2017-07-11T03:32:33.000000Z 字数 1054 阅读 2639

Spark on Yarn开发运维过程中遇到的问题汇总

Spark Yarn


  1. 启动nodemanager报错 No space left on device

    使用df -h命令判断nodemanager运行日志和启动日志磁盘空间是否足够。

  2. 使用pyspark读取kafka对应topic数据报错java.lang.NoClassDefFoundError: org/apache/kafka/common/message/KafkaLZ4BlockOutputStream

    • 更改之前

      ./bin/spark-submit --jars lib/spark-streaming-kafka_2.10-1.6.1.jar,lib/kafka_2.10-0.8.2.1.jar,lib/metrics-core-2.2.0.jar --deploy-mode client ./project/stream.py

    • 更改之后

      ./bin/spark-submit --jars lib/spark-streaming-kafka_2.10-1.6.1.jar,lib/kafka_2.10-0.8.2.1.jar,lib/metrics-core-2.2.0.jar,lib/kafka-clients-0.8.2.1.jar --deploy-mode client ./project/stream.py

  3. 使用hdfs balancer显示Another Balancer is running.. Exiting ...

    HDFS HA模式与reblancer不兼容 参考资料

    bin/hdfs balancer -Dfs.defaultFS=hdfs://namenode:8020 -Ddfs.nameservices="" -threshold 10

  4. 使用MaxMindGeoIP解析报错

    java.lang.NoSuchMethodError: com.fasterxml.jackson.databind.node.ArrayNode.(Lcom/fasterxml/jackson/databind/node/JsonNodeFactory;Ljava/util/List;)

    com.maxmind.geoip2 版本需要是 2.5.0,以便和spark本身兼容

    1. <dependency>
    2. <groupId>com.maxmind.geoip2</groupId>
    3. <artifactId>geoip2</artifactId>
    4. <version>2.5.0</version>
    5. </dependency>
添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注