@spiritnotes
2016-03-10T15:12:29.000000Z
字数 677
阅读 2205
Spark
Spark使用python3以及ipython notebook
PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ../../bin/pyspark
RDD命令
.cahce()
.collect() 收集执行转为Python对象
.stats() 数据分析
.first()
.take(5)
.sortBy(_[0]) _.rating
.foreach()
.sum()
.count()
.distinct()
.map()
.mapValues()
.flatMap()
.top(k, lambda_)
.join(rdd)
.zip(rdd)
.toMap()
.countByValue()
.groupByKey()
.reduceByKey()
test = data_index.sample(False, 0.2, 42)
train = data_index.subtractByKey(test)
.lookup().head()
.keyBy().lookup
sc.parallelize
rdd.randomSplit([0.6,0.4],seed=15)
.filter()
.zipWithIndex 将数据出现编号
.zipWithIndex().collectAsMap()
scipy.sparse.csc_matrix
np.random.seed(40)
np.linalg.norm函数 获取向量范数,向量的正则化,缩放特征使得向量的范数为1