@spiritnotes 2016-03-10T15:12:29.000000Z 字数 677 阅读 2335

Spark基本操作

Spark

Spark使用python3以及ipython notebook

PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ../../bin/pyspark

RDD命令
.cahce()

.collect() 收集执行转为Python对象
.stats() 数据分析
.first()
.take(5)
.sortBy(_[0]) _.rating
.foreach()

.sum()
.count()
.distinct()
.map()
.mapValues()
.flatMap()
.top(k, lambda_)
.join(rdd)
.zip(rdd)

.toMap()

.countByValue()
.groupByKey()
.reduceByKey()

test = data_index.sample(False, 0.2, 42)
train = data_index.subtractByKey(test)

.lookup().head()

.keyBy().lookup

sc.parallelize

rdd.randomSplit([0.6,0.4],seed=15)

.filter()
.zipWithIndex 将数据出现编号
.zipWithIndex().collectAsMap()

scipy.sparse.csc_matrix

np.random.seed(40)
np.linalg.norm函数获取向量范数，向量的正则化，缩放特征使得向量的范数为1