LionKing数据科学专栏

购买会员可以解锁网站精华内容

返回上一页

Spark练习题(Spark problems)

Spark基本用法练习题

Q:对于一些文件,计算以各个字母开头的单词的平均长度。不考虑大小写。

需要购买高级会员登录后刷新该页面查看

Q:对于一些文件,计算每个字母出现的次数。不考虑大小写。

需要购买高级会员登录后刷新该页面查看

Q:有两个csv文件,第一个文件存了name, age, country三个属性,第二个文件存了name, city两个属性。将两个文件结合起来,要求只保留name在两个文件都出现的记录,并将它们的name, age, country, city合并在一起,类似SQL中的inner join。

需要购买高级会员登录后刷新该页面查看

Spark操作数据库练习题

Q:Temperature.log存储了date, temperature,其中date的格式为字符串,temperature的格式为整数。计算第二高的温度,如果有多个相等的最大值,选取次大的值。

下载Temperature.log文件

需要购买高级会员登录后刷新该页面查看

Spark进行操作机器学习练习题

Q:用Spark重复逻辑回归页面中的例子。

下载训练数据 下载测试数据

需要购买高级会员登录后刷新该页面查看

Q:用Spark实现k-means算法页面中的例子。

下载数据

需要购买高级会员登录后刷新该页面查看

更多Spark相关问题见本网站论坛Spark版面

 

更多面试问题见面试题汇总