LionKing数据科学专栏

购买普通会员高级会员可以解锁网站精华内容且享受VIP服务的优惠

想要查看更多数据科学相关的内容请关注我们的微信公众号知乎专栏

返回上一页

Spark练习题(Spark problems)

Spark基本用法练习题

Q:对于一些文件,计算以各个字母开头的单词的平均长度。不考虑大小写。

需要购买高级会员登录后刷新该页面查看

Q:对于一些文件,计算每个字母出现的次数。不考虑大小写。

需要购买高级会员登录后刷新该页面查看

Q:有两个csv文件,第一个文件存了name, age, country三个属性,第二个文件存了name, city两个属性。将两个文件结合起来,要求只保留name在两个文件都出现的记录,并将它们的name, age, country, city合并在一起,类似SQL中的inner join。

需要购买高级会员登录后刷新该页面查看

Spark操作数据库练习题

Q:Temperature.log存储了date, temperature,其中date的格式为字符串,temperature的格式为整数。计算第二高的温度,如果有多个相等的最大值,选取次大的值。

下载Temperature.log文件

需要购买高级会员登录后刷新该页面查看

Spark进行操作机器学习练习题

Q:用Spark重复逻辑回归页面中的例子。

下载训练数据 下载测试数据

需要购买高级会员登录后刷新该页面查看

Q:用Spark实现k-means算法页面中的例子。

下载数据

需要购买高级会员登录后刷新该页面查看

更多Spark相关问题见本网站论坛Spark版面

 

更多面试问题见面试真题汇总

想要查看更多数据科学相关的内容请关注我们的微信公众号知乎专栏