博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop综合大作业
阅读量:5135 次
发布时间:2019-06-13

本文共 339 字,大约阅读时间需要 1 分钟。

 

1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。

由于爬虫大作业做的中文分析词云,所以这里采用下载长篇英文小说 The old man and sea来进行词频统计。

首先要启动dfs:

在hdfs上创建文件夹oldman:

查看hdfs的所有文件

上传到hdfs

打开hive创建oldman数据表

添加数据到oldman数据表

 创建分析表统计

 

 查看分析统计结果

 

 

 

2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

查看前10个数据

 启动hive

 将csv导入到数据表

 显示查看数据

 

转载于:https://www.cnblogs.com/weixingna/p/9085207.html

你可能感兴趣的文章
Bitmap 算法
查看>>
转载 C#文件中GetCommandLineArgs()
查看>>
list control控件的一些操作
查看>>
精读《useEffect 完全指南》
查看>>
SNF快速开发平台MVC-EasyQuery-拖拽生成SQL脚本
查看>>
DrawerLayout实现双向侧滑
查看>>
MySQL入门很简单-触发器
查看>>
LVM快照(snapshot)备份
查看>>
绝望的第四周作业
查看>>
一月流水账
查看>>
数论四大定理
查看>>
npm 常用指令
查看>>
20几个正则常用正则表达式
查看>>
TextArea中定位光标位置
查看>>
非常棒的Visual Studo调试插件:OzCode 2.0 下载地址
查看>>
判断字符串在字符串中
查看>>
hdu4374One hundred layer (DP+单调队列)
查看>>
类间关系总结
查看>>
properties配置文件读写,追加
查看>>
Linux环境下MySql安装和常见问题的解决
查看>>