让学习考试更高效
登录

252Hadoop大数据技术应用复习资料【人工】

188****1021_31318

2025-12-11 19:07:41  276题  

我的错题

(0)

我的收藏

(0)

我的笔记

(0)

离线下载

练习模式
顺序练习

0/276

高频错题

精选高频易错题

模拟考试

随机抽题仿真模拟

题型练习

按题型分类练习

章节练习

按章节分类练习

随机练习

试题顺序打乱练习

历年真题

往年真题/模拟题

学习资料

考试学习相关文档

搜索
填空
处理大量数据的两个主流技术是( )和( )。
填空
Hadoop 生态圈包含那些常用处理技术 ( )和( )。
填空
( )是基于 Hadoop 的一个数据仓库工具,可将结构化的数据文件映射为数据库表,并提供简单 SQL 查询功能,可以将 SQL 转化为 MapReduce 进行运算。
填空
ln 命令用于将指定文件或目录建立( )。
填空
链接文件分( )和( )。
填空
( )命令用于设置用户在创建文件或目录时需要减去的默认权限。
填空
创建普通用户的目的是为了防止误操作造成系统( )。
填空
( )文件是用户管理文件,其中的区域给出了用户名、用户 ID、组 ID 等相关信息。
填空
在 Python 中,布尔类型的值是( )和( )。
填空
Python 可以使用( )和( ) 来表示字符串,引号的开始与结束必须相同类型。
填空
( )函数用于将元组或字符串转换为列表。
填空
在 Python 定义的六个标准类型分别是 Number、String、Tuple、( )、( )和( )。
填空
Python 的基础类型可以分为( )和( )两大类。
填空
大数据的特征是大体量、多样性、( )和( )。
填空
Hadoop 框架的的两个核心是( )和( )。
填空
( )是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为 一张数据库表,并提供类似 SQL 的查询功能,本质是将 SQL 转换为 MapReduce 程序。
填空
HDFS 有高容错性的特点,设计用来部署在低廉的 PC 机上,而且它提供高吞吐量访问应用程序的数据,适合( )的应用程序。
填空
ZooKeeper 是一个开放源码的( )应用程序协调服务。
填空
HBase 是一个开源的( )数据库(NoSQL)。
填空
HDFS 的文件是被划分为一个一个的块为独立存储单,HDFS 默认块大小为( )。
填空
进行 HDFS 负载均衡时,不能导致数据块备份( )。
填空
搭建大数据集群时,( )和 core-site.xml 文件是用于对 HDFS 进行设置的文件。
填空
使用 start-dfs.sh 命令启动集群时会启动( )、( )和( )进程。
填空
大数据集群中,数据会自动保存多个副本,通过增加副本的形式提高大数据集群的( )。
填空
MapReduce 工作流程分为( )、( )、( )、( )和( )。
填空
MapReduce 是用于做( )大数据计算的框架。
填空
Reduce 类主要作用是按 Map 输出的 key 进行分组,并对分组内的 values 值进行( )操作。
填空
使用 start-yarn.sh 命令启动集群时会启动那些进程:( )和 NodeManager。
填空
作为数据仓库工具一般得具备( )和( )的能力。
填空
( )的设计目的是让精通过 SQL 技能,但对 Java 编程技能相对较弱的分 析师能够对存放在 HDFS 中的大规模数据集执行查询。
填空
数据库与数据仓库都是用来存储数据的,它们的实际区别就是( )和( ) 的区别。
填空
( )用来描述将数据从来源端经过抽取、转换、加载至目的端的过程。
填空
Hive 的( )用来记录 ETL 任务的运行状态,并把这些信息统一的 存储记录下来,其目的是为了方便我们对后续的数据仓库的管理以及数据仓库的维护。
填空
网络信息配置后,需要重启网络服务,输入命令( )。
填空
网络服务重启后,我们需要重启虚拟机,输入( )命令进行重启
填空
进入hadoop用户的根目录,使用命令( )生成密钥对
填空
使用cd .ssh/进入.ssh目录,然后使用( )命令将公钥文件id_rsa.pub 中的内容拷贝到相同目录下的authorized_keys文件中。
填空
由于是克隆的,主机还是hadoop1,我们需要修改为hadoop2,使用命令( )修改主机名
填空
使用命令( )配置ip地址映射
填空
MapReduce最早是由( )公司研究提出的一种面向大规模数据处理的并行计算模型和方法
填空
大数据的4V特征包含( )、( )、( )、( )。
填空
脚本一键启动Hadoop集群服务命令是( )
判断
MapReduce 是分布式数据处理和执行环境,用于对大规模数据集进行运算。( )
判断
Sqoop 是一款开源的数据传输工具,主要用于在 Hadoop 与传统的数据库间数据的传递。( )
判断
处理、分析大量数据的技术主要是 HDFS 和 Spark。 ( )
判断
在 Linux 系统中,防火墙主要是用来防病毒的。( )
判断
在 vi 编辑环境下,使用 Enter 键进行模式转换。( )
判断
mv 命令可以移动文件和目录,还可以复制文件。( )
判断
cp 命令用于复制文件,如果想要复制目录,需要加上 r 参数。( )
判断
ln 命令是链接命令,用于同步文件,链接文件分为硬链接和软链接两种。( )
判断
Python 中的变量不需要声明,每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。( )
判断
break 语句用来终止循环语句,可以使用在循环中,也可以使用在循环外。( )
判断
continue 语句用来跳出本次循环,告诉当前循环略过当前语句,然后继续进行一下轮循环。( )
判断
pass 语句是空语句,为了保护程序的结构的完整性,在循环语句中必须要有 pass 语句。( )
判断
在 Python 中,return 语句用于结束当前方法和返回值。( )
判断
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。( )
判断
Hadoop 的框架的两个核心是:HDFS 和 MapReduce。( )
判断
HDFS 是分布式文件系统用于存储数据。( )
判断
HDFS 是分布式计算中数据存储管理的基础。( )
判断
HDFS 以流式数据访问模式来存储超大文件,运行于商用硬件集群上。( )
判断
HDFS 是以通过移动计算而不是移动数据的方法来做数据计算的框架。( )
判断
HDFS 的构造思路是,一次写入,多次读取,文件一旦定稿,就不能被修改。( )
判断
MapReduce 是分布式计算框架用于计算数据。( )
判断
分区数量是 ReduceTask 的数据。( )
判断
在 MapRedcue 程序中,必须开发 Map 和 Reduce 相应的业务代码才能执行程序。( )
判断
作为数据仓库工具一般得具备数据存储和提供数据分析两个能力。( )
判断
ETL 工具与 MR 一样,用来做数据处理的工具。( )
判断
数据仓库可以生产数据,也可以消费数据。 ( )
判断
作为数据仓库工具一般得具备数据存储和提供数据分析两个能力。( )
判断
ETL 工具与 MR 一样,用来做数据处理的工具。( )
判断
数据仓库可以生产数据,也可以消费数据。( )
判断
Python中的is运算符用于比较两个变量的值是否相等。
判断
Python中的str()函数可以将对象转化为列表。
判断
Python中的list()函数可以将元组或字符串转换为列表。
判断
Python中的set()函数用于创建一个有序的元素集合。
判断
Python中的break语句只能用在for循环中。
判断
NameNode本地磁盘保存了数据块的位置信息
判断
Python中的continue语句用于立即结束当前循环,并开始下一次循环迭代。
判断
在Python中,可以通过在函数外部声明变量来创建全局变量。
判断
Python中的if-elif-else结构中,elif可以被省略,但else块是必须的。
判断
Python的for循环只能用于迭代列表和元组,不能用于迭代字典。
判断
Python中的pass语句用于表示空操作,它没有任何功能。
判断
在Python中,可以使用==运算符来比较两个列表的内容是否相同。
判断
Python中的tuple()函数可以将列表、字符串、字典、集合转化为元组。
判断
Python中的chr()函数用于将整数转换为对应的ASCII字符。
判断
Python中的ord()函数用于将字符转换为其对应的ASCII码值。
判断
Python中的set()函数创建的集合是有序的。
判断
Python中的dict()函数可以将序列(如列表或元组)转换为字典。
判断
Hadoop这个名字来源于一个孩子给一个棕黄色的大象玩具的命名。
判断
在实际工作中,Hadoop一般需要与RDBMS结合来使用。
判断
Zookeeper可以作为文件存储系统,因此可以将大规模数据文件存在该系统中。
判断
客户端可以在znode上设置watcher,当节点状态发生改变时将会触发watcher所对应的操作。
判断
同步zookeeper目录,使用集群脚本,操作步骤如下:[hadoop@hadoop1 app]$deploy.sh zookeeper-3.4.6 /home/hadoop/app/ slave
判断
各节点服务编号必须不一样!
判断
在集群各个节点创建Zookeeper数据目录和日志目录,需要跟zoo.cfg配置文件保持一致!
判断
HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上
判断
为了整个系统的可靠性,我们通常会在系统中部署两台或多台主节点,多台主节点形成主备的关系,但是某一时刻只有一个主节点能够对外提供服务,当某一时刻检测到对外提供服务的主节点“挂”掉之后,备用主节点能够立刻接替已挂掉的主节点对外提供服务,而用户感觉不到明显的系统中断。这样对用户来说整个系统就更加的可靠和高效。
判断
我们可以到官网(地址:https://archive.apache.org/dist/hadoop/common/)下载Hadoop稳定版本的安装包!
判断
修改hadoop-env.sh配置文,主要配置跟hadoop环境相关的变量,这里主要修改JAVA_HOME的安装目录。
判断
slaves文件是根据集群规划配置DataNode节点所在的主机名
考试宝

拍照搜题、语音搜题、刷题学习

立即下载