数据导入与导出

### 使用Sqoop导入导出数据

**Sqoop**（SQL-to-Hadoop）是一个用于在Hadoop和关系型数据库（如MySQL、Oracle等）之间高效传输大量数据的工具。它支持数据的导入（从RDBMS到HDFS）和导出（从HDFS到RDBMS）。

#### 导入数据

1. **安装和配置Sqoop**：
   - 确保Hadoop环境已经搭建好，并且Sqoop已经安装。
   - 配置`sqoop-site.xml`文件，指定数据库连接信息。

2. **导入命令示例**：
   ```shell
   sqoop import \
     --connect jdbc:mysql://database_host/dbname \
     --username db_username \
     --password db_password \
     --table tablename \
     --hive-import \
     --hive-table hive_table_name \
     --fields-terminated-by ',' \
     --lines-terminated-by '\n' \
     --null-string '\\N' \
     --null-non-string '\\N'
   ```
   这个命令会将MySQL数据库中的`tablename`表导入到HDFS，并可选地导入到Hive表中。

#### 导出数据

1. **导出命令示例**：
   ```shell
   sqoop export \
     --connect jdbc:mysql://database_host/dbname \
     --username db_username \
     --password db_password \
     --table tablename \
     --export-dir /path/to/hdfs/data \
     --input-fields-terminated-by ',' \
     --lines-terminated-by '\n'
   ```
   这个命令会将HDFS上指定路径的数据导出到MySQL数据库的`tablename`表中。

### 使用Flume收集日志数据

**Flume**是一个分布式、可靠且可用的服务，用于有效收集、聚合和移动大量日志数据。它非常适合实时日志数据收集。

1. **安装和配置Flume**：
   - 下载并安装Flume。
   - 配置`flume.conf`文件，指定数据源（如日志文件）、数据通道（Channel）和数据目的地（如HDFS）。

2. **配置文件示例**：
   ```properties
   # Define the sources, channels, and sinks
   agent.sources.r1.type = exec
   agent.sources.r1.command = tail -f /path/to/logfile.log
   agent.channels.c1.type = memory
   agent.sinks.k1.type = hdfs
   agent.sinks.k1.hdfs.path = /path/in/hdfs
   agent.sinks.k1.hdfs.fileType =DataStream
   agent.channels.c1.capacity = 1000
   agent.channels.c1.transactionCapacity = 100
   # Bind the sources and sinks to the channels
   agent.sources.r1.channels = c1
   agent.sinks.k1.channel = c1
   ```

3. **启动Flume**：
   ```shell
   flume-ng agent --conf /path/to/flume.conf --conf-file /path/to/flume.conf -Dflume.root.logger=INFO,console
   ```
   这个命令会启动Flume代理，根据配置文件中的设置收集日志数据并存储到HDFS。

### 使用Oozie工作流调度

**Oozie**是一个工作流调度系统，用于管理Hadoop作业。它支持多种类型的作业，包括MapReduce、Pig、Hive等。

1. **安装和配置Oozie**：
   - 确保Hadoop环境已经搭建好，并且Oozie已经安装。
   - 配置Oozie服务，使其能够与Hadoop集群通信。

2. **创建工作流定义**：
   - 编写XML格式的工作流定义文件（`workflow.xml`），定义作业的执行顺序和依赖关系。

3. **工作流定义示例**：
   ```xml
   <workflow-app name="example-workflow" xmlns="uri:oozie:workflow:0.5">
     <start to="hive-node"/>
     <action name="hive-node">
       <hive xmlns="uri:oozie:hive-action:0.5">
         <script>query.hql</script>
       </hive>
       <ok to="end"/>
       <error to="fail"/>
     </action>
     <kill name="fail">
       <message>Workflow failed</message>
     </kill>
     <end name="end"/>
   </workflow-app>
   ```

4. **提交和运行工作流**：
   ```shell
   oozie job -config workflow.properties -run
   ```
   这个命令会根据提供的配置文件提交并运行工作流。

这些工具和服务在Hadoop生态系统中扮演着重要的角色，它们使得数据的导入导出、日志收集和工作流调度变得更加高效和可靠。