91久久久久久精品无码一区二区,{做床爱无遮挡免费视频

主頁 > 知識庫 > sqoop讀取postgresql數(shù)據(jù)庫表格導入到hdfs中的實現(xiàn)

sqoop讀取postgresql數(shù)據(jù)庫表格導入到hdfs中的實現(xiàn)

最近再學習spark streaming做實時計算這方面內(nèi)容，過程中需要從后臺數(shù)據(jù)庫導出數(shù)據(jù)到hdfs中，經(jīng)過調(diào)研發(fā)現(xiàn)需要使用sqoop進行操作，本次操作環(huán)境是Linux下。

首先確保環(huán)境安裝了Hadoop和sqoop，安裝只需要下載，解壓以及配置環(huán)境變量，這里不多說了，網(wǎng)上教程很多。

一、配置sqoop以及驗證是否成功

切換到配置文件下：cd $SQOOP_HOME/conf

創(chuàng)建配置環(huán)境文件： cp sqoop-env-template.sh sqoop-env.sh

修改配置文件：conf/vi sqoop-env.sh:修改內(nèi)容如下

配置完成后，執(zhí)行命令sqoop-version ，檢查是否成功，如圖顯示sqoop 1.4.7即成功。

二、添加postgresql驅(qū)動jar包

因為這里使用sqoop讀取postgresql的數(shù)據(jù)，所以需要將數(shù)據(jù)庫驅(qū)動包放到$SQOOP_HOME/lib 下即可。

三、導入pg數(shù)據(jù)庫中表到hdfs中

1、首先要啟動Hadoop集群，不然會報錯

執(zhí)行語句 $HADOOP_HOME/sbin/./start-all.sh

2、執(zhí)行sqoop語句進行數(shù)據(jù)導入到hdfs

sqoop import \

  --connect jdbc:postgresql:localhost:5432/test（數(shù)據(jù)庫的名稱）
  --username postgres (填自己的數(shù)據(jù)庫用戶名)
  --password 888888 （填自己數(shù)據(jù)庫的密碼）
  --table company （自己創(chuàng)建表的名稱）
  --m 1 （mapreduce的個數(shù)）

執(zhí)行結(jié)果如圖：

3、檢查hdfs上是否成功存儲到表數(shù)據(jù)

$HADOOP_HOME/bin hdfs dfs -cat /sqoop/part-m-00000(數(shù)據(jù)目錄改成自己的)

結(jié)果如圖所示：

顯示使用sqoop 將 postgreql上的表格數(shù)據(jù)成功導入到hdfs中，這算今天也有點收獲了！

補充：利用Sqoop從PostgreSQL導入數(shù)據(jù)時遇到的坑

sqoop import \

--connect "jdbc:postgresql://10.101.70.169:5432/db_name" \

--username "postgres" \

--password "123456" \

--table "test_user"\

--target-dir "/user/hive/warehouse/test.db/test_user" \

--fields-terminated-by '\t' \

--lines-terminated-by '\n' \

--hive-drop-import-delims \

--incremental lastmodified \

--merge-key id \

--check-column update_time \

--last-value "2019-03-25" \

--m 1 \

-- --schema "schema_name" \

--null-string '\\N' \

--null-non-string '\\N'

1、-- --schema 一定要放在后面，否則可能導致無運行日志或無法導入數(shù)據(jù)到指定目錄且無法重新執(zhí)行（報目錄已存在）

2、PostgreSQL 須設置SET standard_conforming_strings = on;，否則--null-string和--null-non-string不起作用；

3、--null-string和--null-non-string放在-- --schema后面，否則執(zhí)行時報Can't parse input data: '\N'

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章:

在Hadoop集群環(huán)境中為MySQL安裝配置Sqoop的教程
sqoop export導出 map100% reduce0% 卡住的多種原因及解決
解決sqoop從postgresql拉數(shù)據(jù),報錯TCP/IP連接的問題
解決sqoop import 導入到hive后數(shù)據(jù)量變多的問題
sqoop 實現(xiàn)將postgresql表導入hive表
使用shell腳本執(zhí)行hive、sqoop命令的方法
Sqoop的安裝與使用詳細教程

標簽：蚌埠晉城來賓錦州烏海珠海株洲衡陽

巨人網(wǎng)絡通訊聲明：本文標題《sqoop讀取postgresql數(shù)據(jù)庫表格導入到hdfs中的實現(xiàn)》，本文關鍵詞 sqoop,讀取,postgresql,數(shù)據(jù)庫,；如發(fā)現(xiàn)本文內(nèi)容存在版權問題，煩請?zhí)峁┫嚓P信息告之我們，我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡，涉及言論、版權與本站無關。