Cài đặt Hadoop + HBase + Apache Phoenix - BlogDogy

Bài hướng dẫn này đang sử dụng các phiên bản như sau, mình không đảm bảo được rằng nó cũng hoạt động ngon với các phiên bản kế tiếp.

  • Java 8
  • Hadoop 2.7.7: https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz
  • HBase 1.3.5: https://www.apache.org/dyn/closer.lua/hbase/1.3.5/hbase-1.3.5-bin.tar.gz
  • Phoenix 4.13.1: http://archive.apache.org/dist/phoenix/apache-phoenix-4.13.1-HBase-1.3/bin/
  • Snappy 1.1.6: https://github.com/google/snappy/releases

Trong bài viết này, mình sử dụng username có tên là paduvi, các bạn thay nó bằng tên user của riêng mình nhé.

1. Cài đặt Java:

$ sudo apt update $ sudo apt install openjdk-8-jdk

Kiểm tra cài đặt thành công chưa bằng lệnh:

$ java -version

Đặt giá trị JAVA_HOME, sử dụng lệnh sau để lấy đường dẫn của thư mục cài đặt Java:

$ sudo update-alternatives --config java There is only one alternative in link group java (providing /usr/bin/java): /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java Nothing to configure.

hoặc nó sẽ hiện ra như sau:

There are 3 choices for the alternative java (providing /usr/bin/java). Selection Path Priority Status ------------------------------------------------------------ * 0 /usr/lib/jvm/java-11-openjdk-amd64/bin/java 1101 auto mode 1 /usr/lib/jvm/java-11-openjdk-amd64/bin/java 1101 manual mode 2 /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java 1081 manual mode 3 /usr/lib/jvm/java-8-oracle/jre/bin/java 1081 manual mode Press <enter> to keep the current choice[*], or type selection number:

Bổ sung dòng sau vào trong file ~/.bashrc:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$JAVA_HOME/bin

Để hoàn thành thì ta cần thực thi lệnh:

$ source ~/.bashrc

2. Cài đặt Hadoop:

$ cd ~ $ wget http://mirrors.viethosting.com/apache/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz $ tar -zxvf hadoop-2.7.7.tar.gz $ sudo mv hadoop-2.7.7 /usr/local/hadoop

Copy đống sau vào trong ~/.bashrc:

export HADOOP_HOME=/usr/local/hadoop export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_INSTALL=$HADOOP_HOME

Và sau đó ta cần gọi source ~/.bashrc để apply các thay đổi.

$ cd $HADOOP_HOME/etc/hadoop

Toàn bộ file cấu hình của Hadoop đều nằm trong này, ta sẽ lần lượt sửa từng file sau:

2.1. File hadoop-env.sh:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

2.2. File core-site.xml:

<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>

2.3. File hdfs-site.xml:

<configuration> <property> <name>dfs.replication</name > <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/paduvi/hadoopinfra/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/paduvi/hadoopinfra/hdfs/datanode</value> </property> </configuration>

2.4. File yarn-site.xml:

<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>

2.5. File mapred-site.xml:

Trước hết, copy file mapred-site.xml.template sang mapred-site.xml

$ cp mapred-site.xml.template mapred-site.xml

Bổ sung đoạn sau vào trong nội dung file mapred-site.xml:

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>

Kiểm tra xem ổn chưa nè:

$ cd ~ $ hdfs namenode -format

Nếu không có lỗi gì thì ta start hadoop thôi:

$ start-dfs.sh $ start-yarn.sh

3. Cài đặt HBase:

$ cd ~ $ wget http://mirrors.viethosting.com/apache/hbase/1.3.5/hbase-1.3.5-bin.tar.gz $ tar -zxvf hbase-1.3.5-bin.tar.gz $ sudo mv hbase-1.3.5 /usr/local/hbase

Copy đống sau vào trong ~/.bashrc:

export HBASE_HOME=/usr/local/hbase export HBASE_CONF_DIR=$HBASE_HOME/conf export PATH=$PATH:$HBASE_HOME/bin

Và sau đó ta cần gọi source ~/.bashrc để apply các thay đổi.

$ cd $HBASE_CONF_DIR

Toàn bộ file cấu hình của HBase đều nằm trong này, ta sẽ lần lượt sửa theo từng bước như sau. Đầu tiên, sửa file hbase-env.sh:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

Tiếp theo, để chạy thử HBase ở chế độ standalone, ta sửa file hbase-site.xml:

<configuration> // Here you have to set the path where you want HBase to store its files. <property> <name>hbase.rootdir</name> <value>file:///home/paduvi/HBase/HFiles</value> </property> // Here you have to set the path where you want HBase to store its built in zookeeper files. <property> <name>hbase.zookeeper.property.dataDir</name> <value>/home/paduvi/zookeeper</value> </property> </configuration>

Khởi động HBase:

$ start-hbase.sh

Ta thử kết nối tới HBase Server sử dụng HBase Shell, chương trình này sẽ tự động khởi tạo connection tới HBase, với cấu hình sẽ được load từ file $HBASE_CONF_DIR/hbase-site.xml. Nếu các bạn sau này có muốn kết nối tới remote server, thì mình chỉ cần export biến HBASE_CONF_DIR tới thư mục chứa file hbase-site.xml lưu cấu hình remote:

$ hbase shell hbase(main):001:0> hbase(main):001:0> create 'test', 'cf' 0 row(s) in 0.4170 seconds => Hbase::Table - test hbase(main):001:0> quit

Nếu không có lỗi gì xảy ra, thì ta sẽ chuyển sang phần tiếp, đó là lưu vào Hadoop và sử dụng Zookeeper. Ta tạm stop hbase để tránh 1 số lỗi không mong muốn:

$ stop-hbase.sh

Sửa file hbase-env.sh:

# Tell HBase whether it should manage it's own instance of Zookeeper or not. export HBASE_MANAGES_ZK=false

Xóa toàn bộ các property cũ trong file hbase-site.xml đi, thay bằng như sau:

<property> <name>hbase.cluster.distributed</name> <value>true</value> </property> <property> <name>hbase.rootdir</name> <value>hdfs://localhost:9000/hbase</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>localhost</value> </property> <property> <name>hbase.zookeeper.property.clientPort</name> <value>2181</value> </property> <property> <name>zookeeper.znode.parent</name> <value>/hbase-unsecure</value> </property>

Khởi động Zookeeper:

$ hbase-daemons.sh start zookeeper

Khởi động HBase:

$ start-hbase.sh

Nếu thành công, ta sẽ thu được kết quả tương tự như sau:

$ hadoop fs -ls /hbase Found 7 items drwxr-xr-x - hbase users 0 2014-06-25 18:58 /hbase/.tmp drwxr-xr-x - hbase users 0 2014-06-25 21:49 /hbase/WALs drwxr-xr-x - hbase users 0 2014-06-25 18:48 /hbase/corrupt drwxr-xr-x - hbase users 0 2014-06-25 18:58 /hbase/data -rw-r--r-- 3 hbase users 42 2014-06-25 18:41 /hbase/hbase.id -rw-r--r-- 3 hbase users 7 2014-06-25 18:41 /hbase/hbase.version drwxr-xr-x - hbase users 0 2014-06-25 21:49 /hbase/oldWALs

4. Cài đặt Snappy:

Snappy là 1 thư viện được dùng trong Hadoop để nén dữ liệu. Để biết trong máy mình đã có cài đặt Snappy cho Hadoop chưa, ta có thể gọi lệnh sau để kiểm tra:

$ hadoop checknative -a

Trước khi bắt đầu, để đảm bảo toàn vẹn dữ liệu, ta sẽ stop tất cả các service Hadoop và HBase:

$ stop-hbase.sh $ stop-yarn.sh $ stop-dfs.sh $ cd ~ $ wget https://github.com/google/snappy/archive/1.1.6.tar.gz $ tar -xvzf 1.1.6.tar.gz $ cd snappy-1.1.6/ $ mkdir build $ cd build && cmake ../ && make $ sudo make install

Lệnh cuối cùng sẽ generate ra các file libsnappy.so* ở trong thư mục /usr/local/lib/, ta sẽ copy các file này vào trong folder lib của Hadoop:

$ cp /usr/local/lib/libsnappy* $HADOOP_HOME/lib/native/

Cập nhật file ~/.bashrc rồi sau đó chạy source ~/.bashrc:

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$HADOOP_HOME/lib/native/ export JAVA_LIBRARY_PATH=$JAVA_LIBRARY_PATH:$HADOOP_HOME/lib/native/ export HBASE_LIBRARY_PATH=$HADOOP_HOME/lib/native/

Cập nhật file core-site.xml của Hadoop:

<property> <name>io.compression.codecs</name> <value> org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.DefaultCodec, org.apache.hadoop.io.compress.BZip2Codec, org.apache.hadoop.io.compress.SnappyCodec </value> </property>

Khởi động lại Hadoop và HBase:

$ start-dfs.sh $ start-yarn.sh $ hadoop checknative -a $ start-hbase.sh $ hbase shell hbase(main):001:0> create 'snappyTest',{NAME=>'f',COMPRESSION => 'SNAPPY'}

5. Cài đặt Apache Phoenix:

$ cd ~ $ wget http://archive.apache.org/dist/phoenix/apache-phoenix-4.13.1-HBase-1.3/bin/apache-phoenix-4.13.1-HBase-1.3-bin.tar.gz $ tar -xvzf apache-phoenix-4.13.1-HBase-1.3-bin.tar.gz $ cd apache-phoenix-4.13.1-HBase-1.3-bin

Tạm thời stop HBase và copy 1 số file jar vào trong thư mục lib của HBase:

$ stop-hbase.sh $ cp phoenix-core-4.13.1-HBase-1.3.jar $HBASE_HOME/lib/ $ cp phoenix-4.13.1-HBase-1.3-server.jar $HBASE_HOME/lib/

Bổ sung cấu hình sau vào hbase-site.xml:

<property> <name>phoenix.schema.mapSystemTablesToNamespace</name> <value>true</value> </property> <property> <name>phoenix.schema.isNamespaceMappingEnabled</name> <value>true</value> </property>

Khởi động lại HBase và thử kết nối bằng Phoenix:

$ start-hbase.sh $ python sqlline.py

Từ khóa » Cài đặt Hbase