Spark2.x写Hbase1-2.x

yixiaoqi00

2020-04-22

import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.mapreduce.Job
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.{SparkConf, SparkContext}


/**
  * Spark写HBase
  */
object SparkWriteHbase {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("SparkWriteHBase").setMaster("local")
    val sc = new SparkContext(conf)
    val tableName = "student"


    sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE, tableName)

    val job = new Job(sc.hadoopConfiguration)

    job.setOutputKeyClass(classOf[ImmutableBytesWritable])
    job.setOutputValueClass(classOf[Result])
    job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])



    val inDataRDD = sc.makeRDD(Array("3,Rongcheng,M,26","4,Guanhua,M,27"))

    val rdd = inDataRDD.map(_.split(",")).map(arr=>{
      val put = new Put(Bytes.toBytes(arr(0)))
      put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("name"),Bytes.toBytes(arr(1)))
      put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("gender"),Bytes.toBytes(arr(2)))
      put.addColumn(Bytes.toBytes("info"),Bytes.toBytes("age"),Bytes.toBytes(arr(3)))
      (new ImmutableBytesWritable(),put)
    })

    rdd.saveAsNewAPIHadoopDataset(job.getConfiguration)


  }

}

bytes apache info hadoop

yixiaoqi00

0 关注 0 粉丝 0 动态

相关推荐

谈谈对Golang IO读写的困惑

Golang的IO读写提供了很多种方式，目前本人知道的有io库、os库、ioutil库、bufio库、bytes/strings库等。虽然库多是一件好事，意味着选择性多，但让我困惑的一点是：什么场景下该用哪个库？// Write 方法同样接收一个字节数组p

hjr 2020-09-15

浅谈入门级oracle数据库数据导入导出步骤

Oracle数据库是通过表空间来存储物理表的，一个数据库实例可以有N个表空间，一个表空间下可以有N张表。表空间是数据库的逻辑划分，每个数据库至少有一个表空间。

FightFourEggs 2020-08-16

oracle 11g修改归档日志目录及大小

NAME TYPE VALUE. ------------------------------------ ----------- -----------------------

踩风火轮的乌龟 2020-07-26

Linux物理机添加新磁盘并格式化

设备 Boot Start End Blocks Id System. /dev/sda1 2048 1953523711 976760832 f W95 Ext‘d . 磁盘

xiyoukeke 2020-07-19

服务器断电导致的ORACLE异常 : ORA-00214 ORA-01033 ORA-01034 ORA-00172 ORA-27101

工作环境中的集群迁移之后，oracle出了挺多问题，最开始一直没找到原因，后来发现做迁移的人是冷迁移的，且数据库节点是硬关机的，惊了（。ORACLE 例程已经启动。数据库装载完毕。ORA-01151：如需要，请使用介质恢复以…SQL> recover

xwb 2020-07-19

Linux 物理内存外碎片化浅析

Linux物理内存碎片化包括两种：。例如进程需要使用3K bytes物理内存，于是向系统申请了大小等于3Kbytes的内存，但是由于Linux内核伙伴系统算法最小颗粒是4K bytes，所以分配的是4Kbytes内存，那么其中1K bytes未被使用的内

拿什么来拯救自己 2020-07-07

Python字符串前缀u、r、b、f含义

前缀u表示该字符串是unicode编码，Python2中用，用在含有中文字符的字符串前，防止因为编码问题，导致中文出现乱码。另外一般要在文件开关标明编码方式采用utf8。在普通字符串中，反斜线是转义符，代表一些特殊的内容，如换行符\n。注意不能在原始字符串

yjsflxiang 2020-07-04

常用维护命令

用于显示Shell内部命令的帮助信息。对于外部命令的帮助信息只能使用man或者info命令查看；仅包括命令格式；在Shell脚本中可以终止当前脚本执行。执行exit可以使Shell以指定的状态退出。执行ping指令会使用ICMP传输协议，发出要求回应的信息

luobotoutou 2020-06-16

PHP: POST Content-Length of xxx bytes exceeds the limit of 8388608 bytes【转】

用户上传了 4 个附件，每个小于 5M，但是总大小超过了 15 M。在 Nginx 日志中找到了如下错误信息，还没有到 Laravel 日志那一层。2018/08/13 10:14:38 [error] 8326#8326: *11432788 FastC

JF0 2020-06-13

python学习_011

str 是字符数据,bytes 和 bytearray 是字节数据,它们都是序列, 可以进行迭代遍历.它们都能使用 str类型的通用函数,比如 find() replace() islower() 等,但不能使用 str的格式化操作。ASCII 码使用

柠檬班 2020-06-11

【LevelDB源码阅读】Arena

内存分配管理器，主要为skiplist即Memtable服务而不是整个项目。申请内存时，将申请到的内存直接放入vector中，在Arena的生命周期结束后，统一释放掉所有申请的内存，内部结构如下图：。避免内存碎片，skiplist里面记录的都是用户传进来的

adwen00 2020-06-09

数据库基础知识

在建立数据库表结构的时候，为了给一个String类型的数据定义一个数据库的数据库类型，一般参考的都是char或者varchar，这两种选择有时候让人很纠结，今天想总结一下它们两者的区别，明确一下选择塔门的理由。MySQL支持多种类型，大致可以分为三类：数值

hitxueliang 2020-06-05

Linux网络配置

　　二进制转换；　　查看是否为同一个网段，需要根据ip地址和掩码一起决定。二进制转换这里不做说明。　　根据ip和掩码来区分，如10.0.7.10/20和10.0.14.11/20是同一个网段，但是10.0.7.10/21和10.0.14.11/21就是不同

PlayerL 2020-06-03

oracle 恢复控制文件

SQL*Plus: Release 19.0.0.0.0 - Production on 星期六 5月 30 18:20:17 2020. 已连接到空闲例程。ORACLE 例程已经启动。数据库装载完毕。

bluet00 2020-05-31

oracle 恢复控制文件

SQL*Plus: Release 19.0.0.0.0 - Production on 星期六 5月 30 18:20:17 2020. 已连接到空闲例程。ORACLE 例程已经启动。数据库装载完毕。

bianruifeng 2020-05-31

记一次Oracle分区表全局索引重建的过程

SELECT Upper "表空间名", D.TOT_GROOTTE_MB "表空间大小", D.TOT_GROOTTE_MB - F.TOTAL_BYTES "已使用空间"

zhangchaoming 2020-05-17

CentOS-基本命令-磁盘管理命令

dd命令的全称为disk dump，对系统所有用户开放。该命令用于复制磁盘的数据块，且可在复制文件的同时指定转换的文件格式。if=FILE:输入文件名称，默认是标准输入。bs=BYTES:同时设置输入／输出的块大小为BYTES个字节。mkswap的全称为m

wennuanwarm 2020-05-11

linux下如何实现快速拷贝大文件

远程拷贝数据的时候，我们一般使用rsync命令，但是如果拷贝大量的小文件，会导致rsync的传输速度慢。使用tar pv lz4打包压缩传输，可以解决这问题，使用这个方法，等同于使用scp、rsync传输大文件。实测，使用rsync传输1200G，单个文件

plusz 2020-05-09

oracle 手工删除数据库

instance_name string THCZY2、一致性关闭数据库SQL> shutdown immediate;Database closed.Database dismounted.O

nan00zzu 2020-05-11

python中理解编码

UTF-8 是针对Unicode的一种可变长度字符编码对中文字符一个字符占3个字节 24bit位。　　　　　　　　　　整型int 浮点型 float 复数complex . b1 = bytes # bytes类型的变量b1，接收bytes类型字符串

liusarazhang 2020-05-01

yixiaoqi00

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号