有一个属于自己的空间还是很有必要的,我会尽我最大的努力来完善这里、充实这里,这也是我第一篇的博客。我的博客主要记录学习工作方面的东西,如果有可能也会记录一些生活的点滴,希望能带给你一些帮助和收获!

阅读全文 »

Excel VBA学习——数组和字典

前言

数组和字典也是VBA的常用到数据类型之一。

事实上,字典不是VBA内置的类型,它是Windows脚本语言的。但其实字典在VBA中也是非常重要的,它非常适用于需要进行非重复性数据的操作。


阅读全文 »

Excel VBA学习——数据类型

前言

与其它的编程语言一样,VBA也有它自己的数据类型。讲到数据类型,就离不开“变量”与“常量”这两个概念,变量与常量,都是用于保存数据的。顾名思义,“变量”是会变的,即它的值是可以改变的;而常量,则它的值通常是固定不变的。

为什么要定义数据类型:

  • 定义合适的数据类型可以节省内存空间,提高程序运行的效率;
  • 便于程序进行计算(数值型)和其它使用(非数值型);
阅读全文 »

Excel VBA学习——入门

前言

宏[macro]:一组可以自动执行的代码[vba]

  • 优点:重复执行相同的操作,可以考虑用宏;
  • 缺点:不够智能,无法交互工作,代码冗余;

解决方案:vba


阅读全文 »

前言

项目取数过程中遇见文件大小超过最大范围的时候,此时想着通过切割文件的方式来解决,最后找到了split命令,这里记录下来使用方法方便下次使用。

阅读全文 »

前言

项目上有时候需要发送http请求并获取返回的Json结果,这里记录下请求和接受返回的方法。

阅读全文 »

前言

在使用CDH集群时,总会遇到在集群外的服务器想访问大数据集群的服务的情况(例如第三方服务的服务器),这时候又不想添加到CDH集群中管理,这时可以在集群外不通过CM部署一个新的Gateway节点。

阅读全文 »

🌈RDD算子

Spark RDD算子一览:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
++                    first                    max                  take
aggregate flatMap min takeAsync
barrier fold name takeOrdered
cache foreach partitioner takeSample
canEqual foreachAsync partitions toDF
cartesian foreachPartition persist toDS
checkpoint foreachPartitionAsync pipe toDebugString
coalesce getCheckpointFile preferredLocations toJavaRDD
collect getNumPartitions productArity toLocalIterator
collectAsync getStorageLevel productElement toString
compute glom productIterator top
context groupBy productPrefix treeAggregate
copy id randomSplit treeReduce
count intersection reduce union
countApprox isCheckpointed repartition unpersist
countApproxDistinct isEmpty sample zip
countAsync iterator saveAsObjectFile zipPartitions
countByValue keyBy saveAsTextFile zipWithIndex
countByValueApprox localCheckpoint setName zipWithUniqueId
dependencies map sortBy
distinct mapPartitions sparkContext
filter mapPartitionsWithIndex subtract