如下,索引的写法支持带*的泛匹配,log_time为日志里面自定义传过来的时间,[email protected] indexname-*/_count {"query": { "bool": { "must": { "regexp": { "message&qu...
每次yarn跑spark程序如果有异常,而又想看更多的日志的时候,就会很烦,日志如果太多的话,会刷新很久很久才会到最新的,这时候如果不想登机器看日志,只想web查看的话,可以通过如下方法快速定位到最近的日志:就是查看日志的url后面有一个start=的参数,默认是start=0,试了几次才发现,这个值不是行数也不是时间,而是大小,看Log Length是多大,然后适当的进行计算,就可以得到想...
说明一般来说,大数据集群的HDFS会有多个存储节点,每个存储节点会配置多个目录(一个磁盘挂载一个目录),这样组成一个m*n的存储池子,速度和可靠性都不错,用一段时间后,随着业务增长,HDFS就不可避免的需要扩容,扩容的操作比较简单,就是每个节点添加磁盘,然后挂载目录,修改HDFS配置,重起服务即可。这时候磁盘空间是出来了,但是HDFS并不会主动平衡,也就是之前存满的目录还是满的,告警还是会有...
问题集群是以前搭建的,发现报了个这样的错误,Kerberos异常,搜了一下资料,发现是host映射的问题,/etc/hosts里面写的主机名是大写,然后cdh里面组集群用的大写主机名,kerberos使用的主机名又是小写,所以导致这个问题。处理方法在集群所有节点下的/etc/hosts里面有大写主机名的(报错的基本都是大写),在前面全部添加一个小写的,大写不动(原大写的删除了会影响集群通信)...
现象kafka连接即使客户端配置了ip+端口的方式,也会出现连接超时(大约5min),在hosts上面手动指定kafka的主机和ip后就正常了常规处理方法1、客户端写host(如果客户端多的话,会很繁琐,不推荐)2、添加DNS(如果有内部DNS的话,推荐)3、网上说的修改kafka服务器如下配置,实际上CM集成的kafka修改配置重启后并没有效果#/opt/cloudera/parcels/...