Kubernetes测试nvidia nccl(IB+GPU)

后续会验证gpu-operator和network-operator的使用 环境kubernetes:1.30 IB驱动版本:MLNX_OFED_LINUX-24.10-1.1.4.0 驱动查看 $ ofed_info -s MLNX_OFED_LINUX-24.10-1.1.4.0 rdma-share-device-plugin安装目前使用的版本应该1.5.2,我直接使用的master分...

Istio外部流量引入

最近公司产品在适配 openshift 平台,想要弃用掉外部 nginx 的代理,决定使用 redhat 认证过的 serviceMesh 来做代理,也就是将k8s集群外部的流量引入集群内。 istio 的 ServiceEntry CRD有这个能力,原理与 svc 和 endpoint 是一样的,将外部流量作为 endpoint 引入 ServiceEntry 中,并赋予自定义域名,就像集...

cert-manager部署和使用

cert-manager是应用于 kubernetes 集群内,用于管理 ssl 证书的组件,包括自签证书和CA机构颁发和续签证书,使用者创建后无需关注证书后续到期时间。初次接触的用户,不要理解为 k8s 的内部 apiserver 证书,这个证书是传递给 ingress、istio等网关给 k8s 内部服务使用 https 暴露应用使用的。 安装https://cert-manager.i...

k8s容器内存递增问题排查

公司内所有服务基本容器化结束,全都是Java,所以内存显得也尤为重要,有部分服务的内存交给了开发优化,优化之后,发现容器监控层面的wss会持续增长。这里说下内存的wss和rss,其实之前我也不懂,涉及以下几个概念。 VSS:Virtual Set Size 虚拟耗用的内存(包含与其他进程共享占用的虚拟内存),说实话我查到的资料,这个统计的内存没用,所以没看。RSS:Resident Set...

Kubernetes控制HPA生效时间

对于 Java 等需要预热的语言与框架而言,在容器刚启动的时候,有可能会出现分钟级别的CPU、内存飙高,其可能会造成HPA的误触发。 上面这句原话出自阿里云ACK服务文档,确实也是我在生产中遇到的问题,cpu 给高了吧,有点浪费资源,给低了吧,每次发版启动时就会触发 HPA,也会一直告警,很烦,一开始我以为配置在 HPA 里面,把 HPA 的文档都泛滥了,甚至对于 HPA 的使用更深了,也没...

Kubernetes生产节点缩容方案

受疫情影响,公司收益也大受影响,从我入职以来一直在进行成本缩减,不要问,问就是我没被裁。现在已经轮到 k8s 节点倒霉了,要准备对几台节点进行裁员,由我来进行方案定制 Kubernetes生产节点缩容方案 worker节点数 14 单节点 16c64g 评估各节点 pod 数量和资源使用情况,根据综合比使用各项资源最少的进行缩减规划工作,尽量减少 pod 驱逐后最小化对业务的实际影响,...

关于容器业务返回308的问题

最近在做 k8s 容器下云的迁移,今天切换域名之后,业务 api 出现308 状态码,我们的环境是:公网负载ip -> nginx -> ingress -> pod,刚开始排查思路一直在 k8s 集群外部,一直无法定位到原因,即使 google 对 308 也是毫无头绪。 后来也想到之前的 ingress 用的阿里云 ACK 自带的,和 ingress-nginx 不同,...

记一次解决Nginx405

我的环境是 LNMP 部署的 wordpress,在 wordpress 后台新建页面再输入标题的时候,报错如下 通过使用 google 检查工具查看到一个链接地址为 405 状态码,且为 post 请求链接,然后开始查询 405 所代表的问题。最终定位结论为 Nginx 默认是不允许 post 访问静态资源。 405 表示 Not Allowed 网络上的解决方法五花八门,我这里采用了,...

WordPress上传模版大小限制

最近老板找外援做了网页模板,给到技术部后是一个后缀为 wpress 的 wordpress 模版,大小为1G

我参考本站文章 CentOS搭建WordPress个人博客 进行搭建

LNMP 环境部署 WordPress

Jenkins临时目录磁盘已满

继上次 Jenkins报错No-Space-left-on-device 之后,磁盘问题它又来了,Jenkins 在每次执行构建的时候都会在 /tmp 目录下创建一个临时脚本用来执行构建,如下的样子

Maven构建子模块

本文适用于大项目中有多数依赖模块的场景,不相互依赖的场景指定模块 pom.xml 构建即可。 maven 项目子项目多,构建时间长,每次构建时,进入项目目录执行 mvn clean intall ,即使在CICD脚本中也是如此。 构建时,每次只进行了一次小小的改动,也只发版其中一个子模块,就要将整个所有项目全部构建一遍,相当的耗费时间。为了节省构建时长,同时也为了减轻一些不必要的资源浪费,最...

Maven的mirrorOf配置

背景:Jenkins 迁移服务器后,maven 编译 Java 项目报错 Cannot resolve xxxxx 在 maven 的配置文件 setting.xml 中已经配置了 aliyun 仓库,配置如下: <mirror> <id>aliyun maven</id> <name>aliyun<...

Jenkins报错No Space left on device

Jenkins 构建时报错:No Space left on device

今天遇到一个 Jenkins 宿主目录所在磁盘容量不足的问题,如果在这种情况下,开始切换目录,jenkins 服务重启是成功的,我这里出现的问题是服务可以正常启动,端口起不来,/var/log/jenkins/jenkins.log 没有任何输出,解决方法就是先将 workspace 内不需要的项目删一下,然后在开始切换目录。

以下是 Jenkins 2种情况下切换目录的方法

MySQL使用insert方式备份表

前两天公司开发要求测试环境数据库删除一条数据,无论是生成还是测试环境删除之前都要做备份,但是考虑到只是单个表,使用 mysqldump 有点大可不必,所以采用了 insert 来复制表。 首先创建一个与旧表相同结构的空表,包括主键和自增等(可以使用 describe table_name 查看表结构) create table new_table like old_table; 将旧表的数据...

elasticsearch只保留当天的数据

Elasticsearch 是 ELK 日志架构中的搜索工具,现在需求是不需要保存那么长时间,只需要保留当天的数据,本文将要使用 ES 官方推荐的 elasticsearch-curator 工具来达到需求。 安装 curatorpip install elasticsearch-curator 安装后,便可以在命令行中直接使用,使用 --help 查看一下使用方法 # 默认读取的是...




正在载入...
PoweredHexo
HostedAliyun
DNSAliyun
ThemeVolantis
UV
PV
BY-NC-SA 4.0