首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
1024点线面
掘友等级
大数据架构师
|
郑州
专注 Spark Linux JanusGraph ElasticSearch Hadoop ……
获得徽章 6
动态
文章
专栏
沸点
收藏集
关注
作品
赞
133
文章 110
沸点 23
赞
133
返回
|
搜索文章
1024点线面
关注了
肥茶
VIP.4 融会贯通
大数据架构师 @郑州
1024点线面
大数据架构师 @郑州
·
7天前
关注
ES 8.x的多实例集群搭建与角色规划
ES 8 多实例集群搭建与角色规划 ES 8版本与之前版本存在较大改变,第一个区别就是启动时默认开启了安全模式,也就是即便是测试环境也需要用户名密码和https传输层安全证...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
8天前
关注
ES集群不识别节点SSL证书的问题处理
在启动ES服务并试图加入其他节点上已启动的集群时,出现报错(原文是一大段话,我按语义拆成了几段): 这段日志警告来自Elasticsearch节点node-2-node2,...
赞
评论
分享
1024点线面
大数据架构师 @郑州
·
8天前
关注
ES 8.x的全程编译实践与问题解决
本文整理和记录ES 8.x的编译过程问题与解决方案,主要解决gradle下载问题以及国内源、Hadoop环境设置与hadoop附件缺失、编译时jdk版本指定、esql的co...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
10天前
关注
Spark 3.5.0 特性速览
介绍 Spark 3系列已经发布了第六版3.5.0,目前最新3.5.1。 使用最广泛的大数据可扩展计算引擎。 数以千计的公司,包括 80% 的财富 500 强企业,都在使用...
赞
评论
分享
1024点线面
大数据架构师 @郑州
·
10天前
关注
使用ES检索PDF等文档的全栈方案之前端demo(end)
写在前面 通过之前的系列文章,整个ES搜索文件的流程与大的问题已经统统扫除了,既然是全栈流程,是不能缺少前端查询页面的,前端需简单实现一个用户输入查询关键词句,发起搜索,页...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
13天前
关注
ES查询之细化需求:实现多字段、范围过滤、加权和高亮
在Elasticsearch查询中,多字段、范围过滤、加权和高亮功能的结合使用,对于提升搜索的精准度和用户体验至关重要。 多字段查询能够覆盖更广泛的搜索范围,确保信息的全面...
2
评论
分享
1024点线面
大数据架构师 @郑州
·
14天前
关注
ES解析word内容为空的问题和直接使用Tika解析文档的方案
在上一篇文章,我们虽然跑通了ES文件搜索的全部流程,但是仍然出现了1个大的问题:ES7.3实测无法索引docx和doc文档,content有值但是无法解析到附件成为可读的可...
2
1
分享
1024点线面
大数据架构师 @郑州
·
19天前
关注
基于Git推送更新ES检索pdf方案的优化思路
自动获取文件类型,如纯文本plain、pdf等,这是一个属性,利于后期进行文件类型的区分并做进一步的处理。 此外,单纯基于Git库与Java,我们需要文件的标签、作者、更新...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
21天前
关注
使用ES查询时只返回指定字段的三种方法
最近在使用ES检索pdf、word等文件内容时查询发现返回的结果过于冗长,不好阅读,因为文件的内容占据的篇幅太大了,因而要设置返回字段。 在Elasticsearch(ES...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
22天前
关注
Java实现读取转码写入ES构建检索PDF等文档全栈流程
之前已简单使用ES及Kibana和在线转Base64工具实现了检索文档的demo,并已实现WebHook的搭建和触发流程接口。 基于GitBucket的Hook构建ES检索...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
23天前
关注
基于GitBucket的Hook构建ES检索PDF等文档全栈方案
背景 之前已简单使用ES及Kibana和在线转Base64工具实现了检索文档的demo,预期建设方案是使用触发器类型从公共的文档源拉取最新的文件,然后调用Java将文件转B...
3
评论
分享
1024点线面
大数据架构师 @郑州
·
24天前
关注
性能问题分析排查思路之机器(3)
本文内容主要涉及一个网络本命工具netstat、网络的延迟、抖动和丢包率查看、流量与网络带宽上限查询、链路分析、TCP连接数检测和与网络相关的常见异常,通过这些工具和方法可...
2
评论
分享
1024点线面
大数据架构师 @郑州
·
25天前
关注
使用python或AI自动分析数据关联(简介)
有一些Python库可以帮助用户自动发现数据集中的关联关系。通常这类方法被称为关联分析或关联规则挖掘,其中最著名的算法是Apriori和FP-Growth。 两个算法 Ap...
赞
评论
分享
1024点线面
大数据架构师 @郑州
·
25天前
关注
使用ES检索PDF或Word等格式文件方案
#大数据/ES #经验 #方案架构 ES检索PDF/Word等格式文件方案 插件安装 ES有文档预处理插件,但是7.x版本默认发版包不包含这个ingest attachme...
2
评论
分享
1024点线面
大数据架构师 @郑州
·
26天前
关注
降低85%的gc发生率:ES的GC调优实践!
#大数据/ES #经验 #性能 ES的服务日志出现一些gc overhead现象,经过调优对比,gc发生率显著下降了85%,分享参数如下: ES的G1GC参数(多实例) 切...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
26天前
关注
批次大小对ES写入性能影响初探
问题背景 ES使用bulk写入时每批次的大小对性能有什么影响?设置每批次多大为好? 一般来说,在Elasticsearch中,使用bulk API进行批量写入时,每批次的大...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
27天前
关注
python3.x的在线与离线安装纯净版
由于计划搭建一套使用python自动分析日志的流程,发现我们的测试环境CentOS 7仍然没有安装python3,无法使用这些新的库。Python 3在设计上着重提升了语言...
1
评论
分享
1024点线面
大数据架构师 @郑州
·
28天前
关注
性能分析排查思路之机器(2)
本文探讨与磁盘和文件系统相关的各种命令及其在性能分析中的应用。这些命令不仅可以帮助我们诊断和解决磁盘与文件系统的常见问题,讲机器(硬件)的存储方面的分析方法和经验、最佳实践...
1
评论
分享
下一页
个人成就
文章被点赞
469
文章被阅读
155,703
掘力值
4,104
关注了
31
关注者
1,149
收藏集
3
关注标签
22
加入于
2019-06-18