ElasticSearch导读

发布于:2025-05-22 ⋅ 阅读:(11) ⋅ 点赞:(0)

ElasticSearch


简介:ElasticSearch简称ES是一个开源的分布式搜素和数据分析引擎。使用Java开发并且是当前最流行的开源的企业级搜索引擎,能够达到近实时搜索,它专门设计用于处理大规模的文本数据和实现高性能的全文搜索。它基于 Apache Lucene 构建,专为处理海量数据而设计。它支持全文搜索、结构化查询、数据分析,并广泛应用于日志管理(如 ELK Stack)、电商搜索、实时监控等场景。

基本概念

术语 说明
索引(Index) 类似数据库中的“表”,存储相关文档(如 user_index)。
文档(Document) 索引中的基本数据单元,格式为 JSON(如一条用户信息)。
分片(Shard) 索引被分割成的子部分,支持分布式存储和并行计算。
节点(Node) 一个运行中的 Elasticsearch 实例,多个节点组成集群(Cluster)。

ELK技术栈

Elasticsearch结合Kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析,实时监控等领域:

核心组件

组件 功能 配图示意(文字描述)
LogstashBeats 数据采集与处理:从多种来源(如日志文件、数据库)收集数据,过滤并格式化后传输到 Elasticsearch。 [输入] → Logstash(过滤/转换) → [输出]
Elasticsearch 数据存储与检索:分布式存储处理后的数据,支持快速搜索和分析。 [数据存储] → Elasticsearch(索引/分片)
Kibana 数据可视化:通过图表、仪表盘展示 Elasticsearch 中的数据。 Kibana ← [查询] → Elasticsearch

总结:ELK 技术栈通过 Logstash/Beats(采集)→ Elasticsearch(存储)→ Kibana(可视化) 实现数据全生命周期管理,适用于日志分析、运维监控等场景。学习时需掌握各组件配置和协同工作原理。

Elasticsearch和lucene之间的关系

说的专业一点:Elasticsearch 基于 Apache Lucene(高性能全文检索引擎库)构建,核心的索引和搜索功能由 Lucene 实现。

说的通俗一点:Lucene 是“发动机”,专注单机性能Elasticsearch 是“整车”,集成发动机并添加了方向盘、底盘(分布式、易用性)

总结:Elasticsearch = Lucene + 分布式 + 易用接口 + 高级功能(如聚合、近实时搜索)。

索引

两个基本概念:

文档(Document):文档是 Elasticsearch 中 最小的数据存储单元,类似于 Excel 表格中的一行数据,但更灵活。

词条(Term):词条是文档内容经过 分词处理 后的最小单位,是搜索引擎操作的基本元素。

文档与词条的关系:

维度 文档(Document) 词条(Term)
角色 数据存储的基本单位(“完整信息包”) 搜索的基本单位(“信息碎片”)
存储方式 原始 JSON 格式,保存在索引(Index)中 分词后存储在反向索引(Inverted Index)中
操作目标 用于增删改查完整数据 用于快速检索和匹配内容

正向索引:正向索引是 以文档为中心 的索引结构,记录每个文档包含哪些关键词(类似书的目录,告诉你每本书里有什么内容)。

反向索引:反向索引是 以关键词为核心 的索引结构,记录每个关键词出现在哪些文档中(类似词典的索引页,告诉你哪个词在哪本书出现)。

正向索引VS反向索引

正向索引 反向索引
核心逻辑 文档→关键词(书→内容) 关键词→文档(词典→书页)
搜索效率 慢(需遍历所有文档) 快(直接查关键词对应的文档)
存储空间 较小 较大(需存储词频、位置等额外信息)
典型应用 早期搜索引擎、小规模系统 现代搜索引擎(Google/Bing)、大数据系统

Mysql与ElasticSearch

  • ES 适合全文搜索和实时分析(如日志、商品搜索)。

  • MySQL 适合强事务和高一致性的业务(如支付、订单)。

  • 实际项目中常结合使用(如 MySQL 存储业务数据,ES 提供搜索服务)。


网站公告

今日签到

点亮在社区的每一天
去签到