【知识图谱】数据处理与数据存储

发布于：2025-05-23 ⋅ 阅读:(269) ⋅ 点赞:(0)

构建知识图谱：从数据预处理到存入 Neo4j 图数据库

知识图谱（Knowledge Graph）作为一种结构化语义表示方法，广泛应用于搜索引擎、推荐系统、智能问答等领域。本文将以实际数据为例，讲解如何将原始数据处理成适合构建知识图谱的结构，并导入到 Neo4j 图数据库中。

一、数据预处理

1. 原始数据示例

假设我们有一个招聘信息的数据集，包含如下字段：

名称（岗位名称）
公司
技能要求（用逗号分隔的技能列表）

名称,公司,技能要求
Python开发工程师,某科技公司,Python,Flask,Django
前端开发,互联网企业,JavaScript,React,HTML,CSS
数据分析师,大数据公司,SQL,Python,Pandas

2. 读取与清洗数据

import pandas as pd

df = pd.read_csv('recruit.csv')
df.dropna(subset=['名称', '公司', '技能要求'], inplace=True)

# 标准化技能字段，转换为列表
df['技能要求'] = df['技能要求'].apply(lambda x: [skill.strip() for skill in x.split(',')])

二、构建图数据结构

我们计划构建以下实体关系：

岗位 节点：对应岗位名称
公司 节点：对应公司
技能 节点：技能名称
岗位-属于->公司
岗位-需要->技能

1. 生成图结构数据

from py2neo import Graph, Node, Relationship

graph = Graph("bolt://localhost:7687", auth=("neo4j", "password"))

for _, row in df.iterrows():
    job_node = Node("Job", name=row['名称'])
    company_node = Node("Company", name=row['公司'])
    graph.merge(job_node, "Job", "name")
    graph.merge(company_node, "Company", "name")
    graph.merge(Relationship(job_node, "BELONGS_TO", company_node))

    for skill in row['技能要求']:
        skill_node = Node("Skill", name=skill)
        graph.merge(skill_node, "Skill", "name")
        graph.merge(Relationship(job_node, "REQUIRES", skill_node))

三、在 Neo4j 中查看数据

在 Neo4j 浏览器中输入如下查询语句，可以查看构建好的图谱：

MATCH (j:Job)-[:BELONGS_TO]->(c:Company) RETURN j, c LIMIT 20;
MATCH (j:Job)-[:REQUIRES]->(s:Skill) RETURN j, s LIMIT 20;

你也可以使用 Neo4j 的 Bloom 或其他可视化工具展示图谱关系。

四、小结与建议

保证实体唯一性（如岗位名重复时需加入公司名作为区分）
对技能字段进行清洗与标准化（如统一大小写、去除空格）
推荐使用 merge 而非 create 以避免重复节点

通过以上步骤，你可以将结构化数据高效转换为图数据并导入 Neo4j，为后续的语义分析和智能问答打下基础。

如需进一步构建基于知识图谱的问答系统、可视化平台，或集成语言模型进行语义搜索，欢迎继续关注后续内容！

【知识图谱】数据处理与数据存储

构建知识图谱：从数据预处理到存入 Neo4j 图数据库

一、数据预处理

1. 原始数据示例

2. 读取与清洗数据

二、构建图数据结构

1. 生成图结构数据

三、在 Neo4j 中查看数据

四、小结与建议

微信公众号

今日签到

热门文章

最新发布