一句话总结:
向量化是将非数值型数据(如文本、图像)转换为数值向量(一组数字)的过程,使计算机能高效处理并捕捉数据语义特征
详解数据向量化
以下从文本、图像和结构化数据三个领域,展示具体向量化实例及其技术原理,帮助你直观理解数据如何转换为数值向量:
一、文本数据向量示例
- One-Hot编码(简单但高维稀疏)
• 示例:词汇表 [“苹果”, “香蕉”, “樱桃”]
◦ 苹果 → [1, 0, 0]
◦ 香蕉 → [0, 1, 0]
◦ 樱桃 → [0, 0, 1]
• 特点:维度=词表大小,仅一个位置为1。
- TF-IDF向量(加权词频)
• 示例:句子 “我爱学习机器学习” 的分词结果:[“我”, “爱”, “学习”, “机器学习”]
◦ 向量维度:[“我”:0.283, “爱”:0.283, “学习”:0.543, “机器学习”:0.743, …]
◦ 说明:数值反映词语在句子中的重要性,其他未出现词维度值为0。
- Word2Vec词向量(稠密语义表示)
• 示例:预训练词向量(维度=300)
◦ “国王” ≈ [0.21, -0.34, …, 0.76]
◦ “女王” ≈ [0.22, -0.32, …, 0.78]
• 特点:语义相近的词向量距离小(如 国王 - 男人 + 女人 ≈ 女王)。
二、图像数据向量示例
- 像素值直接展开(原始表示)
• 示例:3x3 RGB图片 → 扁平化为向量
◦ [ [R,G,B], [R,G,B], … ] → [128, 0, 255, 34, 200, 78, …](长度=3x3x3=27)。
- CNN特征向量(深层语义表示)
• 示例:ResNet提取的2048维特征
◦ 猫图片 → [0.12, -0.05, 1.34, …, 0.87]
◦ 生成方式:通过卷积神经网络压缩信息。
- 嵌入向量(离散特征编码)
• 示例:图像区域量化后的向量
◦ 嵌入矩阵:[[-0.078, 0.271, -0.241], [0.399, -0.549, 0.263], …]
◦ 图像区域索引2 → 向量[0.399, -0.549, 0.263]。
三、结构化数据向量示例
- 数值特征标准化
• 原始数据:用户浏览时长 [120, 300, 180]
◦ 标准化后:[-1.34, 1.34, -0.44](均值为0,标准差为1)。
- 类别特征独热编码
• 原始数据:颜色 [“红”, “绿”, “蓝”]
◦ 向量化后:
▪ 红 → [1, 0, 0]
▪ 绿 → [0, 1, 0]
▪ 蓝 → [0, 0, 1]。
- 混合特征拼接
• 示例:用户行为日志(数值+类别)
◦ 标准化时长 [-0.5] + 独热编码动作 [0, 1, 0] → 合并向量 [-0.5, 0, 1, 0]。
四、关键注意事项
- 维度差异
◦ One-Hot向量维度与词表大小一致(可能数万维);
◦ 词嵌入向量固定为50~300维。
- 稀疏性
◦ One-Hot、TF-IDF是稀疏向量(多数位置为0);
◦ 神经网络生成的是稠密向量(无零值)。
- 预处理影响结果
◦ 文本需分词(如"机器学习"是否拆分为"机器"+“学习”);
◦ 图像需归一化像素值(0~1范围)。
💡 实际应用中需根据任务选择向量化方法:
• 分类任务常用 TF-IDF 或 词嵌入;
• 相似度计算推荐 稠密向量(如Word2Vec);
• 表格数据需 混合编码 后拼接为统一向量。
如果需要生成具体数据的向量实例(如自定义句子或表格),可提供数据样本,我会进一步演示完整转换过程。