type
Page
status
Invisible
date
May 12, 2026
slug
paper/connected-vehicle-paper-review/05
summary
第5篇精读论文
tags
车联网
机器学习
category
icon
password
CMSM: Cross-modal semantic matching for lightweight IDS in the IoV
期刊会议:Computer Networks(CCF-B) 年份:2026 链接:https://dl.acm.org/doi/10.1145/3719027.3744804
一、论文要解决什么问题
如何在车联网 IoV 场景下,设计一个既准确、又轻量、还能在小样本情况下保持泛化能力的入侵检测系统。
二、研究背景
车联网 IoV 将车内网络、车间网络、路侧基础设施和云服务连接起来,提高了交通效率和驾驶安全性。但同时,IoV 的互联程度越高,攻击面也越大,容易受到 DoS、DDoS、欺骗攻击、消息注入、端口扫描等网络攻击影响。
传统 IDS 方法虽然已经大量使用机器学习和深度学习,但仍然存在三个问题:
- 高维异构流量数据利用不足。IoV 中既有车内 CAN 总线数据,也有车间通信数据,数据格式、语义和分布差异较大,普通模型很难统一处理。
- 模型复杂度高,不适合边缘部署。很多深度学习方法虽然准确率高,但参数量和计算量大,难以部署在车载终端或边缘节点上。
- 小样本和类别不平衡下泛化能力不足。多数方法只依赖数值特征,缺少对攻击行为的语义理解,因此在样本少或攻击类型变化时表现容易下降。
三、核心思想
不要只让模型看流量数值,还要让模型理解攻击类别的语义描述。
传统 IDS 的分类方式一般是:
网络流量特征 → 神经网络 → 分类标签
而 CMSM 的分类方式是:
网络流量特征 → 热力图 → 视觉特征攻击类别描述 → 文本语义特征视觉特征与语义特征计算相似度 → 输出最匹配的攻击类别
思路类似 CLIP 的“图文匹配”,只是这里不是匹配图片和自然语言,而是匹配流量热力图特征和攻击语义描述特征。
四、方法框架
CMSM 主要由四个模块组成:
- 中心优先多视角热力图构建;
- 基于 Ghost 模块的轻量级视觉特征提取器;
- IoV 攻击语义描述库与语义嵌入;
- 基于跨模态语义匹配的入侵检测决策。

五、模块1:中心优先多视角热力图构建
原始 IoV 流量数据通常是表格型高维数据。作者认为,如果直接输入神经网络,一方面会带来维度灾难,另一方面也不利于 CNN 捕捉空间结构。
因此,文章将表格数据转换为 28 × 28 × 3 的多通道热力图。
1. 特征重要性排序
作者使用两种指标衡量特征重要性:
- 互信息 MI:衡量单个特征和类别标签之间的相关性;
- 随机森林特征重要性 RF:衡量特征在分类任务中的判别贡献。
最终特征重要性定义为:
文中表示互信息和随机森林重要性各占一半。
2. 中心优先填充
特征排序后,重要性高的特征优先放到热力图中心区域,不重要的特征向外围扩展。
理由:CNN 的卷积感受野在浅层更容易捕捉局部显著模式,而中心区域更容易成为模型关注重点。把关键特征放在中心,有助于模型更快抓住攻击模式。
3. 三通道多视角表示
热力图包含三个通道:
通道 | 含义 | 作用 |
原始特征通道 | 原始流量特征值 | 保留样本自身信息 |
均值偏差通道 | 样本特征与全局均值的差异 | 捕捉异常偏离 |
协方差交互通道 | 特征之间的相关性响应 | 捕捉特征间联合异常 |
下图展示了 CICIDS2017、Car-Hacking、CICIoV2024 三个数据集中不同攻击类别对应的热力图,可以看到不同类别在颜色分布和空间结构上存在差异。

六、模块2:轻量级视觉特征提取器
为了适应车载终端和边缘节点的资源限制,作者没有使用很大的 CNN,而是设计了基于 Ghost module 的轻量化视觉特征提取器。
Ghost 模块的核心思想是:
先用少量标准卷积生成核心特征图,再通过低成本线性操作生成更多冗余但有用的特征图。
这样可以减少参数量和计算量。
该视觉网络还结合了:
- Residual GhostBlock;
- Inverted Residual GhostBlock;
- 深度可分离卷积;
- ECA 通道注意力机制;
- 全局平均池化;
- L2 归一化。
下图展示了轻量级视觉特征提取器结构,

下图对比了普通卷积和 Ghost 模块。

七、模块3:攻击语义描述库
作者为每一种攻击类别构建一条标准化语义描述。例如 DDoS 攻击可以被描述为:
多源 IP 洪泛攻击,目标是边缘节点,特征是资源耗尽、服务中断、短时间流量激增、缺少正常交互逻辑。
这些文本描述由具备网络安全和 IoV 背景的专家编写,并经过一致性验证。
之后,作者使用预训练语言模型 Sentence-Transformer:multi-qa-MiniLM-L6-cos-v1 将攻击描述编码为 384 维语义向量。
注意:语义向量是离线预计算的,推理时不需要再调用语言模型,因此不会显著增加在线检测延迟。
八、模块4:跨模态语义匹配分类
CMSM 的分类方式不是普通的 Softmax 分类器,而是计算视觉特征和语义特征之间的相似度。
设流量热力图经过视觉网络得到视觉向量,攻击类别文本经过语义编码器得到语义向量,则相似度为:
其中是温度系数。
最终分类规则是:
也就是说,当前样本会被判为“与其视觉特征最相似的攻击语义类别”。其优点在于:模型不仅学习数值异常模式,还引入了攻击类别的语义先验,因此在小样本、类别不平衡、新攻击变体等情况下可能更稳健。
九、实验设计
文章在三个公开数据集上进行实验:
数据集 | 场景 | 类别 |
CICIDS2017 | 复杂网络攻击 / 车间网络参考场景 | Benign、Bot、DDoS、PortScan、Web Attack 等 |
Car-Hacking | 车内 CAN 总线攻击 | Normal、DoS、Fuzzy、gear、RPM |
CICIoV2024 | 最新 IoV CAN 总线攻击 | Benign、DoS、GAS、RPM、SPEED、STEERING |
数据集按照 8:1:1 划分为训练集、验证集和测试集。评价指标包括 Accuracy、Precision、Recall 和 F1-score。
十、主要实验结果
CMSM 在三个数据集上的结果非常高:

与其他特征器对比

十一、消融实验

结论:中心优先填充、多视角热力图、跨模态语义匹配都能带来性能提升,其中完整 CMSM 效果最好。
十二、实时性

可以看出 CMSM 的在线推理延迟较低
十三、创新点与不足
创新点
- 文章不是简单随机地把表格数据转成图像,而是先计算特征重要性,再把重要特征放在图像中心。同时用三个通道表示原始特征、均值偏差和协方差交互,增强了流量数据的可判别性。
- 作者设计了非常小的视觉特征提取器,参数量只有 11.6K,计算量只有 203K FLOPs,却能达到接近甚至等同于大型模型的检测效果。
- 文章将攻击类别文本描述引入 IDS,通过语义向量和视觉向量匹配完成分类,使模型获得一定的“攻击语义理解能力”。
- 在训练样本较少时,CMSM 仍然优于只使用视觉特征的模型,说明语义先验能增强鲁棒性和泛化能力。
不足
- 部分数据集结果过高。Car-Hacking 和 CICIoV2024 都达到 100%,需要注意是否数据集本身攻击模式区分度较高。文章也承认 Car-Hacking 中正常流量和攻击流量较容易分离。
- 语义描述库依赖人工构建。虽然文章使用专家编写描述,但这也带来人工成本。未来如果攻击类型增加,需要维护语义库。
- 对未知攻击或零日攻击的验证不足。文章提到未来会使用大语言模型自动构建语义库并支持零日攻击检测,但当前实验主要还是在已知类别上分类。
