轨道交通螺丝松动检测研究 - 小野大神 Home Page

陈兴源@panda，2026-03

轨道交通车辆关键机械部件视觉检测系统与人工智能技术应用深度研究报告 1. 行业背景与系统建设的初始宏观审视 2. 初步方案和其深度技术解构 2.1. 初步方案和本系统潜在应用场景 2.2. 工业数据的极端不平衡与人工标注的主观性问题 2.3. 物理特征的微弱性与卷积神经网络的感受野矛盾 2.4. 移动端成像的透视畸变与环境干扰挑战 3. 工业检测流水线场景 3.1. 核心硬件选型：全局快门相机与远心镜头 3.2. 整体系统方案 3.3. 宏观定位 3.4. 几何解算 3.5. 训练数据集准备与复杂工况样本构建 3.6. 基于数字孪生与生成式 AI 的合成数据构建策略 4. 地铁实际运行线路单反拍摄场景 4.1. 硬件（单反相机）评估 4.2. 整体系统方案 4.3. 切片辅助超级推理框架图片预处理 4.4. 防松标记线透视校正和夹角计算 5. 地铁实际运行线路手机拍摄场景 5.1. 硬件（手机摄像头）评估 5.2. 系统方案设计 6. 不同场景技术方案比较 7. 南京地铁项目实际项目场景与技术路线重构 7.0. 南京地铁项目需求 7.1. 实际场景特征定位与需求解析 7.2. 核心技术路线一：基于 YOLO11 的间隙识别与多目标检测 7.3. 核心技术路线二：长尾非标缺陷的“大模型+异常检测”兜底机制 7.4. 针对巡检灰度图像的预处理工程 8. MLOps工程化流水线与数据闭环体系建设 9. 轨道交通领域人工智能前沿泛化应用场景前瞻 9.1. 融合多模态感知的列车车底与车顶智能巡检机器人体系 9.2. 基于轻量级视觉模型的站台门间隙异物全天候预警防护网络 9.3. 乘客复杂行为全息时空解析与智能安防闸机生态控制 9.4. 融合数字孪生与大数据的全生命周期预测性健康管理（PHM）引用文献

轨道交通车辆关键机械部件视觉检测系统与人工智能技术应用深度研究报告

1. 行业背景与系统建设的初始宏观审视

在现代城市化进程中，城市轨道交通（地铁）不仅是支撑城市运转的交通大动脉，更是精密机械、电气工程与信息技术的庞大综合体。随着轨道交通线网规模的指数级扩张以及列车运行交路的日益密集，列车机电设备的运行安全与全生命周期健康管理成为了轨道交通运营企业面临的核心挑战。特别是列车下半部分（车底）的机械部件，包括转向架、悬挂系统、制动模块以及各类传动装置，长期暴露在高频机械振动、极端的物理应力、复杂的电磁干扰以及粉尘潮湿等恶劣物理环境中 1。在这些复合破坏因素的作用下，原本紧固的机械连接件（尤其是各类标准螺栓、螺母与紧固件）极易发生材料疲劳、螺纹滑移与物理松动。一旦关键部位的螺栓发生严重松动或脱落，轻则导致设备运行异响与局部故障，重则可能引发列车脱轨等灾难性安全事故。

传统的轨道交通列车检修体系，如日常的列检、月修以及更高层级的维护检修流程，高度依赖于专业维修人员的“眼看、耳听、手触”等人工作业模式。在车底地沟这种空间极度狭小、光线照明严重不足且存在大量视线遮挡的复杂环境中，人工巡检不仅耗费巨大的人力资源与时间成本，而且极易受到作业人员疲劳程度、主观经验差异等生理与心理因素的干扰，从而导致漏检与误判的发生 2。近年来，引入人工智能与计算机视觉技术，以数字化手段替代或辅助人工进行缺陷排查，实现地铁车辆底部机械部件缺陷的自动化、智能化检测，已成为全球轨道交通行业数字化转型与“智慧城轨”建设的核心诉求与必由之路 3。

本研究报告针对特定且具有高度代表性的工业应用场景——自动识别并检测图片中是否存在专业维修人员人眼可辨识的螺丝松动问题——展开系统性的深度技术剖析与架构推演。我们首先提出经典的基于“收集图片、人工标注松动框、训练特定小模型”工作流的端到端目标检测基础方案，然后从底层算法逻辑、特征表征能力、数据分布特性等多维度进行严苛的可行性评估与技术缺陷解构。同时，结合当前计算机视觉领域最前沿的深度学习算法、多模态视觉大模型（Vision-Language Models, VLM）、无监督异常检测技术（Unsupervised Anomaly Detection）以及 MLOps（机器学习运营）工程化实践，探索并横向对比多种可选的技术破局路径。此外，立足于南京地铁等先进城市轨道交通系统的智能化运维前沿趋势，本报告将前瞻性地推演人工智能技术在轨道交通领域的泛化与进阶应用场景，旨在为公司构建高鲁棒性、高精度的全生命周期智慧视觉运维体系提供具有深远指导意义的战略级技术参考与决策依据 4。

2. 初步方案和其深度技术解构

2.1. 初步方案和本系统潜在应用场景

根据我们的初步构想，解决方案拟采用经典的监督学习目标检测（Object Detection）范式：即在现场大量收集包含螺丝的设备图片，通过人工方式标注图片中螺丝松动的具体位置（通常采用矩形边界框 Bounding Box），随后利用这些带有标注的训练数据去训练一个特定的小型目标检测模型（例如YOLO 系列），使其专门输出“螺丝松动”的检测框。这一方案在商业逻辑与基础开发流程上具有直观的合理性与高度的可解释性，这也是绝大多数企业在切入计算机视觉领域时的标准起手式。

然而，计算机视觉算法的有效性高度依赖于光学成像的物理质量与环境的可控性。当该方案被置于“工业级高精度检测”、“细微几何形变识别”以及“不可控移动端成像质量”（手机拍摄分辨率和精度的图片）的复杂工程约束下时，该方案在底层技术逻辑上暴露出了一系列难以逾越的深层次技术挑战与工程隐患。螺栓松动在视觉上仅仅表现为几度到十几度的微小旋转，属于极微弱的物理特征。如果直接将这种简单的“端到端黑盒训练”粗暴地应用于包括“地铁现场手机拍摄列车图片”等在内的所有场景，极易遭遇失败。因此，要成功落地该系统，我们不能脱离物理环境空谈算法。本报告将从最容易控制的光学环境出发，按照由易到难的递进顺序，详细分析在不同场景下应该如何对该初步方案进行改进、升级或替换。

我们将本系统的潜在应用场景由易到难分为以下几类：

工业检测流水线场景。在列车制造或检修车间的流水线，用固定焦距、固定视角、均匀光源的专业相机拍摄的高质量、标准化列车图片。

地铁实际运行线路单反拍摄场景。在地铁实际线路运营场景，使用单反相机等专业设备拍摄的列车图片。

地铁实际运行线路手机拍摄场景。在地铁实际线路运营场景，使用普通手机等消费级设备拍摄的列车图片。

以下我们将对本初步技术方案存在的技术难点和挑战（特别是在某些场景下）进行详细和深入的分析，并给出每个场景下推荐的解决方案。

2.2. 工业数据的极端不平衡与人工标注的主观性问题

在监督学习的框架内，数据的质量与分布直接决定了模型的性能上限。在真实的轨道交通列车运维场景中，正常的、紧固的螺栓数量占据了绝对的统治地位（负样本），而真正发生松动的螺栓（正样本）属于极其罕见的异常事件。这种高达数万比一的严重数据类别不平衡（Data Imbalance），会导致模型在训练阶段产生强烈的“多数类偏好”。为了降低整体的损失函数（Loss），模型会倾向于将所有螺栓预测为“正常”，从而导致对真正松动螺栓的召回率（Recall）极低 14。

更进一步而言，对于“螺丝是否松动”的人工标注存在不可避免的主观模糊性。如果没有工业防松标记线等绝对的视觉参照物，即使是经验丰富的维修人员，也极难单纯凭借一张存在透视畸变的二维静态图片，准确判断出一颗螺栓是否发生了5度的微小旋转。如果标注团队对“松动”的定义标准不一，就会在训练集中引入大量的矛盾标签（Label Noise）。让一个小模型去学习一套连人类专家都无法达成绝对共识的模糊标准，其最终的泛化性能注定无法满足严苛的工业安全要求。因此，初步方案中试图通过简单框选来教会模型识别松动，在底层逻辑与数据工程上均存在明显的短板。

2.3. 物理特征的微弱性与卷积神经网络的感受野矛盾

螺栓松动在视觉图像上的表现本质上是一种极度细微的物理状态变化。在大多数工业场景中，螺栓的早期松动仅仅体现为螺母相对于螺柱几度到十几度的轻微旋转，或者是在轴向方向上几毫米的位移暴露 7。而在普通的消费级手机拍摄等场景下，由手机拍摄的往往是涵盖众多车底机械部件的宏观视角（广角）图片。在这种类型的图片中，单个螺栓本身属于典型的小目标（Small Object），其占据的像素面积可能不足全图的千分之一。而螺栓“松动”这一特征所占据的像素差，更是微乎其微。

传统的卷积神经网络（CNN）在进行特征提取时，为了扩大感受野并提取高阶语义信息，必须经过多次的池化（Pooling）与下采样（Downsampling）操作。在这一过程中，图像的空间分辨率被大幅压缩。原本在原图中仅有几个像素大小的“螺栓纹理变化”或“微小旋转角度”特征，在深度卷积层中会被彻底平滑或丢失 9。如果仅仅采用矩形框（Rectangle）进行标注，模型所接收到的监督信号实际上是告诉网络：“这个矩形区域内存在松动螺栓”。但是，矩形框内包含了大量正常的螺母金属反光、螺柱阴影以及周围的基座背景。网络在反向传播优化时，很难从如此嘈杂的宏观边界框中精准地剥离出那几度旋转的微观特征。其结果往往是，模型并没有真正学会识别“松动”，而是仅仅学会了识别“这是一颗螺栓”，或者错误地去拟合了图像中的光影噪声，导致模型过度拟合，在实际测试中出现极高的误报率。

2.4. 移动端成像的透视畸变与环境干扰挑战

在单反或手机拍摄等非完全受控场景，维修人员拍摄列车图片时没有固定的机位。这又引入了另一个致命的变量：成像视角的高度随机性。与工业流水线上固定焦距、固定视角、均匀光源的机器视觉检测不同，维修人员在地铁线路生产环境的狭窄空间内拍摄列车时，其拍摄角度、拍摄距离与环境光照是完全不可控的 7。

从几何光学的角度来看，这种不可控的倾斜视角会产生严重的透视畸变（Perspective Distortion）。原本在正视图中呈现为正圆形的螺栓头，在倾斜拍摄的二维图像投影中会退化并扭曲为各种形态的椭圆 11。这种几何形状的扭曲会直接干扰模型对螺栓相对旋转角度的判断。此外，地铁线路生产环境光线极其复杂，存在强烈的金属局部反光与深邃的阴影盲区；同时，手持设备在低光照环境下极易产生运动模糊（Motion Blur）以及对焦不准导致的镜头模糊 8。研究表明，当运动模糊程度超过一定物理阈值时，常规目标检测模型提取边缘特征的能力会呈断崖式下降 13。如果端到端模型直接在这些充满畸变和噪声的图像上进行训练，且缺乏显式的几何校正机制，模型将永远无法建立起对“松动”这一物理概念的稳健认知。

3. 工业检测流水线场景

工业检测流水线场景属于受控物理环境，难度最低。其环境特征包括：系统部署于列车制造或检修车间的标准化流水线上。光源通过工业无影灯打光保持绝对均匀，相机固定在机械臂或固定支架上，拍摄距离恒定，视角严格垂直于车底基座。

在这一场景下，可以直接使用我们的“初步方案”，但需要使用专业的硬件设备，在物理源头上尽可能减少数据噪声，降低深度学习算法的开发难度。

3.1. 核心硬件选型：全局快门相机与远心镜头

在标准流水线环境，推荐采用搭载全局快门的工业视觉相机。相较于消费级拍摄设备，工业相机具备两个决定性的物理优势：

全局快门（Global Shutter）：与手机逐行扫描的卷帘快门不同，全局快门能够同时曝光所有像素。当列车在流水线上移动或存在轻微机器震动时，全局快门从根本上杜绝了图像的几何扭曲（果冻效应），确保螺栓的圆形轮廓完美无瑕。

远心镜头（Telecentric Lens）：这是工业高精度测量的核心。远心镜头只接收平行光，其放大倍率在一定物距范围内保持恒定，这意味着它彻底消除了“近大远小”的透视畸变。无论螺栓轻微凸出还是凹陷（靠近还是稍微远离镜头），其在图像中的尺寸和几何形态（如完美的圆形）均不发生形变。

3.2. 整体系统方案

由于工业级别的影像硬件在物理层面已经消除了潜在的光影干扰和透视畸变，整个系统的设计方案可以被极大简化：

无需透视校正矩阵：因为远心镜头生成的图像已经是完美的正交投影。

不需要处理超高分辨率图像直接缩放导致小目标丢失的问题：由于焦距固定，可通过物理选型直接让单个相机的视野（FOV）刚好覆盖特定的螺栓群组，YOLO11 即可直接实现高精度的定位与分割。

整体的方案是 YOLO11 目标定位 + 传统机器视觉高精度几何测量。具体如下：

第一步：宏观定位。使用最新的轻量级 YOLO11m 模型。如上面部分所述，我们不需要模型去直接判断“是否松动”，而只需要训练模型识别并裁剪出“所有的螺栓”。由于训练数据图像质量极高，模型召回率预计可以容易地达到99.9%。

第二步：几何解算。由于图像不存在透视畸变，在YOLO提取出防松标记线后，系统直接使用经典的传统机器视觉算法（如霍夫直线检测或边缘几何拟合）提取螺栓上的防松标记线，计算其相对于基准线的物理夹角。精度极高且算力消耗极小。

评估结论：开发难度极低。由于极大地压缩了深度学习的推理链路，该方案算力消耗极小，单台普通的工业边缘计算节点就能支持数台相机的高帧率实时检测，由于物理特征绝对清晰，误报率无限趋近于零。

3.3. 宏观定位

虽然单纯依赖目标检测无法完成松动判定，但目标检测仍然是整个复杂系统中的第一步，即“在浩如烟海的复杂背景中精准定位出所有螺栓的感兴趣区域（ROI）”。在这种“基础目标检测”领域，业界主流的标准模型是 YOLO 系列模型。在具体模型的选型上，我们建议全面放弃较早期的YOLOv5、YOLOv7乃至YOLOv8架构，直接拥抱 Ultralytics 最新发布的 YOLO11 系列模型。

YOLO11在神经网络架构设计上实现了跨越式的效能提升。通过优化网络深度与宽度配置，并采用更高效的特征融合模块，YOLO11在显著降低参数量与计算复杂度的同时，大幅提升了对复杂背景下目标的检测精度。通过对比各大基准测试数据可以清晰地看出这一代际优势：

模型版本对比	输入尺寸 (像素)	mAPval 50-95 (COCO数据集)	参数量 (Millions)	计算复杂度 FLOPs (Billions)	TensorRT 10 推理延迟 (T4 GPU, ms)	CPU ONNX 推理延迟 (ms)
YOLO11m	640	51.5%	20.1M	68.0B	4.7	183.2
YOLOv8m	640	50.2%	25.9M	78.9B	5.86	234.7
YOLO11l	640	53.4%	25.3M	86.9B	6.2	238.6
YOLOv7l	640	51.4%	36.9M	104.7B	6.84	-
YOLO11x	640	54.7%	56.9M	194.9B	11.3	462.8
YOLOv8x	640	53.9%	68.2M	257.8B	14.37	479.1
YOLOv7x	640	53.1%	71.3M	189.9B	11.57	-

如上表所示，YOLO11m（中等规模）模型的参数量比前代YOLOv8m减少了约22%，但在标准数据集上的平均精度均值（mAP）反而提升了1.3%，且在 NVIDIA T4 GPU 上的推理速度更快，仅需4.7毫秒 15。这种极高的参数效率（Parameter Efficiency）意味着，部署在便携式检测设备或边缘计算盒子上的系统，能够在不牺牲精度的前提下，为后续更为复杂的分割与几何计算腾出宝贵的显存（VRAM）与计算资源 19。

3.4. 几何解算

在工业流水线场景下，由于全局快门相机与远心镜头在物理层面已经彻底消除了透视畸变，螺栓在图像中呈现完美的正交投影。因此，在 YOLO11 完成宏观定位并裁剪出含有防松标记线的螺栓感兴趣区域（ROI）后，后续的几何解算步骤可以极其精简且高效，完全依赖成熟的传统机器视觉算法即可达到极高的测量精度。

具体流程如下：

图像预处理与边缘增强：对 YOLO11 提取的螺栓 ROI 进行灰度化处理，并应用自适应阈值分割或 Canny 边缘检测算子，在抑制局部反光噪声的同时，精准提取防松标记线的像素级轮廓。

基于霍夫变换的直线提取：在获取边缘图像后，应用概率霍夫变换（Probabilistic Hough Transform）或最小二乘法轮廓拟合，提取出代表标记线的核心线段矢量。

绝对角度计算：在正交二维坐标系中，计算提取出的线段斜率，并利用反三角函数（如$\theta=\arctan(\frac{\Delta y}{\Delta x})$）求得防松线相对于图像基准坐标系或物理基准线的绝对物理夹角。

松动状态判定：将实时计算出的当前角度 $\theta$ 与系统数据库中记录的该螺栓初始安装基准角度 $\theta_0$ 进行差值比对。若绝对差值 $|\theta-\theta_0|$ 超过工程设定的安全阈值（例如 2°），系统即触发松动告警信号。

这一过程由于剥离了复杂的空间投影变换矩阵运算，单次计算耗时极短（通常在几毫秒以内），且数学物理逻辑绝对严密，为工业流水线提供了极高吞吐量与极低延迟的检测保障。

3.5. 训练数据集准备与复杂工况样本构建

深度学习模型的本质是高度拟合训练数据的分布特性。在实际的轨道交通运维环境中，如果要保证 YOLO11 目标检测以及后续掩码分割（Mask Segmentation）算法的极高可靠性与泛化能力，训练数据集的构建绝不能局限于“理想状态”下的螺栓图像。引入涵盖“各类松动角度、严重生锈、复杂油污遮挡”等极端工况的劣质图像样本，是跨越实验室 Demo 到工业级落地的关键一环。具体的技术逻辑与必要性体现在以下两个核心维度：

应对复杂物理环境的“视觉欺骗”（提升抗干扰鲁棒性）。 真实的地铁列车底盘长期暴露于高粉尘、高湿热及油污飞溅的恶劣物理环境中。如果模型的训练集仅仅包含出厂或大修后光洁如新、防松标记线对比度极高的理想螺栓图像，模型在实际部署时将遭遇致命的“域偏移”（Domain Shift）。当遇到被厚重黑色油泥部分覆盖、或边缘因严重锈蚀而模糊的螺栓时，模型极易将这些关键特征误判为背景噪声，导致分割出的防松线断裂或直接发生漏检。因此，在训练集中必须主动注入大量带有真实油污遮挡、锈斑剥落、漆面龟裂的“困难样本（Hard Examples）”。这能强制神经网络放弃对浅层颜色与纯净纹理的依赖，转而学习螺栓更深层次的拓扑与物理结构特征，从而确保系统在脏乱差的真实车底环境中依然能稳定提取目标。

打破模型几何先验的“角度依赖”（全相位松动特征学习）。即便最终的松动判定是由后端的几何数学公式解算得出的，但前端负责微观精细“抠图”的分割模型，同样需要建立对“防松标记线”在任意空间姿态下的认知。如果在收集的日常列检数据中，绝大多数防松标记线都处于紧固时的统一标准位置（例如垂直对齐的 12 点钟方向），模型在进行梯度下降优化时，极易形成一种错误的几何先验——即“只有垂直形态的色块才是防松线”。一旦现场出现严重松动（如发生 90 度旋转）的异常螺栓，模型可能会因为该形状和空间姿态在训练集分布中属于“未见过的异常值（Outlier）”，而无法成功提取其掩码。因此，必须在数据准备阶段通过各种手段提供全相位（0-360度）的防松线样本，确保模型能够彻底剥离角度依赖，实现对目标特征的绝对语义识别。

综上所述，构建一个包含各类极端物理干扰和全角度姿态分布的高质量、高多样性训练数据集，是保证视觉检测系统在复杂工业现场不漏报、不误报的数据基石。

3.6. 基于数字孪生与生成式 AI 的合成数据构建策略

如前文所述，训练高鲁棒性的视觉模型需要海量且包含各种极端工况的“困难样本”。然而，在真实的轨道交通运维现场，人为去收集、甚至刻意制造各种特定角度松动、严重锈蚀或被油污精确遮挡的螺栓图像，不仅耗费巨大的人力与时间成本，更存在极大的安全隐患。为了跨越“数据冷启动（Data Cold Start）”的鸿沟，全面替代高昂的人工数据采集与标注成本，本系统强烈建议在 MLOps 数据流水线中引入基于数字孪生与生成式人工智能的合成数据（Synthetic Data）构建策略。

具体而言，合成数据策略包含以下两条并行的技术路径：

基于物理引擎的 3D 渲染与参数化生成。利用列车转向架与车底机械部件的原始 CAD 工业设计图纸，在 Unreal Engine (虚幻引擎) 或 Blender 等高级 3D 渲染引擎中构建高精度的数字孪生模型。通过参数化脚本控制，系统可以在虚拟环境中自动、批量地生成数以万计的训练图像。在这个过程中，我们可以像调节游戏参数一样，随意控制物理光源的角度与色温、相机的焦距与透视畸变程度，并为螺栓随机赋予各种级别的金属划痕、锈蚀纹理与油污材质。更重要的是，在虚拟引擎中，螺母旋转的物理角度是已知的精确数值，这意味着引擎在渲染输出逼真图像的同时，能够“免费且绝对精准”地自动生成对应的 YOLO 边界框和像素级掩码标签（Ground Truth），从根本上消除了人工标注的主观误差与高昂成本。

基于生成式对抗网络（GAN）与扩散模型的域自适应（Domain Adaptation）。纯 3D 渲染的图像往往带有“塑料感”，与真实地铁车底单反或手机拍摄的照片在像素级统计分布上仍存在差异（即“虚实鸿沟”）。为了解决这一问题，系统可引入基于 GAN（生成式对抗网络）的仿真与图像风格迁移技术。或者利用最新的受控扩散模型（如 Stable Diffusion 结合 ControlNet），将 3D 引擎生成的带有完美标签的“基础结构图”作为边缘约束输入，辅以少量真实的地铁车底脏污照片作为风格提示，由 AI 重新绘制出具备极高摄影逼真度的工业图像。这种结合了“物理严谨性”与“AI 生成逼真度”的混合管线，能够在短时间内以极低的边际成本，为模型提供源源不断的高质量、全场景训练燃料。

通过这种虚实结合的数据增强策略，我们不仅能以极低的成本覆盖所有罕见的边缘工况（Corner Cases），还能赋予 AI 模型在复杂工业现场超越人类视觉极限的鲁棒性与泛化能力，为整个视觉检测系统的成功落地奠定最坚实的数据底座。

4. 地铁实际运行线路单反拍摄场景

该场景属于半受控环境，中等难度。其环境特征包括：车底空间狭小暗淡，存在大量油污、粉尘与金属强反光。检修人员手持设备拍摄，每次的拍摄距离、倾斜视角均不同，且存在走动或手部不可控的抖动。由于光照条件恶劣，引入了不可避免的透视畸变与局部阴影。现场环境通常不允许部署固定的工业相机，因此，退而求其次，为检修人员配发专业的单反相机（DSLR）是平衡画质与灵活性的折中方案。

在这种场景下，单纯依赖一个端到端的目标检测模型是不可行的。我们必须对基础算法进行深度重构，引入专门应对小目标的切片推理机制，并从物理和几何的严密逻辑出发，设计一套包含检测、分割、透视校正与定量计算的串联式进阶算法架构。

4.1. 硬件（单反相机）评估

与工业相机相比，单反相机没有固定的机位，但其光学底蕴决定了其在应对复杂光线时仍然具备远超手机的优势：

大尺寸传感器与大光圈：单反相机拥有更大的图像传感器（APS-C或全画幅）以及能够开合得更大的物理光圈，具备极佳的暗光宽容度，这使其在车底暗光环境下能捕获更多光子，极大提升信噪比，避免了手机拍摄时的严重噪点。

机械快门防抖：单反的机械快门或高级电子全局快门能够瞬间凝固画面，彻底消除手部抖动带来的微小几何形变，为后端算法提供纯净、无畸变的高质量原始数据，保证了螺栓边缘纹理（防松线）的绝对锐利。

4.2. 整体系统方案

由于没有固定机位，无法保证单反拍出的图片具有标准的视角和缩放程度；并且可能存在视角倾斜带来的“透视畸变”（例如导致原本圆形的螺栓头在图像里形状变成了椭圆）。所以不能直接使用 YOLO 模型的结果进行夹角计算。我们需要在初步方案中引入额外的图像预先(pre)或事后(post)处理步骤。实现一个完整的YOLO11 + SAHI + 分割与透视校正管道。具体流程如下：

切片辅助超级推理(SAHI)框架图片预处理。确保单反拍出的超大分辨率广角图像中的微小螺栓纹理不被压缩破坏。

使用 YOLO11 模型识别图片并裁剪出螺栓区域。（与上面的流水线场景中的步骤相同）

防松标记线透视校正和夹角计算。在进行复杂的空间拉平后再进行角度计算，保证在任意视角下都能输出一致的物理松动角度。

评估结论：开发难度中等偏上。通过软件算法的“几何拉直”弥补了硬件拍摄角度的随意性。该方案能在复杂光影下实现1-2度内的误差控制，是现场运维的主力推荐方案。计算链路较长（单张图片处理时间在百毫秒级）。并且系统必须配备性能较好的边缘计算节点（如包含GPU的便携式工控机）或回传数据至云端服务器来支撑混合计算开销。

4.3. 切片辅助超级推理框架图片预处理

单反拍出的几千万像素大图不能直接输入YOLO 模型，否则螺栓会被压缩成模糊的像素点。本系统通过深度集成切片辅助超级推理（SAHI, Slicing Aided Hyper Inference）框架方式以解决在超高分辨率图片的小目标识别问题。SAHI 不会对原始高分辨率图像进行全局暴力缩放，而是根据预设的滑动窗口尺寸，像切蛋糕一样将整张高分辨率大图分割成数十个相互重叠的局部图像块（Slices）。随后，YOLO11 模型依次对这些保持了极高原生像素密度的小图像块进行独立的推理检测。最终通过后处理算法合并结果，在原始全尺寸图像上还原出所有螺栓的精确位置 9。通过引入 SAHI，系统不仅完美保留了螺栓的微观纹理特征，还大幅降低了单次推理对内存的瞬间峰值需求 20。

4.4. 防松标记线透视校正和夹角计算

使用基于防松标记线的“检测-分割-校正-解算”多级串联管道 2。该管道的详细运作机制如下：基于之前步骤 “YOLO11 + SAHI” 裁剪出的矩形边界框（Bounding Box）螺栓 ROI 区域，首先微观语义分割，利用 Fast-SCNN 或改进的 U-Net 算法专门精确提取颜色醒目的防松标记线掩码（Mask，即防松标记线纯净的形状轮廓）。接下来是几何形貌拟合与透视畸变校正（Perspective Correction）。无论作业人员以30度还是45度角倾斜拍摄，算法都能对螺栓轮廓进行高精度椭圆拟合，反向推导空间投影变换矩阵，将图像“拉直”为正视图 7。最后在正交坐标系中，执行松动角度的定量解算。通过总体最小二乘法提取标记线方向矢量并计算夹角，得出真实物理旋转角度 7。这种混合方案能够实现平均误差极低的高精度检测，整个判定过程具备完美的可解释性。

5. 地铁实际运行线路手机拍摄场景

该场景属于非受控极端环境，极高难度。场景的环境特征：与单反拍摄场景相同，但拍摄设备降级为维修人员的普通智能手机或有摄像头的终端设备。

5.1. 硬件（手机摄像头）评估

在实际运维场景，由于手机携带极其方便，天然具备极高的业务推广价值。最新的研究表明，在光照充足且静止拍摄的条件下，搭载高分辨率传感器（如千万甚至上亿像素）的现代智能手机，在某些巡检应用领域其检测精度已经能够媲美专业的光谱仪或单反相机。但从计算机视觉的角度来看，手机拍摄的图像仍然存在一些严重的缺陷：

致命的果冻效应（Jello Effect）：绝大多数智能手机采用的是卷帘快门（Rolling Shutter），逐行扫描的特性导致在手部轻微晃动时，图像会产生倾斜或拉伸扭曲。这种微观层面的扭曲会直接干扰算法对“松动旋转角度”的判定，导致极高的误报。

噪点与边缘丢失：手机传感器的物理尺寸极小，在车底暗光环境下为了降噪，其内置的ISP（图像信号处理器）会强行“涂抹”画面，产生大量噪点，导致判断松动最关键的高频边缘细节（如防松线边缘）被彻底抹平。

5.2. 系统方案设计

在手机拍摄的极端画质下，即便使用单反场景下的“透视校正管道”，也可能因为手机的画质与果冻效应等而导致算法无法精准提取防松线的边缘。在这种情况下，我们必须跳出监督学习的框架，引入两种基于前沿技术的异常检测算法作为兜底：

基于无监督学习的异常检测。如果手机画质导致无法精确测量几何角度，无监督异常检测（例如 FR-PatchCore 等基于 k-NN 特征比对的算法）提供了一条优雅的替代路线。该算法无需收集罕见的缺陷样本，而是利用预训练网络从海量正常的螺栓图像中提取特征，构建“正常特征记忆库” 32。在训练阶段，不需要人工标注过的异常数据图片，只需提供海量正常的、紧固的列车底部手机照片供其学习，构建一个“正常特征记忆库”。在推理阶段，当待测图像的特征距离偏离记忆库的正常分布（例如螺丝的形态扭曲、生锈、错位等）时，系统便触发异常告警 32。这种方案实现了真正的“零缺陷样本冷启动”，通用性极强，不论是松动、生锈还是断裂，任何偏离正常状态的物理现象都会被捕捉 14。并且极大地降低了数据收集与标注成本。

基于视觉语言大模型（VLM, Vision-Language Models, VLM）的零样本异常检测。多模态视觉语言模型（Vision-Language Models, VLMs），例如 Qwen2.5-VL，通过对齐视觉编码器与大语言模型，展现出了令人惊叹的泛化性和零样本（Zero-Shot）工业检测能力 24。用户只需输入照片并通过自然语言提示词（Prompt），。例如：“作为高级质检员，请检查图中的防松标记线是否错位或断裂”，模型即可直接推理输出螺栓松动或缺失的描述 26 。然而，在当前的硬件生态下，VLM 的算力与显存需求极高。例如 Qwen2.5-VL-7B 在半精度下需要约 17GB 显存，无法在移动端或普通终端设备运行 29，，必须回传至云端 GPU 集群处理。此外，VLM 在处理涉及微米级、像素级的严谨工业几何测量时，容易产生大模型幻觉，目前尚无法作为严苛安全领域的最终定案依据 25。它更适合作为现场疑难杂症的“云端辅助诊断仪”，而非绝对的决策依据。

评估结论：在无法更换硬件的前提下，利用异常检测算法进行“宽泛报警+人工复核”是最务实的做法。

6. 不同场景技术方案比较

评估维度	场景一：工业检测流水线（完全受控环境）	场景二：现场运维单反拍摄（半受控环境）	场景三：现场运维手机拍摄（非受控极端环境）
硬件约束与质量	最优。工业全局快门相机 + 远心镜头。物理上消除畸变与模糊。	良。机械快门防抖+大底高信噪比，保留极佳细节。	差。卷帘快门易产生扭曲（果冻效应），暗光涂抹严重。
推荐核心算法	YOLO11宏观定位 + 图像几何测量（角度计算）。	YOLO11 + SAHI切片推理 + 掩码分割 + 透视矩阵拉平校正。	YOLO11初步定位 + 无监督异常检测（PatchCore）判定异常偏离。
检测精度与鲁棒性	极高。物理层面消除了光影与畸变，精度可达工业计量级，误差趋近于0度。	高。依靠软件算法强行校正倾斜视角，能在复杂光影下实现1-2度内的误差控制。	中/高。对未知异常敏感，但由于画质受限且缺乏明确物理特征量化，可能存在假阳性误报。无法精确量化角度，以定性告警为主。
开发与数据难度	极低。场景固定，算法链路短，模型极难过拟合，无需海量标注或复杂的调参。	较高。需要深厚的深度学习与传统多视几何（Multiple View Geometry）混合编程能力。	低。PatchCore 等算法可以实现无监督、零缺陷样本启动，不需要人工标注缺陷数据。
算力资源消耗	极低。普通边缘工控机即可支持多路高帧率实时检测。	中/高。算法链路极长，需要具备独立显卡的边缘计算节点支撑。	中（若异常检测。开销适中，但需要较大内存来加载正常样本的特征记忆库。） / 极高（若采用云端VLM大模型）。
经济性与 ROI（投资回报率）	前期固定资产投入（硬件成本）：较高。边际检测成本：极低。	前期固定资产投入：中等。边际检测成本：中等。	前期固定资产投入：中等/ 高（如果引入VLM模型）。边际检测成本：中等。

7. 南京地铁项目实际项目场景与技术路线重构

7.0. 南京地铁项目需求

以下需求由南京地铁业主方提供。最后更新：2026-03-19。

检测项目包括（根据目前业主提供的信息，以下列表即为全部检测项目）

平斜腕臂连接跳线抱箍螺栓脱落

平斜腕臂连接跳线缺失

平斜腕臂连接跳线抱箍脱落

平斜腕臂连接跳线抱箍螺栓螺母缺失

平斜腕臂连接跳线抱箍缺失

平斜腕臂连接跳线抱箍螺栓用铁丝代替

平斜腕臂连接跳线抱箍螺栓缺失

平斜腕臂连接跳线抱箍螺栓螺母松动

绝缘子破损

垂直悬吊安装底座螺栓副螺母缺失

地线线夹托板固定螺栓副螺母缺失

地线线夹托板安装底座副螺母缺失

120型地线线夹螺栓副螺母缺失

120型地线线夹螺栓装反

单支悬吊槽钢下方副螺母缺失

汇流排中间接头螺栓缺失

电缆从固定卡中脱落

固定卡箍松脱

汇流排表面脏污

汇流排表面异物

指标要求：

螺丝松动：没有严格标准，螺栓之间有间隔就算。

示例图片：吊槽钢下方副螺母松动

7.1. 实际场景特征定位与需求解析

在本报告的之前部分，我们深入剖析了“车底复杂环境”下“螺纹微观旋转松动”这一行业公认的最难检测难点。然而，根据南京地铁业主最新提供的详细检测清单与现场示例照片（如“吊槽钢下方副螺母松动.jpg”），本项目的实际应用场景、检测对象形态以及判定标准与前期假想存在一定差异。之前我们主要假想了最困难的情况（车底复杂光影下、基于防松标记线的几度微小旋转），而业主实际面临的是接触网/汇流排（车顶/隧道顶部）部件的宏观物理形态变化。

业主明确提出“螺栓之间有间隔就算松动”，并将大量接触网、绝缘子、汇流排等宏观物理缺陷纳入检测范围。这意味着我们在算法实现上的难度的降低：核心松动特征从难以捕捉的“微观角度变化”降维成了清晰可见的“宏观轴向间隙”。因此，我们的技术路线无需拘泥于复杂的几何透视校正，而应全面转向多类别目标检测与长尾异常识别架构。

基于业主提供的最新资料，本系统的实际运作环境与核心需求可提炼为以下三大关键特征：

作业场景向“车顶/轨旁供电系统”转移：检测清单中密集的“平斜腕臂”、“汇流排”、“绝缘子”等术语表明，目标对象属于地铁的接触网与刚性悬挂供电系统。示例图片呈现出典型的暗光、灰度/近红外特征，且视角多为仰视。这说明图像极有可能来自于搭载于巡检车车顶的工业相机（如车载弓网动态检测系统），而非检修人员在地沟中手持拍摄。因此，图像的视角相对稳定，物理畸变可控。

松动判定标准的“宏观化”与“几何降维”：业主给出的“没有严格标准，螺栓之间有间隔就算”极大地降低了算法门槛。如示例图所示，副螺母松动表现为上下两颗螺母之间出现了明显的黑色物理空隙。我们完全可以摒弃原方案中依赖“防松标记线”提取和“绝对角度计算”的重型计算链路。

缺陷类别的“泛化”与“长尾分布”：项目已从单一的“测松动”演变为一个庞大的“多任务综合视觉体检”。除了常规的部件缺失、断裂与脏污外，还出现了“用铁丝代替”、“装反”等极其丰富、非标准化的异常状态。这类缺陷在现实中极难收集到足够的训练样本，属于典型的长尾分布难题。

此外，示例图片呈现典型的灰度/红外特征，且视角自下而上，这通常来自于轨道巡检车（如 3C 弓网检测系统）或固定在车顶的工业相机，而不是我们在第4、5节中重点讨论的“检修人员手持单反/手机拍摄”。

7.2. 核心技术路线一：基于 YOLO11 的间隙识别与多目标检测

针对有明确形态特征的常规缺陷（如副螺母间隙松动、绝缘子破损、抱箍缺失等），端到端的 YOLO11 目标检测模型是最高效且精度最有保障的主力方案。

形态分类检测策略：无需计算角度，直接将“紧固的螺母组”和“带有间隙的螺母组”定义为两个独立的分类标签进行监督学习。在数据标注阶段，由于示例图片的显示特征非常明显（高对比度的灰度图下，螺母与螺母之间有黑色缝隙），人工标注的难度大大降低，主观一致性会非常高。在模型的训练 / 推理阶段，由于灰度图片中金属与黑色间隙的对比度极高，YOLO11 能够轻易提取这种宏观的形态差异，实现极高的召回率。

关键点距离测量策略（备选）：若业主后期需要量化间隙大小，可引入 YOLO11-Pose 关键点检测模型。训练模型输出上下两颗螺母的中心坐标点，直接计算两点在二维图像中的像素欧氏距离。当像素距离超过标定的紧固阈值时，即触发松动告警。

多类别联合训练体系：将清单中的“缺失”、“破损”、“脱落”等状态统一纳入 YOLO 的检测分类库。利用 SAM（Segment Anything Model）等大模型辅助人工快速框选海量巡检图片，构建高质量的多标签训练数据集。

7.3. 核心技术路线二：长尾非标缺陷的“大模型+异常检测”兜底机制

针对清单中“平斜腕臂连接跳线抱箍螺栓用铁丝代替”以及“120型地线线夹螺栓装反”这类极度缺乏规律、依靠人类常识才能判定的缺陷，属于典型的长尾缺陷（Long-tail Defects）。传统的监督学习可能会因为缺乏正样本而导致失效：

数据极度匮乏：在线路中，检修工人几年可能才会遇到一两次有人违规用铁丝缠绕的情况。我们已有的数据集里可能只有 5 张、10 张这样的照片。

模型无法收敛：如果把这仅有的几张照片作为一个类别（Class）放进 YOLO 去训练，模型无法提取出“铁丝”的通用泛化特征。它要么会把这几张照片的背景“死记硬背”下来（过拟合），要么在训练的损失函数优化中，直接把这个类别当成边缘噪声给忽略掉。

针对这些情况，我们最推荐的方案是引入我们在前期预研中储备的前沿技术：

无监督异常检测（PatchCore）：针对“装反”或“铁丝代替”等现象，利用海量正常安装状态的图片建立正常特征记忆库。当输入带有铁丝的异常图片时，无论铁丝怎么缠绕、什么颜色，它在图像上呈现出的杂乱纹理特征，都会与“正常特征库”中的平滑金属几何形态产生巨大的数学距离（特征偏移）。系统只需设定一个偏离阈值，超过该阈值即报出“存在未知异常”，提示人工介入复核。

视觉语言多模态大模型（VLM）定点排查：对于极难界定的复杂工况，可将云端部署的 Qwen2.5-VL 等视觉模型作为专家诊断系统。向 VLM 输入巡检图片并附带提示词（例如：“请检查画面中的螺栓连接处是否被非标准的铁丝缠绕”），利用大模型庞大的跨模态常识推理能力，实现对罕见缺陷的零样本（Zero-shot）直接定位。

其它可选的方案：

YOLO 基础检测 + 传统几何/逻辑规则。对于“装反”这类缺陷，不是让 YOLO 直接去学“什么是装反”，而是让 YOLO 去识别基础组件，然后基于物理逻辑编写判定代码。

具体操作：不是训练一个名为 线夹装反 的标签。相反，训练 YOLO 识别出两个独立的部件：螺栓头 (Bolt Head) 和 螺母 (Nut)。
逻辑判定：在工程上，某个型号的线夹安装是有严格朝向的（例如：标准安装时，螺母必须在左侧，螺栓头必须在右侧）。YOLO 输出这两个部件的边界框坐标后，只需要写一行简单的 Python 规则代码：如果判定 螺栓头 的中心 X 坐标小于 螺母 的中心 X 坐标，则直接触发“装反”告警。
优势：把复杂的语义理解降维成了简单的空间坐标对比。只要 YOLO 能认出螺母和螺栓，整个系统就能够识别出“装反”这类缺陷。
缺点：需要针对各种类型的缺陷分别处理，由专业人员分类、评估并编写判定代码。

合成数据增强 (Synthetic Data Generation)。即本报告 “3.6. 基于数字孪生的合成数据构建” 章节所描述的“凭空创造数据”。

具体操作：利用 Blender 或虚幻引擎 (Unreal Engine) 建立线夹和抱箍的 3D 模型。然后在软件里人工添加“铁丝”的三维资产，或者将螺栓模型在 3D 空间里翻转 180 度。
批量生成：通过脚本随机改变虚拟环境的光照、阴影、相机的视角和噪点，几分钟内就能渲染出上万张带有完美标注框的“铁丝缠绕”或“装反”的仿真图片。
优势：用极低的成本填补了长尾缺陷的数据真空，强行将长尾问题转化为 YOLO 模型最擅长的大数据暴力破解问题。

7.4. 针对巡检灰度图像的预处理工程

业主提供的“吊槽钢下方副螺母松动”图片整体偏暗，对比度较低。在送入神经网络推理之前，引入针对性的传统图像增强算法，能显著提升模型的抗干扰能力。

自适应对比度增强：在数据预处理管道中全面集成限制对比度自适应直方图均衡化（CLAHE）算法。该算法能够有效增强灰度图像中局部区域的纹理细节，使螺母边缘、金属反光以及螺母之间的“黑色间隙”变得异常锐利，大幅降低模型在暗光环境下的漏检率。

运动模糊抑制：如果巡检车在高速行驶中拍摄导致图像存在轻微的单向运动模糊，可前置部署轻量级的维纳滤波（Wiener Filter）或盲反卷积算法，在不增加过多算力开销的前提下还原图像的高频边缘特征。

8. MLOps工程化流水线与数据闭环体系建设

将实验室环境的 Demo 转化为工业级软件，必须依托现代化的 MLOps (Machine Learning Operations) 流水线 34。

在数据标注环节，建议引入 Meta 公司发布的 SAM（Segment Anything Model）作为半自动化标注引擎，通过少量工业数据微调构建 DA-SAM，实现一键式、高精度的像素级掩码标注，极大降低人工成本 36。标注人员只需在图像中点选提示点，SAM 就能毫秒级自动生成精密的像素级分割掩码，将标注效率提升百倍以上。

在模型训练与部署环节，随着数据的累积，必须引入诸如 MLflow 等平台进行版本控制 34，对每一次训练的超参数与指标进行自动化追踪。部署在边缘侧的推理服务需通过NVIDIA TensorRT进行算子融合与量化推理 15，以优化算力利用率。

最后是数据漂移监控。在生产环境中，系统应内置置信度监控模块。当检测到“困难样本”时，系统能够在后台默默将其回传至云端数据湖。通过将新旧数据混合并触发自动化重训流水线，系统能够像具有生命力一样不断进化，形成一条完美的数据飞轮（Data Flywheel）闭环，让模型在生产环境中持续进化 35。

9. 轨道交通领域人工智能前沿泛化应用场景前瞻

人工智能在轨道交通领域的应用，绝不仅限于一颗螺丝 / 螺栓的视觉诊断。随着深度学习、多模态传感器融合以及大模型技术的跨越式发展，AI 正在从单一的“辅助人工视觉巡检”，向多维度的“全息环境感知”与全生命周期的“预测性决策”深度演进。立足于南京地铁等先进城市轨道交通的智能化运营愿景，我们设想了以下数个进阶场景，它们展现出了极具想象力的落地潜能与巨大的潜在的商业价值。

9.1. 融合多模态感知的列车车底与车顶智能巡检机器人体系

以国内先进的轨道交通视觉检测企业在各城市地铁部署的智能巡检系统为例，AI与机器人技术的深度融合正在颠覆传统的列车段修作业标准 4。未来的巡检将不再依赖人工持手机拍摄，而是通过在车底地沟部署搭载高精度 2D 激光雷达、3D 结构光相机以及超清视觉传感器的复合型 AGV 机器人。这种系统不仅能够执行二维图像的目标检测，更能通过3D点云数据精确重建车底关键部件的空间形貌，精准识别包括枕簧微小裂纹、闸瓦极限磨耗超标、底板异常变形等复杂的三维物理缺陷。

与此同时，针对列车顶部的受电弓与接触网供电系统，由于其长期承受高压电弧与机械摩擦，是极易发生安全隐患的薄弱环节。利用先进的深度学习目标检测技术（比如本系统里推荐采用的核心模型 YOLO11）融合高速线扫描摄像机，可以在列车以特定速度驶入车库时，动态且无接触地捕捉受电弓碳滑板的异常磨损、羊角金属变形以及接触网几何参数的微观异常，实现完全无人化的车顶“非停机”自动巡检 1。

9.2. 基于轻量级视觉模型的站台门间隙异物全天候预警防护网络

现代地铁车站为了保障候车安全，已全面普及全高或半高站台门系统。然而，列车车体与站台门之间由于设计容差不可避免地存在一定宽度的物理狭小间隙。这一缝隙是极易发生乘客衣物、手杖夹伤或微小异物滞留的危险盲区。传统的红外光电传感器由于原理限制，极易受到灰尘、光线折射的干扰而产生频繁的误报。

引入深度视觉检测技术，特别是针对小目标优化的轻量化目标检测模型（如 GA-YOLOv11），可将AI算力通过端侧计算板（Edge NPU）直接下沉部署至站台前端的摄像头群组中。通过在骨干网络中引入轻量化卷积模块以大幅降低运算负荷，并融合全局注意力机制（GAM）以极大地提升微小目标（如背包带、衣角、甚至手机）在复杂背景下的特征分辨率，该系统能够在极短的时间内（几十毫秒级）实现极高精度、近乎零漏报的异物侵入识别。一旦系统敏锐地捕捉到间隙异物，它将通过低延迟专网瞬间联动列车信号系统（CBTC）与站台门控制系统，紧急切断列车发车指令，构筑起一道坚不可摧的站台生命安全防线 43。

9.3. 乘客复杂行为全息时空解析与智能安防闸机生态控制

地铁车站的闸机通道不仅是票务营收的关卡，更是车站大客流管控与公共安防的第一道咽喉。传统的闸机仅能依靠简单的红外对射判定物体的遮挡，无法理解通行者的真实意图与状态。通过为闸机赋予 AI 视觉通行控制单元，轨道交通运营方可以实现对乘客复杂行为轨迹的全息精准解析。

例如，利用时空动作识别网络与高精度的骨骼关键点追踪（Pose Estimation）技术，新一代智能闸机系统不仅能够在大客流冲击下准确无误地统计人流密度，更能在几毫秒内精确识别并区分各种异常与违规通行行为（如非法暴力闯入、通道逆行、恶意尾随、仿冒免票儿童等） 44。更具人文关怀的是，该系统能够通过视觉语义精准辨识出携带大型重型行李的旅客、推婴儿车的家属或使用轮椅的特需残障乘客，并在触发安防预警的同时智能调整闸机扇门的开合时长与夹角逻辑，避免对乘客造成物理误伤 44。

9.4. 融合数字孪生与大数据的全生命周期预测性健康管理（PHM）

南京地铁在智慧城市与智慧城轨领域的探索一直走在行业的前列。在部分车辆段的智能化试点项目中，已开始稳步构建跨越业务孤岛的系统协同与数据互通数字底座 3。在这个宏大蓝图中，人工智能视觉检测仅仅是感知层的触角，其未来的终极演进形态将是构建覆盖轨道交通全量机电设备的数字孪生（Digital Twin）模型与预测性健康管理系统（Prognostics and Health Management, PHM）。

通过将日复一日的视觉检测结构化数据，与底层机电传感器实时回传的高频时序数据，以及外部环境气象数据进行高维度融合，再输入到时序序列网络中，AI 系统将不再是简单地“发现问题”，而是能够以敏锐的数字洞察力捕捉设备状态从健康到亚健康，再到故障的微观衰退轨迹，从而精准预测关键部件的剩余使用寿命（RUL） 1。这一技术革命将促使轨道交通的运维战略从传统的“故障后维修”和“定期计划修”彻底升级为基于设备真实健康度的“预测性状态修”，全面提升城市轨道交通线网的安全韧性与运营效能 1。

引用文献

地铁设备运维中人工智能技术的应用研究 - ResearchGate, 3月 17, 2026にアクセス、 https://www.researchgate.net/publication/398768350_detieshebeiyunweizhongrengongzhinengjishudeyingyongyanjiu

CN116310294A - 一种地铁列车螺栓松动检测方法及装置- Google ..., 3月 17, 2026にアクセス、 https://patents.google.com/patent/CN116310294A/zh

Conference exhibits Shanghai's smart city models - Chinadaily.com.cn, 3月 17, 2026にアクセス、 https://global.chinadaily.com.cn/a/202510/27/WS68fec2e1a310f735438b70c2.html

景曜科技：“机器人+AI”强势赋能轨道交通_中华网, 3月 17, 2026にアクセス、 https://m.tech.china.com/redian/2025/1027/102025_1754426.html

Nanjing metro line S8 - KONE Corporation, 3月 17, 2026にアクセス、 https://www.kone.com/en/references/nanjing-metro-line-s8.aspx

南京国资面向AI开放首批20个高价值场景, 3月 17, 2026にアクセス、 https://www.xhby.net/content/s692056d4e4b0f69aec2e8272.html

Vision-Based Real-Time Bolt Loosening Detection by Identifying ..., 3月 17, 2026にアクセス、 https://pmc.ncbi.nlm.nih.gov/articles/PMC11511543/

Detection of Missing Bolts for Engineering Structures in Natural ..., 3月 17, 2026にアクセス、 https://pmc.ncbi.nlm.nih.gov/articles/PMC10304286/

Slicing Aided Hyper Inference (SAHI) for Small Object Detection | Explained - Encord, 3月 17, 2026にアクセス、 https://encord.com/blog/slicing-aided-hyper-inference-explained/

Slicing Aided Hyper Inference and Fine-tuning for Small Object Detection - arXiv.org, 3月 17, 2026にアクセス、 https://arxiv.org/abs/2202.06934

Bolt Loosening Detection Using Key-Point Detection Enhanced by Synthetic Datasets, 3月 17, 2026にアクセス、 https://www.mdpi.com/2076-3417/13/3/2020

Bolt Loosening Detection Method Based on Improved YOLOv8 and Image Matching - IEEE Xplore, 3月 17, 2026にアクセス、 https://ieeexplore.ieee.org/iel8/6287639/6514899/10813333.pdf

Quality Assessment of High-Speed Motion Blur Images for Mobile Automated Tunnel Inspection - PMC, 3月 17, 2026にアクセス、 https://pmc.ncbi.nlm.nih.gov/articles/PMC12197302/

A systematic survey: role of deep learning-based image anomaly detection in industrial inspection contexts - Frontiers, 3月 17, 2026にアクセス、 https://www.frontiersin.org/journals/robotics-and-ai/articles/10.3389/frobt.2025.1554196/full

Ultralytics YOLO11 - Ultralytics YOLO Docs, 3月 17, 2026にアクセス、 https://docs.ultralytics.com/models/yolov11/

YOLO11 vs YOLOv7: A Detailed Technical Comparison - Ultralytics YOLO Docs, 3月 17, 2026にアクセス、 https://docs.ultralytics.com/compare/yolo11-vs-yolov7/

YOLOv7 vs YOLO11: A Comprehensive Technical Comparison - Ultralytics YOLO Docs, 3月 17, 2026にアクセス、 https://docs.ultralytics.com/compare/yolov7-vs-yolo11/

YOLO11 vs YOLOv8: A Comprehensive Technical Comparison of Real-Time Vision Models, 3月 17, 2026にアクセス、 https://docs.ultralytics.com/compare/yolo11-vs-yolov8/

(PDF) Performance Benchmarking of YOLOv11 Variants for Real-Time Delivery Vehicle Detection: A Study on Accuracy, Speed, and Computational Trade-offs - ResearchGate, 3月 17, 2026にアクセス、 https://www.researchgate.net/publication/387017345_Performance_Benchmarking_of_YOLOv11_Variants_for_Real-Time_Delivery_Vehicle_Detection_A_Study_on_Accuracy_Speed_and_Computational_Trade-offs

Ultralytics Docs: Using YOLO26 with SAHI for Sliced Inference, 3月 17, 2026にアクセス、 https://docs.ultralytics.com/guides/sahi-tiled-inference/

Adaptive Slicing-Aided Hyper Inference for Small Object Detection in High-Resolution Remote Sensing Images - MDPI, 3月 17, 2026にアクセス、 https://www.mdpi.com/2072-4292/15/5/1249

CN113469966B - 一种基于防松线识别的列车螺栓松动检测方法 - Google Patents, 3月 17, 2026にアクセス、 https://patents.google.com/patent/CN113469966B/zh

基于颜色分割的螺栓松动角度检测方法 - 机械强度, 3月 17, 2026にアクセス、 https://www.jxqd.net.cn/rc-pub/front/front-article/download/100920927/lowqualitypdf/%E5%9F%BA%E4%BA%8E%E9%A2%9C%E8%89%B2%E5%88%86%E5%89%B2%E7%9A%84%E8%9E%BA%E6%A0%93%E6%9D%BE%E5%8A%A8%E8%A7%92%E5%BA%A6%E6%A3%80%E6%B5%8B%E6%96%B9%E6%B3%95.pdf

Towards VLM-based Hybrid Explainable Prompt Enhancement for Zero-Shot Industrial Anomaly Detection | IJCAI, 3月 17, 2026にアクセス、 https://www.ijcai.org/proceedings/2025/80

MonitorVLM: A Vision–Language Framework for Safety Violation Detection in Mining Operations - arXiv, 3月 17, 2026にアクセス、 https://arxiv.org/html/2510.03666v2

Qwen-VL VLMs for zero- and few-shot object detection - Jamk Arena, 3月 17, 2026にアクセス、 https://arena.jamk.fi/en/arena-pro/qwen-vl-vlms-for-zero-and-few-shot-object-detection/

Use Qwen2.5-VL for Zero-Shot Object Detection - Roboflow Blog, 3月 17, 2026にアクセス、 https://blog.roboflow.com/qwen2-5-vl-zero-shot-object-detection/

Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models - arXiv, 3月 17, 2026にアクセス、 https://arxiv.org/html/2502.07601v1

Qwen 2.5 7B VRAM Tips Every Dev Should Know | by Novita AI - Medium, 3月 17, 2026にアクセス、 https://medium.com/@marketing_novita.ai/qwen-2-5-7b-vram-tips-every-dev-should-know-932303373ff0

Qwen/Qwen2.5-VL-7B-Instruct · Hardware and vram requiremnt to run this model?, 3月 17, 2026にアクセス、 https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct/discussions/18

Has anyone benchmarked Memory Requirements to finetune Qwen2.5 7B ? : r/LocalLLaMA, 3月 17, 2026にアクセス、 https://www.reddit.com/r/LocalLLaMA/comments/1gnab91/has_anyone_benchmarked_memory_requirements_to/

FR-PatchCore: An Industrial Anomaly Detection Method for Improving Generalization - MDPI, 3月 17, 2026にアクセス、 https://www.mdpi.com/1424-8220/24/5/1368

Missing Bolts with Deep Learning and 3D Imaging - SciTePress, 3月 17, 2026にアクセス、 https://www.scitepress.org/publishedPapers/2024/125703/pdf/index.html

MLOps for Computer Vision: Key Components, Challenges and Best Practices - DAC.digital, 3月 17, 2026にアクセス、 https://dac.digital/mlops-for-computer-vision-key-components-challenges-and-best-practices/

MLOps for Computer Vision: Automating the Model Lifecycle - Medium, 3月 17, 2026にアクセス、 https://medium.com/@API4AI/mlops-for-computer-vision-automating-the-model-lifecycle-0d5af934d9b4

DA-SAM: A Defect-Aware Segmentation Model for Industrial Product Inspection - Scholars, 3月 17, 2026にアクセス、 https://scholars.ncu.edu.tw/en/publications/da-sam-a-defect-aware-segmentation-model-for-industrial-product-i/

SAID: Segment All Industrial Defects with Scene Prompts - PMC - NIH, 3月 17, 2026にアクセス、 https://pmc.ncbi.nlm.nih.gov/articles/PMC12389794/

DA-SAM: A Defect-Aware Segmentation Model for Industrial Product Inspection, 3月 17, 2026にアクセス、 https://ieeexplore.ieee.org/document/10930130/

Adapting Segment Anything Model (SAM) to Experimental Datasets via Fine-Tuning on GAN-based Simulation: A Case Study in Additive Manufacturing - arXiv.org, 3月 17, 2026にアクセス、 https://arxiv.org/html/2412.11381v1

Computer Vision Workshop: MLOps Best Practice - LandingAI, 3月 17, 2026にアクセス、 https://landing.ai/videos/computer-vision-workshop-mlops-best-practice

MLOps: Continuous delivery and automation pipelines in machine learning, 3月 17, 2026にアクセス、 https://docs.cloud.google.com/architecture/mlops-continuous-delivery-and-automation-pipelines-in-machine-learning

Quality Assessment of High-Speed Motion Blur Images for Mobile Automated Tunnel Inspection - MDPI, 3月 17, 2026にアクセス、 https://www.mdpi.com/1424-8220/25/12/3804

A Lightweight Subway Foreign Object Detection Model Based on Improved YOLOv11, 3月 17, 2026にアクセス、 https://www.mdpi.com/1424-8220/25/19/6137

AI赋能视觉通行控制单元，开创地铁过闸新时代 - 达实智能, 3月 17, 2026にアクセス、 https://chn-das.com/newscentre/info.aspx?itemid=1549&lcids=44&lcid=0

Design and Research of the Signal Intelligent Operation and Maintenance System for Nanning Metro Line 4 Based on PHM Technology, 3月 17, 2026にアクセス、 https://ideas.repec.org/a/dbb/ijeaaa/v2y2025i1p72-79.html