图像字幕用文字描述图片中发生的情况。这个过程将计算机视觉与自然语言处理结合起来。通常使用编码器-解码器框架,其中输入图像被转换为描述图像中信息的中间表示,然后解码为描述性文本。
一只斑马站在高高的草丛中
斑马
去噪/降噪/降噪
去噪可以消除图像中的噪声,即像素颜色不正确等破坏性因素。这些过程 医疗保险线索电子邮件列表 在医学中很重要,因为放射图像中经常出现噪声。在图像的左侧,您可以看到患者的肺部有噪声,右侧是降噪版本(无/减少噪声)。
肺部的医学图像
分辨率高
超分辨率是人为提高图像分辨率的过程。左边的图像是图像的低分辨率版本。右图是神经网络改进后的版本。图像也被放大了。所以它更大、更清晰,细节更容易看到。
该技术用于以更好的分辨率显示压缩图像。最著名的例子是 NVidia DLSS。这种网络上的图像分辨率得到了提高,这意味着需要使用更少的存储空间。
使用示例获得很好的分辨率
其他应用
计算机视觉还有许多其他应用:
边缘检测:图像边缘检测
表面法线:预测现有对象的表面方向
重新着色:着色是指 3D 模型中深度感知的表示
不确定性估计:计算预测的不准确程度
深度估计:预测图像中对象的深度
深度学习相对于传统方法的优势
传统方法需要领域专业知识来解释类。这些描述性属性称为图像的描述性块。
下一步是使用 SIFT 或 Brief 等技术来描述这些特征。使用边缘检测、角点检测和阈值分割来检测补丁。这涉及提取尽可能多的特征并将它们用作此类的定义。然后在其他图像中搜索这些补丁,如果存在匹配,则将它们分配给该类。
深度学习过程
资料来源:智能制造深度学习:方法与应用
问题是,每次专家都必须确定相关特征是什么,并且还必须以能够与其他类别区分开来的方式进行设计。这是一项重大的后勤和资金努力。通过深度学习,您不需要这样做,因为网络会自动进行特征提取,并且可以“端到端”训练它们。质量控制仅通过图像的标签进行,因此必须事先知道哪个图像属于哪个类别。
CNN 是一类神经网络。他们使用卷积来处理图像。这些网络能够抵抗图像的变化。过滤器检测稍后可用于分类的属性。因此,在所有位置都可以找到对象。
下图显示了 CNN 的简单示例。您可以看到图像的一小部分被一次又一次地选择,并且有三层。这是因为它是 RGB 图像(即具有红、绿和蓝三个颜色通道)。使用卷积和池化(一种信息压缩),图像逐渐被压缩(x/y 方向),同时不同卷积的数量(z 方向)增加。这被称为上下文信息的增益,同时丢失定位信息。这发生在称为特征学习的领域。然后输出一个向量,其中包含每个类别的概率。最高概率就是神经网络“认为”适合图像的类别。
CNN 示例
深度学习的另一个优点是所谓的迁移学习。神经网络在大型图像数据集上进行训练。只需几张图像,它们就可以适应特定的用例。医疗数据就是一个例子,通常有 100 到 1000 个示例。在实践中,网络使用一百万张图像进行预训练,然后使用少量医学图像进行调整。这种方法非常有效,因为您主要训练网络的特征识别,并且它逐渐变得更加复杂。