图像分类

招晓贤

AI engine @ Facebook
  1. 亚马逊丛林卫星多任务学习与部署

  2. 多任务学习与人脸多属性识别

  3. 细粒度图像识别与bilinear CNN

  4. 已图搜图检索系统

  5. 目标检测

  6. 深度学习语义分割

  7. OCR光学文字识别

  8. 亚马逊丛林卫星多任务学习与部署 核心--tf sequence, 不定项选择和单选择

  9. 多任务学习与人脸多属性识别 多任务学习本质是迁移学习,很多形态, 联合学习,自主学习,辅助任务学习 归纳迁移 归纳编制 Estimator tf.data.Dataset %%writefile filename.py tf.decode_csv()解析csv文件 tf.read_file(filename)==>> tf.image.decode_image(filename,channels=3) tf.cast(age,tf.int64) tf.data.TextLineDataset() dataset.map()映射 dataset.shuffle乱序 dataset.repeat 反复读 tf.layers.dropout随机失活 tf.argmax

  10. 细粒度图像识别--就是更细致的品类分辨出来 方法: 传统:可以用resnet,vgg来分类, 目前细粒度图像识别方法主要有两种:

  11. 基于强监督学习方法: 这里强监督信息是指bounding box或者landmark

  12. 基于弱监督学习方法 Bilinear CNN--结构不复杂,效果好的双线性模型,网络A/网络B, 网络A对物体位置的截取,网络B是对网络A截取部分的特征提出 卷积神经网络就是特征抽取器

  13. 对图片的反转,截取,数据加强的处理

图像检索

  1. CBIR基本构成
  2. SIFT一种检测局部特征的算法,使用opencv
  3. 深度学习,卷积神经网络是非常好的抽取图片特征的网络
  4. 距离相似度. Jaccard相似度(A^B/AUB),余弦定理,欧式,近似最近邻问题
  5. t-SNE降维到2维--CNN==>抽取特征===>T-SNE==>降维到2维平面==>可以看出抽取特征后,类别已经划分好不同的模块,容易分类
  6. ANN近似最近邻算法,损失小量精度的情况下大幅度提升近邻检索速度
  7. 局部敏感度哈希
  8. 对图片预处理==> load_img ==>> img_to_array(img)转成ndarray==>>np.expand_dims(img,axis=0)就是变成batch

深度相似度排序模型

  1. 损失函数的构建
  2. 三元组采样,Convnet,排序
  3. 卷积神经网络越浅层是越捕捉细节纹理特征,越深层是捕捉越抽象的图像语义特征 打印model的层次layer for layer in deep_rank_model.layers: print(layer.name,layer.output_shape) glob.glob功能 pillow

基于深度学习的图像物体检测

  1. 目标检测 a. 分类 b.定位 c.检测 (画框框) d.分割 (抠图) 我觉得用图像检测可以测人流量
  2. Mask-RCNN完成物体检测
  3. SSD源码实现--无人驾驶的感知应用很多,兼顾了速度和精度 signle shot multibox ditections SSD 速度完爆 Faster R-CNN
  4. VGG, 把FC6和FC7换成卷积层,然后再加上8个卷积层
  5. default box是由一定规则生成的,是anchor机制类似
  6. NMS过滤掉背景和得分不是很高的框
  7. convolutional predictiors for detection
  8. bounding box

语义分割 FCN--特征融合就是反卷积+上采样==>>求和

  1. 全卷积FCN
  2. 反卷积层--增大图像尺寸
  3. 跳级结构 FCN-32s upsampled 上采样--放大图像

U-net SegNet--典型的encoder-decoder 先缩小再放大 Encoder是对内容进行抽象,decoder是对高阶信息的理解与编译 encoder stage-- pooling indices和pooled map

DeeplabV3+ Encoder+Decoder 空间金字塔--利用空洞卷积,生成基层卷积再过池化 ASPP

遥感图像语义分割

基于CRNN的不定长文字识别原理与实现

1.1 CRNN文字识别原理 1.2 数据处理 1.3 网络设计 1.4 损失函数 1.5 网络训练设计 1.6 训练过程与测试设计 1.7 识别效果和总结

CTC原理--解决不定长文字问题