昇思學習打卡-8-FCN圖像語義分割

目錄

  • FCN介紹
  • FCN所用的技術
  • 訓練數據的可視化
  • 模型訓練
  • 模型推理
  • FCN的優點和不足
    • 優點
    • 不足

FCN介紹

FCN主要用于圖像分割領域,是一種端到端的分割方法,是深度學習應用在圖像語義分割的開山之作。通過進行像素級的預測直接得出與原圖大小相等的label map。因FCN丟棄全連接層替換為全卷積層,網絡所有層均為卷積層,故稱為全卷積網絡。

FCN所用的技術

全卷積神經網絡主要使用以下三種技術:

  • 卷積化(Convolutional)
  • 上采樣(Upsample)
  • 跳躍結構(Skip Layer)
    跳躍結構利用上采樣技巧對最后一層的特征圖進行上采樣,得到原圖大小的分割是步長為32像素的預測,稱之為FCN-32s。由于最后一層的特征圖太小,損失過多細節,采用skips結構將更具有全局信息的最后一層預測和更淺層的預測結合,使預測結果獲取更多的局部細節。將底層(stride 32)的預測(FCN-32s)進行2倍的上采樣得到原尺寸的圖像,并與從pool4層(stride 16)進行的預測融合起來(相加),這一部分的網絡被稱為FCN-16s。隨后將這一部分的預測再進行一次2倍的上采樣并與從pool3層得到的預測融合起來,這一部分的網絡被稱為FCN-8s。 Skips結構將深層的全局信息與淺層的局部信息相結合。

訓練數據的可視化

import numpy as np
import matplotlib.pyplot as pltplt.figure(figsize=(16, 8))# 對訓練集中的數據進行展示
for i in range(1, 9):plt.subplot(2, 4, i)show_data = next(dataset.create_dict_iterator())show_images = show_data["data"].asnumpy()show_images = np.clip(show_images, 0, 1)
# 將圖片轉換HWC格式后進行展示plt.imshow(show_images[0].transpose(1, 2, 0))plt.axis("off")plt.subplots_adjust(wspace=0.05, hspace=0)
plt.show()

在這里插入圖片描述

模型訓練

import mindspore
from mindspore import Tensor
import mindspore.nn as nn
from mindspore.train import ModelCheckpoint, CheckpointConfig, LossMonitor, TimeMonitor, Modeldevice_target = "Ascend"
mindspore.set_context(mode=mindspore.PYNATIVE_MODE, device_target=device_target)train_batch_size = 4
num_classes = 21
# 初始化模型結構
net = FCN8s(n_class=21)
# 導入vgg16預訓練參數
load_vgg16()
# 計算學習率
min_lr = 0.0005
base_lr = 0.05
train_epochs = 1
iters_per_epoch = dataset.get_dataset_size()
total_step = iters_per_epoch * train_epochslr_scheduler = mindspore.nn.cosine_decay_lr(min_lr,base_lr,total_step,iters_per_epoch,decay_epoch=2)
lr = Tensor(lr_scheduler[-1])# 定義損失函數
loss = nn.CrossEntropyLoss(ignore_index=255)
# 定義優化器
optimizer = nn.Momentum(params=net.trainable_params(), learning_rate=lr, momentum=0.9, weight_decay=0.0001)
# 定義loss_scale
scale_factor = 4
scale_window = 3000
loss_scale_manager = ms.amp.DynamicLossScaleManager(scale_factor, scale_window)
# 初始化模型
if device_target == "Ascend":model = Model(net, loss_fn=loss, optimizer=optimizer, loss_scale_manager=loss_scale_manager, metrics={"pixel accuracy": PixelAccuracy(), "mean pixel accuracy": PixelAccuracyClass(), "mean IoU": MeanIntersectionOverUnion(), "frequency weighted IoU": FrequencyWeightedIntersectionOverUnion()})
else:model = Model(net, loss_fn=loss, optimizer=optimizer, metrics={"pixel accuracy": PixelAccuracy(), "mean pixel accuracy": PixelAccuracyClass(), "mean IoU": MeanIntersectionOverUnion(), "frequency weighted IoU": FrequencyWeightedIntersectionOverUnion()})# 設置ckpt文件保存的參數
time_callback = TimeMonitor(data_size=iters_per_epoch)
loss_callback = LossMonitor()
callbacks = [time_callback, loss_callback]
save_steps = 330
keep_checkpoint_max = 5
config_ckpt = CheckpointConfig(save_checkpoint_steps=10,keep_checkpoint_max=keep_checkpoint_max)
ckpt_callback = ModelCheckpoint(prefix="FCN8s",directory="./ckpt",config=config_ckpt)
callbacks.append(ckpt_callback)
model.train(train_epochs, dataset, callbacks=callbacks)

在這里插入圖片描述

模型推理

import cv2
import matplotlib.pyplot as pltnet = FCN8s(n_class=num_classes)
# 設置超參
ckpt_file = "FCN8s.ckpt"
param_dict = load_checkpoint(ckpt_file)
load_param_into_net(net, param_dict)
eval_batch_size = 4
img_lst = []
mask_lst = []
res_lst = []
# 推理效果展示(上方為輸入圖片,下方為推理效果圖片)
plt.figure(figsize=(8, 5))
show_data = next(dataset_eval.create_dict_iterator())
show_images = show_data["data"].asnumpy()
mask_images = show_data["label"].reshape([4, 512, 512])
show_images = np.clip(show_images, 0, 1)
for i in range(eval_batch_size):img_lst.append(show_images[i])mask_lst.append(mask_images[i])
res = net(show_data["data"]).asnumpy().argmax(axis=1)
for i in range(eval_batch_size):plt.subplot(2, 4, i + 1)plt.imshow(img_lst[i].transpose(1, 2, 0))plt.axis("off")plt.subplots_adjust(wspace=0.05, hspace=0.02)plt.subplot(2, 4, i + 5)plt.imshow(res[i])plt.axis("off")plt.subplots_adjust(wspace=0.05, hspace=0.02)
plt.show()

在這里插入圖片描述

FCN的優點和不足

除了文中提到的FCN的優缺點,我還了解到以下優缺點:

優點

  • 端到端的像素級分類:FCN能夠實現從圖像到像素級的端到端語義分割。
  • 保留空間信息:FCN通過卷積層和上采樣操作保留了圖像的重要空間信息,有助于提高分割精度。
  • 魯棒性:FCN對圖像的旋轉、平移等變化具有較強的魯棒性。
  • 廣泛性:FCN適用于各種類型的圖像分割任務,包括彩色圖像、灰度圖像和多光譜圖像等。

不足

  • 訓練復雜性:FCN可能需要多次訓練和微調才能獲得較好的性能,例如FCN-32s、FCN-16s和FCN-8s的逐步訓練。
  • 計算量大:FCN需要進行大量的卷積運算和參數學習,導致計算量大,訓練時間長。
  • 對噪聲敏感:FCN可能對噪聲和圖像中的無關信息較為敏感,容易受到干擾。
  • 數據需求量大:FCN的訓練通常需要大量的標注數據,這在某些領域可能是一個挑戰。

此章節學習到此結束,感謝昇思平臺。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/41935.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/41935.shtml
英文地址,請注明出處:http://en.pswp.cn/web/41935.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

clean code-代碼整潔之道 閱讀筆記(第十六章)

第十六章 重構SerialDate 16.1 首先,讓它能工作 利用SerialDateTests來完整的理解和重構SerialDate用Clover來檢查單元測試覆蓋了哪些代碼,效果不行重新編寫自己的單元測試經過簡單的修改,讓測試能夠通過 16.2 讓它做對 全過程&#xff1…

若依微服務初始化搭建教程

文章目錄 🥝從Gitee拉取代碼🍄初始化項目配置配置項目maven配置項目JDKmaven - clean - install 🍒數據源配置創建config / seata數據庫創建ry-cloud數據源導入ry-cloud數據 🍰啟動Nacos下載Nacos修改Nacos配置雙擊startup.cmd啟動…

梧桐數據庫:查詢優化器是提升數據庫性能的關鍵技術

查詢優化器是數據庫管理系統中的核心組件之一,它的主要作用是在執行查詢語句之前,選擇最優的執行計劃,以提高查詢性能。 查詢優化器的基本原理 查詢優化器的主要目標是找到一個執行代價最小的查詢執行計劃。它通過對查詢語句進行語法分析、…

GraphRAG:AI的全局文本理解革新

前言 在人工智能領域,處理和理解大量文本數據始終是一個挑戰。隨著大型語言模型(LLMs)的出現,自動化地進行復雜的語義理解和文本摘要變得可能。檢索增強生成(RAG)方法因其能有效結合檢索與生成技術&#x…

C++基礎語法之重載引用和命名空間等

1.C關鍵字 c的關鍵字比我們的c語言的關鍵字多,c包容C語言并對C語言進行了補充,但是我們對關鍵字的學習是在我們后面逐漸學習的。這里我們的只是提供一個表格對齊了解一下。 2.命名空間 我們c出現了命名空間的概念,用關鍵字namespace來定義。…

LeetCode 二分查找

1.題目要求: 給定一個 n 個元素有序的(升序)整型數組 nums 和一個目標值 target ,寫一個函數搜索 nums 中的 target,如果目標值存在返回下標,否則返回 -1。示例 1:輸入: nums [-1,0,3,5,9,12], target 9 輸出: 4 解…

論文閱讀 - Intriguing properties of neural networks

Intriguing properties of neural networks 經典論文、對抗樣本領域的開山之作 發布時間:2014 論文鏈接: https://arxiv.org/pdf/1312.6199.pdf 作者:Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian Goodfellow,…

信息技術課堂上如何有效防止學生玩游戲?

防止學生在信息技術課堂上玩游戲需要綜合運用教育策略和技術手段。以下是一些有效的措施,可以用來阻止或減少學生在課堂上玩游戲的行為: 1. 明確課堂規則 在課程開始之初,向學生清楚地說明課堂紀律,強調不得在上課時間玩游戲。 制…

電阻負載柜的工作原理是什么?

電阻負載柜是用于模擬電網中各種負載特性的設備,廣泛應用于電力系統、新能源發電、電動汽車充電站等領域。其工作原理主要包括以下幾個方面: 1. 結構組成:電阻負載柜主要由變壓器、調壓器、電阻器、控制器、保護裝置等部分組成。其中&#xf…

理解神經網絡的通道數

理解神經網絡的通道數 1. 神經網絡的通道數2. 輸出的寬度和長度3. 理解神經網絡的通道數3.1 都是錯誤的圖片惹的禍3.1.1 沒錯但是看不懂的圖3.1.2 開玩笑的錯圖3.1.3 給人誤解的圖 3.2 我或許理解對的通道數3.2.1 動圖演示 1. 神經網絡的通道數 半路出嫁到算法崗,額…

數據防泄密軟件精選|6款好用的數據防泄漏軟件強推

某科技公司會議室,CEO張總、CIO李總、信息安全主管王經理正圍繞最近發生的一起數據泄露事件展開討論。 張總(憂慮): 大家,這次的數據泄露事件對我們來說是個沉重的打擊。客戶信息的外泄不僅損害了我們的信譽,還可能面…

DAY2:插件學習

文章目錄 插件學習ClangGoogle TestCMakeDoxygen 收獲 插件學習 Clang 是什么:Clang 是指 LLVM 項目的編譯器的前端部分,支持對 C 家族語言(C、C、Objective-C)的編譯。Clang 的功能包括:詞法分析、語法分析、語義分析、生成中間中間代碼 L…

【源碼+文檔+調試講解】智能倉儲系統 JSP

摘 要 隨著科學技術的飛速發展,社會的方方面面、各行各業都在努力與現代的先進技術接軌,通過科技手段來提高自身的優勢,智能倉儲系統當然也不能排除在外。智能倉儲系統是以實際運用為開發背景,運用軟件工程開發方法,采…

Dubbo源碼解析-過濾器Filter

上篇我們介紹了消費端負載均衡的原理 Dubbo源碼解析-負載均衡-CSDN博客 因為篇幅問題,本文主單獨Dubbo消費端負載均原理,從dubbo源碼角度進行解析。 大家可以好好仔細讀一下本文。有疑問歡迎留言。 接著說明,讀Dubbo源碼最好是先對Spring源碼…

小車解決連接 Wi-Fi 后還不能上網問題

小車解決連接 Wi-Fi 后還不能上網問題 跟大家講講:為什么小車連接我們自己的熱點以后還是不能聯網呢? 小車連接我們的熱點以后需要訪問外面的網絡,我們訪問網絡使用域名來進行的,所以要對域名進行解析,但是小車原來的域…

【HarmonyOS NEXT】鴻蒙線程安全容器集collections.Map

collections.Map 一種非線性數據結構。 文檔中存在泛型的使用,涉及以下泛型標記符: K:Key,鍵V:Value,值 K和V類型都需為Sendable類型。 屬性 元服務API:從API version 12 開始&#xff0c…

Android 系統網絡、時間服務器配置修改

1.修改wifi 是否可用的檢測地址: 由于編譯的源碼用的是谷歌的檢測url,國內訪問不了,系統會認為wifi網絡受限,所以改成國內的地址 adb shell settings delete global captive_portal_https_urladb shell settings delete global captive_por…

貓咪浮毛太多怎么處理?6年鏟屎官最值得買的貓毛空氣凈化器分享

作為一位擁有6年鏟屎經驗的鏟屎官,家中既有寶寶又有毛孩子的鏟屎官家庭來說,空氣中的寵物異味和貓毛不僅影響生活質量,更關乎家人的健康。普通空氣凈化器雖然能夠提供基本的空氣凈化,但對于養貓家庭的特定需求,如去除寵…

捕獲 IPython 的輸出:深入探索 %%capture 命令的妙用

捕獲 IPython 的輸出:深入探索 %%capture 命令的妙用 在 IPython 的強大功能中,%%capture 魔術命令是一顆隱藏的寶石,它允許用戶捕獲執行單元格的輸出,無論是打印的文本、錯誤信息還是生成的圖像。這對于創建干凈的報告、自動化文…

使用 YOLOv8 實現人體姿態檢測

引言 在計算機視覺的各種應用中,人體姿態檢測是一項極具挑戰性的任務,它能夠幫助我們理解人體各部位的空間位置。本文將詳細介紹如何使用 YOLOv8 和 Python 實現一個人體姿態檢測系統,涵蓋模型加載、圖像預處理、姿態預測到結果可視化的全流…