在一些智能手機(jī)的相冊(cè)里,只需長按照片,圖中的人、物就會(huì)與背景分開,用戶可以直接保存分割出的內(nèi)容,進(jìn)行編輯和分享,日常生活中這樣的圖像分割技術(shù)已無處不在,它甚至可以用于醫(yī)學(xué)影像分析,如計(jì)算機(jī)斷層掃描(CT)和磁共振成像(MRI)等,來幫助醫(yī)生更好地識(shí)別病變部位和范圍,提高診斷準(zhǔn)確率和治療效果。
【資料圖】
圖像分割是計(jì)算機(jī)視覺領(lǐng)域的重要部分,它能將圖片中的每個(gè)像素按照不同的語義類別進(jìn)行分類,識(shí)別分割出圖中的各個(gè)部分,例如在街景圖中使用該技術(shù),就可以輸出一張將汽車、行人、建筑物按類別分割開的圖片。
然而,在訓(xùn)練圖像分割模型時(shí),研究人員需要人工標(biāo)注好大量圖片,指明圖中物體所屬類別,供模型提取特征、自我學(xué)習(xí),提高識(shí)別與分割的能力。這不僅費(fèi)時(shí)費(fèi)力,而且容易出錯(cuò),造成的錯(cuò)誤標(biāo)注會(huì)使模型難以達(dá)到預(yù)期的準(zhǔn)確度。
針對(duì)以上問題,西交利物浦大學(xué)智能工程學(xué)院的研究人員開發(fā)了一種新穎的技術(shù),讓圖像分割模型能夠從帶噪聲的標(biāo)簽中繼續(xù)學(xué)習(xí),即使標(biāo)注數(shù)據(jù)有誤,依然可以輸出較為準(zhǔn)確的結(jié)果。
該研究成果于近日收錄于計(jì)算機(jī)視覺領(lǐng)域頂級(jí)期刊《國際計(jì)算機(jī)視覺雜志》(International Journal of Computer Vision),它是中國計(jì)算機(jī)學(xué)會(huì)認(rèn)定的四本人工智能A類期刊之一, 影響因子13.3,這也是西浦第一篇收錄于該期刊的論文。
據(jù)論文的第一作者、智能工程學(xué)院2022屆博士畢業(yè)生張冰峰介紹,這項(xiàng)技術(shù)的靈感來源于我們?nèi)粘I钪械囊恍┙?jīng)驗(yàn),比如我們看到的景色可能會(huì)受到不同光線、天氣等因素的影響,讓我們產(chǎn)生不同的感受,影響我們的判斷。
研究團(tuán)隊(duì)借鑒了這種經(jīng)驗(yàn),引入了“雙專家結(jié)構(gòu)”,該結(jié)構(gòu)分別優(yōu)化兩種不同的圖片特征,給出兩種圖像分割結(jié)果的預(yù)測(cè),這兩種預(yù)測(cè)有不同的可信區(qū)域,綜合分析它們的可靠性后,就可以最終獲得一個(gè)更為精確的預(yù)測(cè)。
圖片說明:比較包含噪聲的標(biāo)簽和訓(xùn)練后得到的預(yù)測(cè)結(jié)果,(a)原始圖像,(b)真值,(c)帶噪音的標(biāo)簽, 白框表示標(biāo)簽中主要的噪聲區(qū)域,(d)通過優(yōu)化交叉熵?fù)p失得到的預(yù)測(cè)結(jié)果,(e)通過優(yōu)化soft Dice損失得到的預(yù)測(cè)結(jié)果;(d)和(e)是雙專家結(jié)構(gòu)中使用兩種不同的優(yōu)化方案后得到的圖像分割預(yù)測(cè)。
張冰峰的導(dǎo)師肖繼民博士指出,這項(xiàng)技術(shù)的應(yīng)用非常廣泛,尤其是在一些對(duì)圖像分割準(zhǔn)確度要求較高的領(lǐng)域,比如醫(yī)療影像、智能駕駛等。
“這項(xiàng)研究為我們提供了一種全新的技術(shù)手段,讓模型能夠更好地處理標(biāo)注數(shù)據(jù)中的噪聲和錯(cuò)誤,從錯(cuò)誤中獲取有效數(shù)據(jù)繼續(xù)學(xué)習(xí),提高圖片分割性能。相信在未來,這項(xiàng)技術(shù)將扮演越來越重要的角色,拉近我們與智能化生活的距離。”肖繼民博士總結(jié)道。
目前,張冰峰博士在中國石油大學(xué)擔(dān)任副教授職務(wù)。(記者:金畫恬 編輯:石露蕓)