【AI初識境】近20年深度學習在圖像領域的重要進展節點

本文建議閱讀時間 9 min本文轉載自 有三AI 禁止二次轉載!

這是專欄《AI初識境》的第3篇文章。所謂初識,就是對相關技術有基本了解,掌握了基本的使用方法。

這是本系列的最后一篇非技術文章,我們總結一下深度學習技術在圖像領域的重要歷史性節點,本來打算語音,自然語言處理一起的,文章太長以后再談。

 作者&編輯 | 言有三

1

前深度學習時代

從早期的全連接神經網絡到卷積神經網絡CNN,跨度超過半個世紀,我們在上一期文章中進行過回顧,大家感興趣的可以回過頭去看。

【AI初識境】從頭理解神經網絡-內行與外行的分水嶺

幾個重要的節點是:

1943年:MP模型的提出。

1960~1980年:視覺機制的發現。

1979年:Neocognitron的提出,卷積神經網絡的萌芽。

1986年:反向傳播算法被用于神經網絡的優化并開始流行,同期動量算法提出被用于加速SGD。

1990年:TDNN模型,卷積神經網絡被用于語音識別。

1992年:Max-pooling被提出,此后成為卷積神經網絡標準組件。

1997年:LSTM被提出,促進了語音,自然語言處理等領域等發展。

1998年:LeNet5和MNIST數據集被提出和整理,兩者可以說各自是卷積神經網絡和圖像數據集的“Hello World”,總會被拿出來說一說。

所謂深度學習,是以人工神經網絡為基本架構的特征學習方法,涵蓋監督學習,無監督學習,半監督學習,增強學習等,模型結構以卷積神經網絡為代表,它不僅被用于圖像,也被用于語音,自然語言處理等各種領域。

2

深度學習時代

以2006年為分水嶺,下面盡量挑重點的,在學術界和工業界有重大意義,同時又廣為人知的來說。

2006年Hinton等人在science期刊上發表了論文“Reducing the dimensionality of >利用無監督的RBM網絡來進行預訓練,進行圖像的降維,取得比PCA更好的結果,通常這被認為是深度學習興起的開篇

2006年,NVIDIA推出CUDA,GPU被用于訓練卷積神經網絡,是當時的CPU的訓練速度的四倍。到現在,GPU是研發強大算法必備的條件,這也是大公司屢屢取得突破而小公司只能亦步亦趨跟隨的一個很重要的原因。NVIDIA的GeForce系列,搞深度學習的誰還沒有呢?

2006~2009年,在圖像MNIST數據集,語音TIMIT數據集以及一些垂直領域的小比賽比如TRECVID也取得了不錯的進展,但是還算不上突破性的,所以也不怎么為人所知。

2009年,CIFAR10和CIFAR100數據集被整理。由于MNIST是一個灰度圖像數據集,而大部分現實的任務為彩色圖像,所以Alex Krizhevsky等學者從TinyImage數據集中整理出了CIFAR10和CIFAR100。與MNIST一樣CIFAR10數據集也有60000張圖像,不過圖像為彩色。圖像大小是32×32,分為10個類,每類6000張圖。其中50000張用于訓練,另外10000用于測試。CIFAR100則分為100個類,每一類600張圖像。

這兩個數據集與MNIST一樣,在評測方法時非常常見。

2009年,ImageNet數據集被整理,并于次年開始每年舉辦一次比賽。ImageNet 數據集總共有1400多萬幅圖片,涵蓋2萬多個類別,為計算機視覺領域做出了巨大的貢獻,至今我們仍然使用著Imagenet來評估算法,以及預訓練其他任務的模型。

2009年前后幾年時間,屬于融匯貫通各種技術,數據和裝備,典型的蓄力階段,輔以小數據集和若干比賽的突破。

2011年,CNN以0.56%的錯誤率贏得了IJCNN 2011比賽并超過了人眼,這是一場交通標志的識別比賽,研究者開始對深度學習在自動駕駛中的應用前景展現出濃厚的興趣,畢竟在上個世紀90年代無人車的研究就已經開始了。現在無人車是非常大的一個應用前景。

2011年,Glorot等人提出ReLU激活函數,有效地抑制了深層網絡的梯度消失問題,現在最好的激活函數都是來自于ReLU家族,簡單而有效。

2012年,經典書籍《大數據時代》出版,作者維克托?邁爾?舍恩伯格在書中指出大數據時代來了,我們應該放棄對因果關系的追求,而關注相關關系,從“為什么”開始轉變到“是什么”,這不就是統計學習人工智能學派的基礎工具深度學習最擅長做的嗎。

也就是從那個時候開始,人們大喊,大數據來了,一時之間,數據科學家,數據挖掘工程師成為熱門。

2012年,Hinton的學生Alex Krizhevsky提出AlexNet網絡,以低于第2名10%的錯誤率贏得了ImageNet競賽。當時Alex Krizhevsky使用了兩塊顯卡GTX580,花了6天時間才訓練出AlexNet,我相信如果有更多的資源,AlexNet一定是一個更好的AlexNet。

2013年Hinton的學生Zeiler和Fergus在研究中利用反卷積技術引入了神經網絡的可視化,提出了zfnet,對網絡的中間特征層進行了可視化,為研究人員檢驗不同特征激活及其與輸入空間的關系成為了可能,慢慢地大家也開始都關注起深度學習的作用機制。

2013年,Ross Girshick等人提出了目標檢測模型RCNN,開創了CNN用于目標檢測的基準之一。隨后研究者針對該系列提出Fast RCNN,Faster RCNN等等。

2014年,GoogLeNet和VGGNet分別被提出,獲得ImageNet分類賽的冠亞軍。VGGNet很好的展示了如何在先前網絡架構的基礎上通過簡單地增加網絡層數和深度就可以提高網絡的性能,GoogleNet模型架構則提出了Inception結構,拓寬神經的寬度,成為了計算效率較高的深層模型基準之一。

2014年,無監督學習網絡GAN橫空出世,獨立成了一個新的研究方向,被LeCun譽為下一代深度學習,此后GAN在各大領域,尤其是圖像領域不斷“建功立業”,并與各類CNN網絡結構進行了融合。

2015年,ResNet獲得了ImageNet2012分類任務冠軍,以3.57%的錯誤率表現超過了人類的識別水平,并以152層的網絡架構創造了新的模型記錄,自此殘差連接在CNN的設計中隨處可見。

2015年,全卷積網絡Fully Convolutional Networks被提出用于圖像分割,自此圖像分割領域也即迎來大爆發。

2014年,Google啟動AlphaGo的研究,2015年10月AlphaGo擊敗歐洲圍棋冠軍樊麾成為第一個無需讓子即可擊敗圍棋職業棋手的計算機圍棋程序。2016年3月,AlphaGo在一場世界矚目的比賽中4:1擊敗頂尖職業棋手李世石,2017年5月23至27日在烏鎮圍棋峰會上,AlphaGo和世界第一棋手柯潔比試全勝。

AlphaGo的成功,對人工智能的普及工作意義非常深遠,讓不僅是從業者,外行人也開始領略到人工智能的強大,而背后就有卷積神經網絡的功勞。

此后便是卷積神經網絡在計算機視覺各大領域攻城略地,無往而不勝。關于都有哪些方向,可以參考這個。

【AI白身境】一文覽盡計算機視覺研究方向

而各種各樣的卷積神經網絡架構被提出,可參見我們之前的一個總結。

【完結】總結12大CNN主流模型架構設計思想

從上面的這些歷史可以看出,很多重要的研究其實都是同一時期出現,而最后為人所知雖然有先后的順序,但是金子遲早會發光。

這也不僅讓我們要思考,接下來幾年里大放異彩的,是現在哪些剛剛初出茅廬卻還沒有名噪天下的東西呢?

最后發一個通知,2019年有三AI培養計劃已經開始,一個季度一期。

2019年有三AI“春季”劃,給我一個榮耀,還你一生榮耀

總結

重要的節點通常都承前啟后,不管是作為談資,還是設身處地地站在當時的節點來思考一番,都是受益良多的。

本文是有史以來罕見的短文,一是為了給大家留出更多的思考空間,另一方面也是希望大家認真去翻翻我們以前的文章,信息量很大。

下一期預告:深度學習中的激活函數

推薦閱讀:人臉表情識別從0到部署,猜猜『輪到你了』的微笑狼人到底是誰!利用深度學習手把手教你實現一個「以圖搜圖」

后臺回復機器學習獲取學習資源


個人站點:

Github: https://github.com/FLyingLSJ

CSDN :  https://blog.csdn.net/LSJ944830401

BLOG:   https://flyinglsj.github.io/

感謝您的關注與支持!

免責聲明:本文僅代表文章作者的個人觀點,與本站無關。其原創性、真實性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容文字的真實性、完整性和原創性本站不作任何保證或承諾,請讀者僅作參考,并自行核實相關內容。

http://image99.pinlue.com/thumb/img_jpg/AmjGbfdONyl8lpcibsgR9F3qGOrH8xVdZxH4ibX35rlxO5Vh7rnHRrmg03xugLnObb7uSRLEPgcvkttMbX1ucAZg/0.jpeg
我要收藏
贊一個
踩一下
分享到
相關推薦
精選文章
?
pk10赛车开奖查询