嵌入式人工智能的兩大挑戰(zhàn)
計算資源有限?,F(xiàn)在做人工智能,都需要使用深度學(xué)習(xí)做視覺處理、語音識別和自然語言處理。而神經(jīng)網(wǎng)絡(luò)參數(shù)一般都比較龐大,層數(shù)達到幾百層的網(wǎng)絡(luò)已經(jīng)不是少數(shù),需要消耗大量內(nèi)存,如何優(yōu)化網(wǎng)絡(luò)數(shù)據(jù)量,而又不損失數(shù)據(jù)精度,是嵌入式人工智能的重要挑戰(zhàn)之一。
計算能力有限。嵌入式平臺的計算能力也無法與傳統(tǒng)PC的計算能力相比,比如深度學(xué)習(xí)中常用的卷積神經(jīng)網(wǎng)絡(luò)(CNN),它能夠解決圖像處理的大部分問題。但是卷積部分的計算時間占據(jù)了所有計算時間的70%以上。所以如何優(yōu)化計算能力也是亟待解決的問題。
嵌入式人工智能平臺
如何應(yīng)對嵌入式人工智能的挑戰(zhàn)?NVIDIA公司給出了答案。在最近的一些國際知名的硬創(chuàng)活動中,我們可以看到很多精彩的AI機器人和無人機案例,都應(yīng)用了深度學(xué)習(xí)技術(shù)。而他們背后都有一個共同點——NVIDIA Jetson TX1
Jetson TX1是NVIDIA第二代嵌入式平臺開發(fā)者套件,雖然只有信用卡大小,但Jetson TX1 GPU模塊的浮點運算能力卻達到1 Teraflops。這臺 AI 超級計算機采用 NVIDIA Maxwell™ 架構(gòu)、256 顆 NVIDIA CUDA® 核心 和 64 位 CPU,4GB LPDDR4 RAM 內(nèi)存(每秒帶寬速度達25.6Gbps)、16GB本地存儲模塊、802.11 2×2 ac Wi-Fi解決方案以及1Gbps以太網(wǎng)端口,同時還配備面向視覺計算的Jetson TX1開發(fā)者套件。
因為完全支持CUDA和cuDNN的接口,所以可以很方便地把PC上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)移植到Tegra X1的嵌入式平臺上。除此之外,TX1還可以提供豐富的硬件接口,方便接入各種硬件設(shè)備,包括攝像頭、各種傳感器等。NVIDIA還為Jetson提供了強大的軟件工具包,詳見下圖:
NVIDIA Jetson TX1應(yīng)用實例
來自香港浸會大學(xué)計算機系趙開勇博士基于Jetson TX1針對卷積計算做了一些性能上的優(yōu)化,包括讓CPU、GPU和內(nèi)存在最高頻率中運行,實現(xiàn)CPU、GPU和內(nèi)存協(xié)同調(diào)度。通過優(yōu)化GPU的并行計算,達到空間換時間的目的。
NVIDIA的GPU內(nèi)存訪問的一個特性,連續(xù)合并訪問,可以很好地利用硬件的帶寬。從架構(gòu)來看,優(yōu)化IO訪問,即使核心數(shù)目沒增加多少,架構(gòu)也沒太大變化,只是在幾個計算流處理器中間增加緩存,就能提高很大的性能。下圖是經(jīng)典的GPU內(nèi)存架構(gòu)與線程模型。
Intelligent Flying Machines (IFM) 是一家數(shù)據(jù)分析公司,該公司利用計算機視覺和機器人來自動完成倉庫數(shù)據(jù)捕捉。
NVIDIA TrailNet深度神經(jīng)網(wǎng)絡(luò)的Iris+無人機,在電腦視覺(Computer Vision)和深度學(xué)習(xí)(Deep Learning)技術(shù)的輔助下,順利穿越森林小徑。
JetsonTX1儼然成了無數(shù)硬件創(chuàng)客眼中的最炫裝備。且目前TX2也已經(jīng)推出,除了支持 Jetson TX1 模塊的所有功能,還可以支持更大型、更復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)計算,無疑更能讓硬件創(chuàng)客們?yōu)橹矍耙涣痢?br />
文字編輯:紫菜君
圖片視頻:網(wǎng)絡(luò)