
使用中央處理器(CPU),圖形處理器(GPU),現(xiàn)場可編程邏輯門陣列(FPGA)和專用集成電路(ASIC)來理解人工智能。
樹莓派(Raspberry Pi,是一款針對電腦業(yè)余愛好者、教師、小學生以及小型企業(yè)等用戶的迷你電腦)在電腦業(yè)余愛好者中十分受歡迎??v觀各國,有的人用它來推動啤酒生產(chǎn)自動化,有的人用它打開了機器人新世界的大門,還有的人在電影學科快速發(fā)展的現(xiàn)狀下,用它變革了科學、技術、工程、數(shù)學四大學科的教學方式。這些方式都是值得贊美的。那么微軟又利用它做了些什么呢?答案是設計了捕獵松鼠的噴水機器人。
在某公司的機器學習與優(yōu)化小組中,研究員發(fā)現(xiàn)幾只松鼠正在從喂鳥器中偷取花蕾和種子。為此,這個研究小組設計了一個計算機視覺模型,并把模型放到樹莓派3的主板上。然后,每當有嚙齒動物出現(xiàn)時,它就會打開灑水器。
這個故事的關鍵并不是他們多么討厭松鼠——而是他們將卷積碼神經(jīng)網(wǎng)絡與ARM處理器(英國Acorn有限公司設計的低功耗成本的第一款RISC微處理器)相結合。這也體現(xiàn)了這些公司正在改進硬件以支持AI運算法則。隨著AI越來越受關注,研究員們致力于發(fā)展其解決基礎事務的能力,比如識別圖像和語音。
隨著人們對科技的期望越來越大,如研發(fā)自動飛行無人機和自動駕駛汽車,硬件發(fā)展所面臨的挑戰(zhàn)也越來越大。對此,各個公司正在生產(chǎn)硅制品和計算節(jié)點來應對這些挑戰(zhàn)。
美國市場研究公司ABI Research研究部主任Jeff Orr將AI硬件發(fā)展劃分為3個廣泛領域:云服務,在線設備及混合領域。云服務主要是在微軟、亞馬遜和谷歌等超大規(guī)模數(shù)據(jù)中心環(huán)境下,在線上完成AI任務進程。
而在另一領域,他看到了設備的更多進程。在這些進程中,連接或延時禁止了數(shù)據(jù)傳送回云。
他說,“它的作用可能是發(fā)出聲音指令,使智能手機或智能眼鏡等可佩戴式設備不再需要人們親自動手操作。這方面的技術還會繼續(xù)發(fā)展,因為 當今世界還沒有大量在線設備的例子。”他認為增強現(xiàn)實是關鍵驅(qū)動力,要不然就只能假設永遠都有這種應用程序。
最后,混合領域結合了以上兩個領域來完成AI計算。然后,你的手機便能通過基于云的AI來識別你的問題和要求。
云:下雨式算法
云的重要性源于AI的學習方式。AI模型漸漸能夠開始深度學習,能使用多層復雜神經(jīng)網(wǎng)絡來創(chuàng)造更精確的AI程序。
神經(jīng)網(wǎng)絡的運用包含兩個方面。第一是測驗網(wǎng)絡是在何處分析數(shù)據(jù)并得出數(shù)據(jù)模型的,這是一種有效的“學習”階段。第二是推斷神經(jīng)網(wǎng)絡在何處解析新數(shù)據(jù)并得出精確結果。測驗這些網(wǎng)絡會消耗大量的計算能力,但是測驗負載可以分成多個并發(fā)運行的任務。這就是為什么有雙倍浮點精度和大芯數(shù)的GPU會如此擅長該任務。
然而,神經(jīng)網(wǎng)絡規(guī)模正在擴大,面臨的挑戰(zhàn)也越來越多。GPU主要供應商英偉達公司(Nvidia,是一家以設計智核芯片組為主的無晶圓(Fabless)IC半導體公司)加速計算小組的副組長Ian Buck說他們正在以每年兩倍的速度擴張。該公司正在創(chuàng)造更多計算密集的圖形處理器架構來應對其擴張,但也在改變著其對待數(shù)學的方式。
他說“即使精確度不那么高,它也能完成”。最初,神經(jīng)網(wǎng)絡測驗主要著手于32-位浮點數(shù),但他們在5月宣布,該神經(jīng)網(wǎng)絡優(yōu)化了新的Volta架構(英偉達的新一代GPU架構),使之能將16-點輸入32-位內(nèi)部計算。
Buck說,將其計算精確度縮減到16點有兩大好處。
“一是用戶可以利用更快的算法,因為處理器在較低的分辨率下往往具有更多的生產(chǎn)量。二是增加了可用帶寬的數(shù)量,因為你正在獲取每一個算法的數(shù)據(jù)。”
Buck談道,“問題是,其精確度可以達到多低呢?如果太低,便無法測驗,就無法達到生產(chǎn)所需的精準度,或者會變得不穩(wěn)定。”
超越GPU
雖然英偉達公司在精煉其架構,但一些云供應商已經(jīng)使用其他架構的GPU創(chuàng)建了自己的芯片。谷歌研發(fā)的TPU(谷歌為機器學習而設計的處理器)一代最初為推理工作負載而致力于8-點整數(shù)。在五月推出的新一代TPU提供了浮點精度,還能被用于測驗。這些芯片是專用集成電路(ASIC)。與CPU和GPU不同,它們是為特定目的而設計的(這些天你經(jīng)常會看到它們用于采礦比特幣),但它們不能重新編程。缺乏無關的邏輯使得他們的電力使用在性能和經(jīng)濟上都非常高,但卻非常昂貴。
谷歌的規(guī)模已經(jīng)大到可以承擔與設計ASIC相關的大量非經(jīng)常性支出(NRE),因為它在基于AI的數(shù)據(jù)中心運營中節(jié)約了成本。它在許多操作中使用它們,從識別街景視圖文本到執(zhí)行Rankbrain搜索查詢,并且每當TPU執(zhí)行某些操作(除GPU)時,Google可以節(jié)省電力。
Moor Insights & Strategy的高級分析師Karl Freund說:“這將節(jié)省很多錢。”
不過,他認為Google并不完全是為了節(jié)省成本才這樣做。 “我認為他們這樣做能夠完全控制硬件和軟件堆棧。”如果Google在AI上投注資金,那么從終端應用程序(如自動駕駛汽車到軟件框架)和云端來控制它是有意義的。
現(xiàn)場可編程邏輯門陣列(FPGA)及其它
當面對的不是溺水的松鼠時,微軟在自己的數(shù)據(jù)中心改造推出現(xiàn)場可編程門陣列(FPGA)。它們類似于ASIC(專用集成電路),但是可重新編程,以便更新其算法。它們處理Azure中的聯(lián)網(wǎng)任務,但是微軟也在機器翻譯這樣的AI工作負載上釋放出來。英特爾想要AI行業(yè)的一部分,無論它在哪里運行,包括云。
到目前為止,其Xeon Phi高性能CPU已經(jīng)處理了通用機器學習,最新版本代號為Knight s Mill,并預計在今年出貨。
盡管如此,該公司還擁有三項加速器,用于更具體的AI任務。對于研究深度學習神經(jīng)網(wǎng)絡,英特爾將其希望寄托在Lake Crest(專門為深度學習定制的一款芯片)。這是一個協(xié)處理器,該公司表示,使用一種名為HBM2的內(nèi)存來克服數(shù)據(jù)傳輸性能上限,這比DDR4快了大約12倍。
雖然這些大廠商在與GPU,F(xiàn)PGA和ASIC構建的系統(tǒng)進行競爭,但其他人正在嘗試從頭改寫AI架構。
據(jù)報道,Knuedge準備用基于云操作的256核心芯片,但他并未多說。
英國公司Graphcore由于需在2017年發(fā)布技術,已經(jīng)透露了一些。它希望其智能處理單元(IPU)使用基于圖形的處理,而不是GPU使用的向量或CPU中的標量處理。該公司希望這將使其能夠?qū)⒂柧毢屯评砉ぷ髫撦d適用于單個處理器。關于其技術有一個有趣的事情,它的基于圖的處理 應該是減輕AI處理中最大的問題之一——從內(nèi)存到處理單元的數(shù)據(jù)。而戴爾一直是該公司的支持者。
波的計算也專注于不同類型的處理,使用它所謂的數(shù)據(jù)流架構。它有一個專為數(shù)據(jù)中心運行而設計的訓練器具,可以達到2.9 PetaOPs /秒。