展望:中國AI屬于世界第几?
本刊記者 沈雨青 [第3551期 2023-08-31發表]
與ChatGPT不同,飛龍芯和飛龍碼利用中文的底層邏輯,用中文的基因對整個世界進行了重新編譯。 圖源:朱邦復文化基金會財團官網
“中國人工智能我覺得應該處於世界前列水平。”一位業界人士在為記者答疑解惑時,這樣評價中國AI行業的發展。
開局王炸
事實上,中國人工智能產業孕育出人工智能特別是深度學習框架的時間,是非常早的,在現有的記錄中,在2006年,百度已經自發研究出最早的人工智能技術。而如果從AI的三大基石(算法、算力和數據)這三個維度來看中國AI產業發展,前述業內人士認為,從以上三個維度看,中國均處於世界前列,但橫向比較來看,中國的算法好於算力,算力好於數據。據斯坦福大學的《2023年AI指數報告》,在AI期刊論文的發表上,中國始終保持“霸榜”地位,在期刊論文的數量上,中國佔全球AI期刊論文的39.8%(2021年),其次是歐盟和英國(15.1%),然後才是美國(10.0%)。在中國的AI發明專利上,同樣存在一樣的問題,截至2022年9月1日,中國在人工智能(AI)核心技術領域的專利申請累計近75萬件(全球總量約133萬件),約佔全球總量的57%,居世界首位,或者可以說,中國在人工智能領域的專利申請量比第二名(美國)及第三名(韓國)申請量的總和還要多出一倍。但是,在授權專利數量(可代表專利的實際運用和市場認可度)上,仍然落後於美國。
不乏掣肘
而全球人工智能競賽狂潮,實則是一場關於算力的角力。儘管數據、算法、算力相互依賴、相互促進,但從權重來說,算法是AI的核心技術,是AI模型實現智能功能的邏輯和方法。在這方面,有報告顯示,中國已經以總分70分進入全球領跑者行列。尤其在2022年之前,中國算力的增幅明顯。據《2021~2022全球計算力指數評估報告》,當年中國算力水平增幅最大,達到13.5%,同時期美國計算力水平同比增長5%。也就是在這一時期,在計算能力方面,中國AI服務器支出規模同比大幅增長44.5%,首次超過美國位列全球第一;在基礎設施支持層面,中國數據中心規模居全球第二。即便就最新數據而言,中國情況也並不差。據工信部部長金壯龍8月19日在寧夏銀川舉辦的2023中國算力大會上的發言,截至目前,中國在用數據中心機架總規模超過760萬標準機架,算力總規模達到197EFLOPS(每秒19700京次浮點運算次數),位居全球第二。但為什麼前文要特地提及2022年之前呢?這還要從去年秋天,美國政府實施了一項許可證要求開始說起。在算力的競賽中,英偉達A100芯片無疑是最大的獎品,英偉達的GPU允許初創公司以比使用傳統計算機處理器低得多的成本訓練模型,“比如現在,你可以用大約10到2000萬美元構建類似大型語言模型的東西。”(英偉達首席執行官黃仁勳原話)。所以,類似英偉達芯片這樣的產品,對AI企業的發展至關重要,而獲取的途徑,無非兩樣,一是買,二是租。但不幸的是,去年秋天,美國政府實施了一項許可證要求,禁止英偉達將A100和H100出口到中國內地、香港和俄羅斯。此外,今年7月,《華爾街日報》引述知情人士的話,報道稱拜登政府正準備限制中國企業使用美國雲計算服務,可能會要求亞馬遜和微軟等美國雲服務提供商在向中國客戶提供使用先進人工智能芯片的雲計算服務之前,尋求美國政府的許可,這一政策,更是將矛頭直指中國GPU的使用與大模型的訓練。更糟糕的是,ChatGPT等AI大模型的發布,更直接對全球AI產業進行了大洗牌。“如果說,在2022年之前,中國AI產業還可以算得上樂觀的話,那麼從去年下半年ChatGPT的發布開始,應該說在某種程度上改變了整個AI產業的發展格局。”西安交通大學國家技術轉移中心廣東中心主任李勇這樣評價中國AI產業的現狀。與此同時,深圳AIGC企業——來畫創始人魏博曾告訴記者,“AI行業的邏輯非常簡單清晰,擁有更好的芯片,會誕生更好的模型,擁有更好的模型,會誕生更好的應用。但一旦失去‘先發’優勢,就完全沒機會(超越頭部應用)了。”當國際上出現相關細分領域的頭部應用後,全世界幾個億用戶都會蜂擁而至給它餵數據,短時間內,頭部應用會變得更智能,更聰明,吸引更多的用戶,“其它企業”與頭部企業的差距只會越跑越大,這就是AI應用工具的門檻。所以從某種意義上來說,儘管中國有很好的產業化基礎,亦有14億人口的龐大的潛在樣本庫,也在全力追趕且成績不俗,但一旦在AI領域,失去先發優勢,將再難實現彎道超車。
飛龍芯或是一條新賽道
“飛龍芯和飛龍碼,算是獨闢蹊徑。”李勇表示,與ChatGPT不同,飛龍芯和飛龍碼儘管也是仿人腦的應用,但其利用中文的底層邏輯,用中文的基因對整個世界進行了重新地編譯。簡單來說,這套飛龍碼的運作體系,其實是利用中文的偏旁邏輯,例如說月字旁的字,大部分與肉體有關,例如內臟的臟或是胖子的胖,與提手旁相關的大部分文字,則是與動作有關的,所以依此類推,按照中文本身自帶的分類方式,去構築代碼的底層邏輯。“中文的底層邏輯是非常清晰的,而且與這個事件客觀世界是幾乎可以一一對應的,所以基於這種中文的代碼邏輯,它的底層代碼相對來說體量要小很多,大概幾十兆就可以把底層的代碼都放進去了,從低碳降能耗的層面來講,中文AI在達到基礎應用的基本水準之後,相比同類型產品會低碳節能很多。”李勇說。此外,李勇將飛龍芯和飛龍碼比做了華為的鴻蒙系統,他指這套系統從戰略意義上來講,是最重要的。 “如果將二進制代碼,變成漢字,重大的系統性風險從根源上就屏蔽掉了。取而代之的,是國內一個自主知識產權體系的形成。”