英伟达最大的风险,在很少人关注的角落里!
今年的英伟达确实“猛”,不遗余力拼算力似乎已经成了科技巨头们的共识,部分原因在于,不少大模型都以对算力需求较高的Transformer为架构,而如果在不断迭代的过程中,Transformer逐步被对算力需求少的架构取代,这是否也将成为英伟达的“潜在风险”?
投资了OpenAI劲敌Cohere的著名风险投资家、Radical Ventures合伙人Rob Toews,在9月3日发布的专栏文章指出,Transformer在训练时支持并行化,与GPU的“爆火”时间点吻合。
GPU拥有更多流处理器,适合对密集数据进行并行处理和并发计算,非常适合且支持基于Transformer的计算工作流负载。
毫无疑问,Transformer的架构非常强大,彻底改变了AI界,但缺点也明显,当文章长度变长,计算复杂度就变得非常高,同时,随着模型规模不断扩大,所需计算量呈指数级增加,这两点都让Transformer的算力需求激增。
Toews指出,为了弥补Transformer存在的问题,包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度,减少算力需求。
Toews直言,尽管这些架构距离挑战Transformer的“王座”仍有较大差距,但不可否认的是,AI发展过程中新鲜的事物接连出现,不断更新换代的过程中,或许没有什么是永远屹立不倒的。
当算力需求激增之时,从某种程度上说,谁手握英伟达GPU,谁就掌握了AI时代最硬的“硬通货”。而如果在未来Transformer被对算力需求不高的架构取代,那对最大“卖铲人”英伟达来说将构成一定威胁。
Transformer的庞大计算成本
2017年6月12日,《Attention is All You Need》论文横空出世,让大模型领域变天的Transformer架构出现了。截至9月4日,Transformer诞生超过6周年,而这篇论文被引用高达87345次。
分析指出,基于Transformer不断扩展的大模型们,都是以处理性能和功耗方面的高昂成本为代价。因此,虽然人工智能的潜力可能是无限的,但物理和成本却是有限的。
为什么Transformer对算力的要求如此之高?
Toews解释称,主要有以下两个原因:1.注意力(attention)机制的计算复杂度,2.越发庞大的模型规模:
Transformer的基本原理是使用自注意力机制来捕获序列数据中的依赖关系,无论它们的距离有多远。
注意力机制需要将序列中每个词与其他所有词进行配对比较,这导致运算量随序列长度的平方增长,即计算复杂度为O(n^2)。这种平方级复杂度使得随着文本长度增加,所需计算成本急剧上升。
与此同时,Transformer架构可以更好地扩展大模型,所以研究者不断基于Transformer训练更大规模的模型。目前主流的语言模型参数量达到了数百亿级甚至万亿级,需要大量算力支持。随着模型规模的扩大,所需算力呈指数级上涨。
谷歌母公司Alphabet首席财务官Ruth Porat在财报电话会上表示,由于需要投资AI基础设施,资本支出将比去年的创纪录水平“略高”。
微软最新报告显示,该公司季度资本支出超出预期,首席财务官Amy Hood称原因为加大AI基础设施建设。
微软在今年年初又向OpenAI砸了100亿美元,为了支撑起大语言模型训练所需的庞大计算资源费用。成立仅18个月的初创公司Inflection也融资超过10亿美元用于构建GPU集群,以训练其大语言模型。
英伟达GPU在市场的“哄抢”中陷入产能瓶颈。最新的H100芯片早已全部卖空,现在下单要等2024年第一季度甚至第二季度才能排上队。
Toews指出,上述种种都不难看出,基于Transformer的模型对计算资源的需求之大,以至于当前的人工智能热潮引发了全球GPU供应短缺,硬件制造商无法跟上激增的需求。
Transformer面临的难题
同时,Toews指出,Transformer处理的句子长度受限,已有的方法大多使用截断的方式,这会导致信息损失,因此如何实现长文本的预训练是目前的一大难题。
而这场AI军备竞赛注定还将持续下去,如果 OpenAI、Anthropic或任何其他公司继续使用Transformer架构,那么它们模型的文本序列长度会受限。
Toews指出,人们已经进行了各种尝试来更新Transformer架构,仍然使用注意力机制,但能够更好地处理长序列。然而,这些改进后的Transformer架构(如Longformer、Reformer、Performer、Linformer和Big Bird)通常会牺牲部分性能,因此未能获得采用。
Toews强调,没有一样事物会是完美的,历史的发展也不会停下脚步,尽管Transformer在现在占据绝对的优势地位,但它也并非没有缺点,而这些缺点为新的架构打开了大门。
“王位”挑战者出现了?
Toews认为,现在寻找可以替代"Transformer"的架构成了最有潜力的领域,而其中的一个研究方向是用一种新的函数替代注意力机制。包括Hyena、Monarch Mixer、BiGS、MEGA等提出了用Subquadratic方法来降低运算复杂度,减少算力需求。
Toews强调,斯坦福和Mila的研究人员提出了一种名为Hyena的新架构,具有代替Transformer的潜力,它是一种无注意力、卷积架构,可以匹配注意力模型的质量,同时可以降低计算成本。在次二次多项式NLP任务上表现出色:
据称,Hyena可达到与GPT-4同等的准确性,但使用的算力比后者减少了100倍。这是第一个能够在总FLOPS减少20%的情况下与GPT质量相匹配的无注意力架构,具有成为图像分类的通用深度学习运算符的潜力。
Toews表示,需要注意的是,最初的"Hyena"研究是在相对小的规模下进行的。最大的"Hyena"模型具有13亿个参数,而GPT-3有1750亿个参数,而GPT-4据说达到1.8万亿个参数。因此针对"Hyena"架构的一个关键测试将是,在将其扩展到当前"Transformer"模型规模的情况下,它是否能继续表现出强大的性能和效率提升。
Toews认为,而液态神经网络是另一个具有取代“Transformer”潜力的架构。麻省理工学院的两名研究人员从微小的秀丽隐杆线虫(Caenorhabditis elegans)中汲取灵感,创造了所谓的 “液态神经网络” (liquid neural networks)。
据称,液态神经网络不仅速度更快,而且异常稳定,这意味着系统可以处理大量的输入而不至于失控。
Toews认为这种较小的架构意味着液态神经网络比"Transformer"更加透明且更易于人类理解:
毕竟,对于人类来说,更容易解释具有253个连接的网络发生了什么,而不是拥有1750亿个连接的网络。
当架构不断改进,逐渐减少了对算力的依赖,是否也意味着会对未来英伟达的营收产生影响?
免责声明:本网所发所有文章,包括本网原创、编译及转发的第三方稿件及评论,均不构成任何投资建议,交易操作或投资决定请询问专业人士。
作者:葛佳明
文章来源: 华尔街见闻
相关阅读
-
美股收盘:标普500指数续创历史新高 英特尔跌超6%
联储会议纪要显示,如果经济强劲,可以把政策维持在限制性水平。美股三大指数均小幅收涨,标普500指数涨0.24%,续创历史新高;道指涨0.16%,纳指涨0.07%。
-
摩根士丹利:将2025年英伟达GB200出货量大幅下调
根士丹利在最新发布的报告中称,将2025年英伟达GB200出货量从此前的3万—3.5万大幅下调至2万—2.5万件,最差的情况出货量可能低于2万,可能导致GB200供应链的市场影响达300亿至350亿美元。
-
澳洲股市周五早盘再创历史新高 原材料板块领涨
周五早盘,澳洲股市再创历史新高。至发稿时为止,ASX200指数上涨37点至8530.70点,涨幅0.4%,延续了前一个交易日的涨势。在11个板块中,有8个板块攀升,其中原材料板块领涨。
-
散户大举抄底英伟达 规模创纪录!DeepSeek掀起“地震” OpenAI首席执行官发声
数据显示,散户投资者们周一净抄底买入英伟达股票的总额达到5.622亿美元,这是自2014年Vanda Research有统计记录以来的最高水平。
-
美股高开高收 英伟达大涨近9%
美股高开高走,三大指数集体收涨。纳指涨2.03%,标普500指数涨0.92%,道指涨0.31%。大型科技股多数上涨,英伟达大涨近9%,苹果涨超3%,微软、Meta涨超2%,谷歌、亚马逊涨超1%,特斯拉小幅上涨;奈飞小幅下跌。
-
美股三大指数收盘涨跌不一 英伟达跌约17%单日市值蒸发创美股最高记录
每经AI快讯,美股三大指数收盘涨跌不一,道指涨0.65%,标普500指数跌1.46%,纳指跌3.07%。费城半导体指数大跌超9%。英伟达跌约17%,单日市值蒸发5890亿美元,创历史上最大单日个股蒸发规模。
-
经纬早班车|英伟达市值超越苹果;存不公平商业行为,谷歌在印尼收罚单
美东时间周二,美股三大指数全线上涨。截至收盘,道指涨537.98点,涨幅为1.24%,报44025.81点;纳指涨126.58点,涨幅为0.64%,报19756.78点;标普500指数涨52.58点,涨幅为0.88%,报6049.24点。
-
英伟达市值超越苹果
美东时间周二,美股三大指数全线上涨。截至收盘,道指涨537.98点,涨幅为1.24%,报44025.81点;纳指涨126.58点,涨幅为0.64%,报19756.78点;标普500指数涨52.58点,涨幅为0.88%,报6049.24点。
免责声明:本网所发所有文章,包括本网原创、编译及转发的第三方稿件及评论,均不构成任何投资建议,交易操作或投资决定请询问专业人士。
热门点击
-
- 【2.20】今日财经时讯及重要市场资讯
-
- 【2.19】今日财经时讯及重要市场资讯
-
- 【2.18】今日财经时讯及重要市场资讯
-
- 【2.17】今日财经时讯及重要市场资讯
-
- 澳储行宣布将利率下调至4.10% 使通胀回到目标水平仍是当务之急
-
- 上市煤企Whitehaven(ASX:WHC)半年利润大幅增长 维持本财年3500万吨至3950万吨产量指引
-
- a2 Milk奶粉(ASX :A2M)披露 2025上半财年业绩 首次推出派息分红 下月派发
-
- a2 Milk奶粉(ASX :A2M)披露 2025上半财年业绩 首次推出派息分红 下月派发
-
- 【异动股】Neurizon Therapeutics (ASX:NUZ)有望推进“渐冻症”候选药临试 股价应声大涨
-
- 澳洲工党政府颁布禁令并严打土地囤积 致力改善住房供给和可负担性 澳洲地产外来投资或转向
-
- 【异动股】Enlitic Inc (ASX:ENL)暴涨47%:与GE医疗合作 利用人工智能改变医学成像迁移
-
- 【2.21】今日财经时讯及重要市场资讯
-
- 四大行均预计澳储行周二降息 今年降息次数预期存分歧
-
- 83亿澳元!西澳超大型铁矿石资产出售 交易双方浮出水面
-
- CBA联邦银行称澳经济增长已放缓 预计最快下周降息 2025年将步入宽松周期