24人团队硬刚『英伟达』!AMD前高管梦之队出手,新『芯片』每秒17000个token(24人团队游戏)

造『芯片』的还有高手?

刚刚推出的一款最新『芯片』,直接冲上硅谷热榜。

峰值推理速度高达每秒17000个token

什么概念呢?当前公认最强的Cerebras,速度约为2000 token/s。

速度直接快10倍,同时成本骤减20倍、功耗降低10倍。

这就意味着,LLM真正来到了亚毫秒级的即时响应速度。实机效果be like:

但这块一夜之间刷屏硅谷的『芯片』,并非出自『英伟达』、AMD之手,而是一家成立仅两年、团队仅有24人的初创公司——Taalas。

今日霍州(www.jrhz.info)©️

『芯片』代号HC1,也是公司的首款产品。

不同于所有竞争对手,Taalas选择了迄今为止最极端的技术方案——

模型不再加载到内存里,而是直接刻在硅片上。换言之,『芯片』即模型。

结果显而易见,Taalas撬动了『芯片』算力护城河:H100买不到,试试HC1又何妨?

速度快10倍,功耗降至10分之一

HC1目前搭载Llama 3.1 8B模型,用户每秒最高可生成17000 token/s,远高于主流GPU/ASIC。

今日霍州(www.jrhz.info)©️

其中,在同一模型下Cerebras接近每秒2000个token,SambaNova约为每秒900个token,Groq约为每秒600个,『英伟达』Blackwell架构的B200为每秒350个。

具体来说,HC1采用台积电N6工艺,面积为815mm²,体积小巧而且开源,单颗『芯片』即可满足8B模型需求。

每颗『芯片』典型功耗仅为250W,一个『服务器』如果同时装配10颗HC1,功耗也才2.5kW,可以直接使用常规空气冷却机架部署。

那么是如何做到这么大的性能飞跃的呢?

首先HC1借鉴了2000年代初期的结构化ASIC『芯片』理念。结构化ASIC『芯片』采用门阵列和固化IP,然后仅通过改变互连层就能使『芯片』适应特定的工作负载。

这样下来,结构化ASIC『芯片』不仅比全定制ASIC更便宜,也比FPGA性能更优。

今日霍州(www.jrhz.info)©️

HC1则采用类似思路,不改变底层电路,只通过调整两层掩模,就能低成本快速做出专用AI推理『芯片』。

它放弃了大多数可编程功能,将模型连同权重一起通过基于掩模ROM的调用架构存储在『芯片』上,并保留一个可编程SRAM,用于保存微调后的权重(如LoRA)和KV缓存。其余则全部通过掩模ROM固化执行。

这一策略能在设计成本相对可控的前提下,实现模型到『芯片』的快速转化,将『芯片』生产周期从原先的六个月缩短到两个月。

而如此激进的量化方式势必会影响性能,研究团队也意识到了这一点,所以可以通过LaRA适配器进行重新训练,以及可配置的上下文窗口,让『芯片』的最低限度灵活性得以保留。

换句话说,就是将一个完整大模型通过物理硬连线进『芯片』中,省去了传统存算分离的成本,用灵活性换取极致的速度和效率。

今日霍州(www.jrhz.info)©️

除了Llama 3.1,Taalas也尝试将其它模型集成到HC1上,例如对『DeepSeek』R1-671B的多『芯片』解决方案。

将SRAM部分拆分到单独的『芯片』上,然后可以将每片HC1的存储密度提高到约20位参数,总计需要30个定制HC1。

整体处理速度可达到每用户每秒12000个token,如果考虑到30颗『芯片』成本为每百万token是7.6美分,那么该方案成本也不到同等吞吐量的GPU方案的一半。

假设GPU更新周期为四年,而HC1每年都需要重新更换,总成本也仍然具备优势。

AMD前高管梦之队

其背后的公司Taalas成立于两年前,由AMD前集成电路设计总监Ljubiša Bajić、AMD/ATI/Altera前技术经理和『工程师』Leila Bajić、AMD前ASIC设计总监Drago Ignjatović共同创立,堪称AMD前高管梦之队。

其中,Ljubiša Bajić不仅曾在AMD和『英伟达』担任高级职位,负责高性能GPU研发设计,还是Tenstorrent的创始人兼首任CEO。

新公司致力于开发专为AI推理和训练设计的全新架构,强调分层设计和晶格网络,能够让『芯片』像大脑一样根据任务需求动态处理数据。

在2026年,『芯片』教父Jim Keller也强势加入Tenstorrent,并接任CEO一职,而Ljubiša Bajić转任首席技术官CTO,专注于产品研发。

今日霍州(www.jrhz.info)©️

随后,他又创立了Taalas,试图通过类似硅基编译器的方式,直接将AI模型转化为硅『芯片』。

于是首战告捷,一个仅有24名成员的团队,产品投入仅3000万美元💵,就创造出比通用AI『芯片』高出几个数量级的能效比。

目前Taalas已筹集2亿美元💵投资,预计将在春季基于HC1发布第二代变体,将集成一款中等规模的推理大模型。

随后预计将在冬季部署上线HC2,HC2密度更高、运行速度也会更快。

不过对于HC1,网友们的评价却是两极分化。

一方面,网友认为HC1的超低延迟将有益于推动具身智能等领域发展。

今日霍州(www.jrhz.info)©️

另一方面,也有网友实测过后发现,HC1高速推理的背后,却是糟糕的推理深度:

今日霍州(www.jrhz.info)©️

以及对于迭代周期相当迅速的大模型来说,HC1的硬编码可能会使『芯片』很容易过时。

这也是为什么当前『芯片』厂商都在普遍推出通用型『芯片』的原因之一。

参考链接:

[1]https://x.com/wildmindai/status/2024810128487096357?s=20

[2]https://taalas.com/the-path-to-ubiquitous-ai/

[3]https://chatjimmy.ai/

[4]https://www.eetimes.com/taalas-specializes-to-extremes-for-extraordinary-token-speed

文章来源:量子位。

特别声明:[24人团队硬刚『英伟达』!AMD前高管梦之队出手,新『芯片』每秒17000个token(24人团队游戏)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

Calibre 9.3发布:修复汉王N10元数据文件传输问题(calibre sj)

今日霍州 2 月 20 日消息,科技媒体 Linuxiac 今天(2 月 20 日)发布博文,报道称开源电子书管理工具 Calibre 发布9.3 版本,改进了 KEPUB 格式转换,针对 『Windows』 …

Calibre 9.3发布:修复汉王N10元数据文件传输问题(calibre sj)

塑料包角真的能有效保护商品吗?——全面解读防撞护角纸箱的应用与选择技巧(塑料包角真的能粘住吗)

塑料包角作为常见的包装保护手段,在纸箱运输中起到至关重要的作用。它能有效保护易碎物品,提升物流运输的安全性。然而面对市场上众多选择,消费者该如何挑选适合自己的护角呢?本文深入分析护角材质、厚度、形状及应用场景,助您轻松做出明智决策。 关键在

塑料包角真的能有效保护商品吗?——全面解读防撞护角纸箱的应用与选择技巧(塑料包角真的能粘住吗)

摩尔线程自研笔记本📓引老外关注!首发“长江”处理器 Linux『安卓』『Windows』随心切换(摩尔线程 企查查)

该『芯片』基于Arm架构打造,拥有12个CPU核心,基础频率达2.65GHz,同时搭配摩尔线程自研MUSA微架构的GPU,具体型号暂未公布。作为品牌首款Arm架构笔记本📓产品,其凭借自研『芯片』、亮眼的 AI 能力与…

摩尔线程自研笔记本📓引老外关注!首发“长江”处理器 Linux『安卓』『Windows』随心切换(摩尔线程 企查查)

牡丹江市市场监管局“『互联网』+AI监管”给食品安全安上“智慧眼”(牡丹江市市场监管综合行政执法支队)

通过以智慧监管驱动食品安全治理能力现代化,构建“全国一盘棋、系统一张网、数据一条链”的“『互联网』+AI监管”体系,在我市餐饮服务领域智慧监管的基础上,实行食品生产、流通、特殊食品全链条可视化非现场人工智能监管,…

牡丹江市市场监管局“『互联网』+AI监管”给食品安全安上“智慧眼”(牡丹江市市场监管综合行政执法支队)

从“走出去”到“走进去”:数智驱动下的国际传播新范式PPT课件

大数据、人工智能、短视频、虚拟现实等技术,让信息传播更快速、更精准、更沉浸,也打破了传统媒体主导的单向输出模式,使每个人都能成为跨文化传播的参与者。数智时代的国际传播变革学习四中全会PPT课件,讲稿字数:38…

从“走出去”到“走进去”:数智驱动下的国际传播新范式PPT课件