岩芯数智CEO刘凡平:大多数企业不愿负担大模型堆积算力带来的昂贵成本

发布日期:2024-03-08 05:35    点击次数:143

  科技讯 (作者|任清)近日,岩芯数智召开“新架构,新模力”大模型发布会,正式发布了国内首个非Attention机制的通用自然语言大模型——Yan模型,这也是业内少有的非Transformer架构大模型。1月26日下午,科技就Yan模型的相关问题采访了岩芯数智的CEO刘凡平,他指出,以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不断增长。

  Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,它的崛起无疑是深度学习历史长河中一个重要的里程碑。凭借着其强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,不仅成为自然语言处理领域的主流模型架构,还在计算机视觉、语音识别等多个领域展示了其跨界的通用能力。

  在Transformer已经占据人工智能领域半壁江山的今天,为什么岩芯数智还要寻求非Transformer的更多可能性?

  刘凡平的看法是,在全球范围内,一直以来都有不少优秀的研究者试图从根本上解决对Transformer架构的过度依赖,寻求更优的办法替代Transformer。就连Transformer 的论文作者之一Llion Jones也在探索‘Transformer 之后的可能’,试图用一种基于进化原理的自然启发智能方法,从不同角度创造对AI框架的再定义。

  岩芯数智也不例外,他们在对Transformer模型不断的调研和改进过程中,意识到了重新设计大模型的必要性:一方面,在Attention机制下,现有架构的调整几乎已经达到瓶颈;另一方面,岩芯数智更期望降低企业对大模型的使用门槛,让大模型在更少的数据、更低的算力下具备更强的性能,以应用于更广泛的业务。因此,在历经近1000多个日夜,超过几百次的设计、修改、优化、对比、重来后,岩芯数智自主研发出了不再依赖Transformer的全新架构——“Yan架构”,同时,基于Yan架构的通用大模型应运而生。

  据他介绍,Yan架构拥有相较于同等参数Transformer的7倍训练效率、5倍推理吞吐、3倍记忆能力,同时支持CPU无损运行、低幻觉表达、100%支持私有化应用。

  刘凡平表示,“我们没有在去年热度最高的时候发布YAN架构、也没有选择通过刷榜单评比自身应有的排名,是因为我们认为最终决定你这个东西是不是有价值的是客户,我们想做更长远的事情。当然,除了星辰大海,我们也会脚踏实地做商业化应用,保证第一是能用的,第二是好用的,第三是大家愿意用的。”

  刘凡平认为,本质上岩芯数智为行业提供了新的视角、新的价值。“这条路最终是不是对的,行业还没有定论,但是通过堆积算力带来的昂贵成本与低性价比,一定是大多数企业不愿负担的,这并没有让人工智能给大家创造一个更加多元化或者更可行的体验。

  所以我们觉得在这个市场我们是能提供价值的。当我们能创造一个新的价值的时候,我们就不会去惧怕巨头或者大厂,他们也没有解决客户的痛点,我们的起点是差不多的。我们是思考过,确信自身能提供新思路、新方案、新应用、新价值,解决用户的痛点。”







Powered by 股票杠杆炒股 @2013-2022 RSS地图 HTML地图

Copyright 365站群 © 2013-2021 365建站器 版权所有