IT之家 1 月 17 日消息,研究公司 Snowflake 公布了一款名为“SwiftKV”的 AI 模型调校技术,并在 Hugging Face 开源三款利用“SwiftKV”技术进行调校的 Llama 3.1 AI 模型(点此访问)。
IT之家获悉,SwiftKV 技术的核心在于优化模型提示词处理过程。研究人员指出,通常情况下大模型最为消耗计算资源的环节在于处理用户为模型输入的提示词,而许多企业为模型自定义了极长的提示词,据称平均情况“大约是输出生成内容的 10 倍”。
据 Snowflake 介绍,这一“SwiftKV”模型调校技术专门为相应预制的提示词处理进行优化,号称突破了传统的键值(Key-Value,KV)缓存压缩技术,还在模型推理过程中引入模型重组与知识保存自我蒸馏方法,从而有效提升模型吞吐量、降低了延迟和运算成本,号称可以帮助 AI 模型显著缩短推理时间,可以降低模型 50% 推论时间。
实验结果表明,在利用 SwiftKV 技术优化 Llama 3.1 的 80 亿和 700 亿参数模型后,相应模型的整体吞吐量可提升两倍,同时相应模型也在代码自动补全、文本摘要等方面表现出色。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.