OneFlow一流科技

团队 | 一流科技

一流科技OneFlow团队的技术分享账号，专注于深度学习，擅长分布式相关。 ★ OneFlow深度学习框架：github.com/Oneflow-Inc/oneflow ★ OF云平台：oneflow.cloud

赞

48

|

搜索文章

LLM推理入门指南③：剖析模型性能

本文将转变方向，探索可能影响机器学习模型速度的不同性能瓶颈。本文所详细介绍的概念广泛适用于任何ML模型，无论是用于训练还是推理，不过提供的示例主要聚焦于LLM推理设置。

2天前
181
点赞
评论

终极GPU互联技术探索：消失的内存墙

目前，头部AI芯片厂商都在推进现有芯片设计和制造技术的极限，但问题是，当这些“花招”用完后怎么办呢？

5天前
339
3
1

生成式AI产业经济学：价值分配与利润结构

当前的GenAI经济模式是否还会持续下去？该领域未来的价值会在哪些方面累积，又该如何实现？本文对GenAI领域的当前的产业价值分层和利润分配进行了解读，并对未来发展作了预测。

13天前
444
1
评论

LLaMA 3：大模型之战的新序幕

2023年，多模态生成模型的竞争已经展开，其中以图像能力为起点。2024年4月，随着LLaMA 3的发布，是时候总结规模扩展之战的第一阶段了，在这一阶段中，大多数前沿模型都与GPT-4达到了同等水平。

17天前
857
点赞
评论

OneDiff 1.0发布！生产环境稳定加速SD/SVD模型

4月18日，OneDiff v1.0.0正式发布。本次版本更新解决了此前版本v0.13中的问题。性能方面，OneDiff依然保持2～3倍的端到端推理加速。

17天前
575
点赞
评论

Stable Diffusion XL优化终极指南

本文将介绍Stable Diffusion XL优化，旨在尽可能减少内存使用的同时实现最优性能，从而加快图像生成速度。我们将能够仅用4GB内存生成SDXL图像，因此可以使用低端显卡。

23天前
984
点赞
评论

LLM推理的极限速度

本文作者Arseny Kapoulkine从零开始开发了语言大模型推理的一种实现方式calm，旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率。

23天前
903
点赞
评论

揭示GPU上的批处理策略

本文深入探讨了批处理在现代GPU上的工作原理，以及它是如何影响深度学习模型的推理速度，基于此，作者为模型优化提供了实用指导。通过优化批处理策略，研究人员和工程师可以更有效地利用计算资源，提高推理效率。

24天前
943
点赞
评论

百万用户通话新风潮：仅需50秒，无界AI让彩铃变身短视频

无界AI是由杭州超节点信息科技有限公司创立的国内领先的人工智能生成内容（AIGC）平台，专注于人工智能大模型在图像视频领域的生成创造，为用户提供先进且丰富的AIGC工具。

24天前
797
点赞
评论

LLM推理入门指南②：深入解析KV缓存

本文进一步探讨了LLM推理的挑战 —— 第一大挑战是，注意力层（也称为自注意力层）与总序列长度（提示词元和生成补全词元）的计算成本呈二次方扩展的问题。

26天前
1.0k
点赞
评论

个人成就

优秀创作者

文章被点赞 840

文章被阅读 365,864

掘力值 10,505

加入于

2021-12-13