Portfolio GitHub

Blog

communityday |startup |ai |bedrock

🌇中国社区日: 王宇 (AWS解决方案架构师) 生成式AI

danc

Danny Chan

Posted on July 20, 2024

🌇中国社区日: 王宇 (AWS解决方案架构师) 生成式AI

More Photos of AWS COMMUNITY DAY in China (Shen Zhen)

长上下文问题:

随着上下文长度增加,性能降级同时发生。
上下文更长,预填充延迟指数增长。
上下文长度增加,解码延迟和上下文切换成本线性增加。

长内容优化硬件:

A100内存层次结构 - 利用A100 GPU先进的内存架构来提高长上下文模型的性能。

长内容优化机器学习工程:

FlashAttention
一种高效的注意机制,可降低注意力机制对长序列的计算和内存成本。
VLLM (超长语言模型)
专门的技术来实现训练和推理极长上下文的语言模型。

长内容优化模型架构:

MoE (专家混合)
使用模块化模型架构,具有多个专门的子网络,更有效地处理长上下文的不同方面。
推测性解码
预测未来标记并并行处理它们的技术,可减少长期依赖的整体延迟。

预填充和解码背景:

LLM集群推理的成本: 吞吐量 * 硬件利用率 / 硬件价格

预填充持续时间对吞吐量的影响:

预填充任务占用所有计算资源,因此预填充-预填充无法并行化。
解码任务需要很少的计算资源,可以与预填充任务并行。

分离预填充和解码,降低80%成本

引入DecodeOnly服务器。
通过网络传输推理数据实现预填充-解码分离。
原始架构专注于优化预填充任务。
预填充不再需要存储KV缓存数据(数据在生成后立即发送到解码服务器)。
推理不再需要大GPU内存支持

检索增强生成(RAG):

一种通过集成外部知识检索来增强语言模型,生成更有信息和相关响应的技术。
RAG (包括:ETL、意图、检索)
模型生命周期管理(包括:模型、数据集、实体)
性能加速(包括:加速框架、量化)
基础设施操作(包括:自定义芯片、托管服务)

RAG工作流:

数据预处理(ETL)
知识提取
知识增强
知识矢量化
知识注入

LLM编排:

意图识别(意图)
知识检索(多会话重写)
检索

知识增强:

QA文档合成
内容摘要
内容拆分
关键词提取

Editor

Danny Chan, AWS community builder (Hong Kong), specialty of FSI and Serverless

Kenny Chan, AWS community builder (Hong Kong), specialty of FSI and Machine Learning

💖 💪 🙅 🚩

danc

Posted on July 20, 2024

Join Our Newsletter. No Spam, Only the good stuff.

Sign up to receive the latest update from our blog.

Related

🌇中国社区日: 王宇 (AWS解决方案架构师) 生成式AI

communityday 🌇中国社区日: 王宇 (AWS解决方案架构师) 生成式AI

July 20, 2024

🌇中国社区日: 郑宇彬 (AWS布道师) AWS文化

communityday 🌇中国社区日: 郑宇彬 (AWS布道师) AWS文化

July 20, 2024

🌇中国社区日: 马克·伯奇 (AWS布道师) 初创企业

communityday 🌇中国社区日: 马克·伯奇 (AWS布道师) 初创企业

July 20, 2024

🌇中国社区日: 王昊文 (AWS布道师) 生成式AI

communityday 🌇中国社区日: 王昊文 (AWS布道师) 生成式AI

July 20, 2024

🌇China Community Day: Yu Wong (AWS Solution Architect) Generative AI

communityday 🌇China Community Day: Yu Wong (AWS Solution Architect) Generative AI

July 20, 2024