🌇中国社区日: 王宇 (AWS解决方案架构师) 生成式AI

danc

Danny Chan

Posted on July 20, 2024

🌇中国社区日: 王宇 (AWS解决方案架构师) 生成式AI

More Photos of AWS COMMUNITY DAY in China (Shen Zhen)



Image description

长上下文问题:

  • 随着上下文长度增加,性能降级同时发生。
  • 上下文更长,预填充延迟指数增长。
  • 上下文长度增加,解码延迟和上下文切换成本线性增加。

长内容优化硬件:

  • A100内存层次结构 - 利用A100 GPU先进的内存架构来提高长上下文模型的性能。

长内容优化机器学习工程:

  • FlashAttention
    一种高效的注意机制,可降低注意力机制对长序列的计算和内存成本。

  • VLLM (超长语言模型)
    专门的技术来实现训练和推理极长上下文的语言模型。

长内容优化模型架构:

  • MoE (专家混合)
    使用模块化模型架构,具有多个专门的子网络,更有效地处理长上下文的不同方面。

  • 推测性解码
    预测未来标记并并行处理它们的技术,可减少长期依赖的整体延迟。

Image description

预填充和解码背景:

  • LLM集群推理的成本: 吞吐量 * 硬件利用率 / 硬件价格

预填充持续时间对吞吐量的影响:

  • 预填充任务占用所有计算资源,因此预填充-预填充无法并行化。
  • 解码任务需要很少的计算资源,可以与预填充任务并行。

分离预填充和解码,降低80%成本

  • 引入DecodeOnly服务器。
  • 通过网络传输推理数据实现预填充-解码分离。
  • 原始架构专注于优化预填充任务。
  • 预填充不再需要存储KV缓存数据(数据在生成后立即发送到解码服务器)。
  • 推理不再需要大GPU内存支持

Image description

检索增强生成(RAG):

  • 一种通过集成外部知识检索来增强语言模型,生成更有信息和相关响应的技术。
  • RAG (包括:ETL、意图、检索)
  • 模型生命周期管理(包括:模型、数据集、实体)
  • 性能加速(包括:加速框架、量化)
  • 基础设施操作(包括:自定义芯片、托管服务)

RAG工作流:

  • 数据预处理(ETL)
  • 知识提取
  • 知识增强
  • 知识矢量化
  • 知识注入

LLM编排:

  • 意图识别(意图)
  • 知识检索(多会话重写)
  • 检索

知识增强:

  • QA文档合成
  • 内容摘要
  • 内容拆分
  • 关键词提取

Editor

Image description

Danny Chan, AWS community builder (Hong Kong), specialty of FSI and Serverless

Image description

Kenny Chan, AWS community builder (Hong Kong), specialty of FSI and Machine Learning

💖 💪 🙅 🚩
danc
Danny Chan

Posted on July 20, 2024

Join Our Newsletter. No Spam, Only the good stuff.

Sign up to receive the latest update from our blog.

Related