
微信扫码
在线阅读
简介:本书系统性地介绍了基于Transformer架构的开源大模型DeepSeek-V3,涵盖MoE架构、混合精度训练等核心技术及多模态应用。全书分三部分:理论部分解析Transformer、注意力机制及模型优化;技术部分讲解API开发、对话生成、代码补全等实践;应用部分通过Chat客户端、AI助手等案例展示工业级落地。本书通过深度讲解与实用案例相结合的方式,帮助读者理解DeepSeek大模型从原理到开发的完整流程,学习新技术的实现方法与优化策略,全面提升在大模型领域的理论素养与开发能力。