• <li id="y80kg"></li>
    <strike id="y80kg"></strike>
    <ul id="y80kg"></ul>
  • <strike id="y80kg"><s id="y80kg"></s></strike>
    <strike id="y80kg"><s id="y80kg"></s></strike>
    百戰歸來,清大EMBA再啟程

    DeepSeek核心技術原理和本地部署微調實操課程

    經營管理 39
    周紅偉

    周紅偉 現任云宇宙科技CEO


    邀請老師:13439064501 陳助理
    主講課程:1、《人工智能算法方法論和知識體系》 2、《人工智能和大數據驅動智能決策》 3、《人工智能和大數據核心應用和商業化落地》 4、《人工智能方法論在金融行業的應用》 5、《人工智能方法論在通信行業的應用》 6、《互聯網金融(消費金融)企業的AI大數據應用》 7、《互聯網大數據在智慧城市方面的應用》 8、《大數據時代的人工智能思維》 9、《互聯網金融的大數據風控》 10、《金融大數據反欺詐實踐》 11、《企業數據治理落地實踐》 12、《元宇宙認知

    課程背景

    隨著人工智能技術的快速發展,智能助手(如DeepSeek-V3)在多模態理解、個性化交互、知識推理等領域的應用日益廣泛。DeepSeek-V3作為深度求索公司推出的第三代智能助手,憑借其先進的核心技術(如大規模預訓練、多模態理解、上下文感知等),在智能客服、內容創作、教育、醫療等領域展現了強大的潛力。

    然而,要將DeepSeek-V3的能力充分發揮并應用于實際業務場景,不僅需要深入理解其核心技術原理,還需要掌握本地部署和微調的方法,以滿足特定領域或企業的定制化需求。為此,本課程旨在幫助學員系統學習DeepSeek-V3的核心技術原理,并通過實操掌握本地部署和微調的技能,從而提升在實際項目中的應用能力。

    課程收益

    1. 深刻理解DeepSeek-V3的核心技術原理

    · 掌握DeepSeek-V3的架構設計、多模態理解、上下文感知、知識圖譜等核心技術。

    · 掌握大規模預訓練模型(如Transformer)的工作原理及其在DeepSeek-V3中的應用。

    2. 掌握DeepSeek-V3的本地部署方法

    · 學習如何搭建適合DeepSeek-V3運行的本地環境(包括硬件配置、依賴庫安裝等)。

    · 掌握DeepSeek-V3的本地部署流程,包括模型加載、服務啟動和接口調用。

    · 掌握如何優化部署性能,以支持高并發和低延遲的應用場景。

    3. 學會DeepSeek-V3的微調與定制化

    · 掌握如何利用領域數據對DeepSeek-V3進行微調,以提升其在特定任務中的表現。

    · 學習微調過程中的關鍵技術,包括數據預處理、模型訓練、參數調優等。

    4. 提升實際項目中的應用能力

    · 通過實戰案例,學習如何將DeepSeek-V3應用于智能客服、內容生成、知識問答等場景。

    課程時間 2天

    課程大綱

    第一天課程:DeepSeek-V3/R1核心技術架構和訓練過程

    上午課程

    第一部分 DeepSeek-V3的架構創新:訓練GPU和成本均低,但效果卓越

    1.1 V3風靡海內外的關鍵因素:訓練成本極低、引領前沿創新

    1.1.1 V3訓練成本:所用的GPU訓練資源僅為Llama 3.1 405B的差不多1/14

    1.1.2 在國內也能引領世界級前沿

    1.2 模型架構:MLA、負載均衡的MoE、Multi-Token預測

    1.2.1 多頭潛在注意力

    1.2.2. 無輔助損失的負載平衡 DeepSeekMoE

    1.2.3 多token預測:Multi-Token Prediction顯著加快模型的解碼速度

    第二部分 DeepSeek-V3基礎設施層面的創新:FP8 訓練等

    2.1 訓練框架(含GPU的內部結構示意圖)

    2.1.1 雙管道DualPipe與計算-通信重疊

    2.1.2 跨節點全對全通信的高效實現:通過PXT連接CUDA和底層GPU硬件

    2.1.3. 極致內存節省與最小開銷

    2.2 FP8訓練:雖算的快 但精度不夠,故需提高精度

    2.2.1 混合精度框架

    2.2.2. 通過量化和乘法提高精度

    2.2.2 低精度存儲和通信:降低內存和通信開銷

    2.3 推理與部署

    2.3.1 預填充

    2.3.2 解碼

    2.4 硬件設計建議

    下午課程

    第三部分 DeepSeek-V3的預訓練與后訓練

    3.1 預訓練

    3.1.1 數據構建:提高數學、編程、多語言樣本,最終14.8T語料

    3.1.2 超參數

    3.1.3 長上下文擴展

    3.1.4 評估與討論

    3.2 訓練后處理:透露了大半后來引爆全球的R1正式版訓練流程

    3.2.1 監督微調

    3.2.2 強化學習:涉及獎勵模型和GRPO

    3.2.3 評估與討論:關于DeepSeek-R1提煉與多token預測

    第四部分 DeepSeek R1:如何通過純RL訓練大模型的推理能力

    4.1 提出背景與相關工作

    4.1.1 R1-Zero的提出背景:無需人類數據,從零實現自我迭代

    4.1.2 R1的提出背景:解決Zero可讀性差等問題

    4.2 DeepSeek-R1-Zero:規則驅動的大規模RL訓練,無冷啟動、無SFT

    4.2.1 RL算法GRPO:不需要critic

    4.2.2 規則獎勵建模(準確率獎勵 + 格式獎勵):不用訓練專門的獎勵模型RM

    4.2.3 訓練模板:通過prompt讓Zero啟動深度思考的推理模式

    4.2.4 Zero的性能、自我進化過程和頓悟時刻

    4.3 DeepSeek-R1:先冷啟動數據SFT 再RL,之后再SFT 再RL

    4.3.1 階段一 冷啟動(主要關注推理):通過R1-Zero生成數千條長CoT數據

    4.3.2 階段二 面向推理的GRPO RL:類似Zero的規則獎勵,但增加語言一致性獎勵

    4.3.3 階段三 V3上的的兩輪SFT(結合rejection sampling):涉及80w通用層面的推理和非推理數據

    4.3.4 階段四 所有場景的RL:提高有用性和無害性,且混合規則獎勵和偏好獎勵

    4.4 蒸餾:賦予小模型推理能力

    4.5 一些經驗總結:成功和失敗的經驗分析總結

    第二天課程:DeepSeek本地部署和微調案例實操

    上午課程

    第五部分 本地部署準備工作:各個版本、推理框架、硬件資源

    5.1 DeepSeek-R1的多個版本:加上2個原裝671B的,總計8個參數版本

    5.2 主流的大模型推理框架:分為PC端和Android端

    5.3 不同參數的模型所要求的硬件

    5.4 蒸餾版和滿血版的兩類部署

    第六部分 通過Ollama、vLLM本地部署DeepSeek-R1蒸餾版:支持聯網搜索及知識庫問答

    6.1 基于Ollama和各類插件構建智能對話:終端、open-webui(支持聯網)、Chatbox

    6.1.1 Ollama下的終端命令行交互

    6.1.2 Ollama下的open-webui交互:基于docker安裝,且支持聯網搜索

    6.1.3 基于Ollama + ChatBox部署deepseek-r1:7b

    6.2 基于Ollama和Page Assist/AnythingLLM構建本地知識庫問答系統

    6.2.1 基于Ollama + Page Assist搭建本地知識庫問答系統:且支持聯網搜索

    6.2.2 基于Ollama + AnythingLLM搭建本地知識庫問答

    6.3 通過vLLM推理deepseek-r1

    6.3.1 基于vLLM的命令行交互——R1-Distill-Llama-8B

    6.3.2 基于vllm + open WebUi 部署r1 7b

    6.4 本地手機端部署DeepSeek-R1蒸餾Llama/Qwen后的版本

    下午課程

    第七部分 無蒸餾前提下本地部署R1 or R1-Zero 671B滿血版

    7.1 折中路徑:無蒸餾但量化部署Deepseek-R1 671B滿血版

    7.1.1 本地CPU上運行 Deepseek-R1 的完整的硬件 + 軟件設置

    7.1.2 GPU上跑無蒸餾但量化的Deepseek-R1 671B滿血版

    7.2 企業級部署:無蒸餾不量化部署Deepseek-R1 671B滿血版

    專利和文獻:

    深度學習國際發明專利

    1) 基于深度學習的圖像檢索方法及裝置,專利公開公告號:CN107368614A。專利類型:發明公布。發明人:周紅偉;李凱;任偉;李慶;郭奇杰;周楊;劉川郁

    2) Simulation model and droplet ejection performance of a thermal-bubble microejector,Hongwei Zhou,A.M.Gué,Sensors and Actuators B: Chemical Volume 145,Issue 1,4 March 2010,Pages 311-319

    3)Simulation Bubble Nucleation and Bubble Growth of a Thermal Bubble Microejector,Hongwei Zhou,A.M.Gué,Excerpt from the Proceedings of the COMSOL Conference 2009 Mila

    客服微信

    返回
    頂部
    无码欧精品亚洲日韩一区| 日韩精品人妻一区二区三区四区| 国产精品无码素人福利不卡| 亚洲日韩欧洲乱码AV夜夜摸| 精品免费国产一区二区| 亚洲午夜精品一区二区麻豆| 麻豆国产精品免费视频| 99久在线精品99re6视频| 久久国产精品系列| 国产在线精品免费aaa片| 国产香蕉国产精品偷在线| 国产精品麻豆入口| 九九精品国产99精品| 日韩亚洲翔田千里在线| 亚洲日韩中文字幕一区| 国产亚洲精品美女2020久久| 国产麻传媒精品国产AV| 青青国产精品视频| 久9视频这里只有精品8| 久久久无码精品人妻一区| 国产精品久久久久久久app| 91精品国产免费久久久久久青草| 亚洲理论精品午夜电影| 久久无码专区国产精品发布| 久久精品蜜芽亚洲国产AV| 国产精品国色综合久久| 热re99久久精品国产99热| 精品国产污污免费网站| 国产AV午夜精品一区二区入口| 久久久久国产精品| 亚洲国产第一站精品蜜芽| 久久精品香蕉视频| 久久国产乱子伦精品免费不卡| 久久精品一区二区三区资源网 | 亚洲午夜精品久久久久久人妖| 久久青草精品一区二区三区| 亚洲国产精品VA在线看黑人| 久久99精品久久久久子伦小说| 亚洲国产精品不卡在线电影| 99re6热视频精品免费观看| 亚洲午夜精品在线|