[sdaa]:add sdaa docs (#7258)

AoxiangGeng · gengaoxiang · web-flow · commit eed2ee3207ec · 2025-04-16T11:16:08.000+08:00
* [sdaa]:add sdaa docs

* [sdaa]:fix some doc problems

* [sdaa]:fix docs

---------

Co-authored-by: gengaoxiang &lt;gengax@tecorigin.com&gt;
diff --git a/docs/hardware_support/hardware_info_cn.md b/docs/hardware_support/hardware_info_cn.md
@@ -16,7 +16,7 @@
 | AI 加速芯片 |  | 天数智芯 | 天垓 100 |  [安装](https://gitee.com/deep-spark/deepsparkhub/blob/master/docker/Iluvatar/README.md) || [代码仓库](https://github.com/PaddlePaddle/Paddle4CoreX/tree/release/2.5_corex)|
 | AI 加速芯片 |  | 壁仞 | BR100、BR104 |  |  [源码编译](https://github.com/PaddlePaddle/PaddleCustomDevice/blob/develop/backends/biren_gpu/README_cn.md) |[代码仓库](https://github.com/PaddlePaddle/PaddleCustomDevice) |
 | AI 加速芯片 |  | 燧原 | 云燧 T20 、i20、S60 |  |  [源码编译](https://github.com/PaddlePaddle/PaddleCustomDevice/blob/develop/backends/gcu/README_cn.md) |[代码仓库](https://github.com/PaddlePaddle/PaddleCustomDevice)  |
-| AI 加速芯片 |  | 太初 | 元碁系列 |  |  [源码编译](https://github.com/PaddlePaddle/PaddleTecoBackend)  |[代码仓库](https://github.com/PaddlePaddle/PaddleCustomDevice)  |
+| AI 加速芯片 |  | 太初 | 元碁系列 | [安装](./sdaa/install_cn.html#wheel) |  [源码编译](https://github.com/PaddlePaddle/PaddleCustomDevice/blob/develop/backends/sdaa/README_cn.md)  |[代码仓库](https://github.com/PaddlePaddle/PaddleCustomDevice)  |
 
 ## Paddle Inference
 
diff --git a/docs/hardware_support/index_cn.rst b/docs/hardware_support/index_cn.rst
@@ -12,6 +12,7 @@
 - `昇腾 NPU 芯片运行飞桨 <./npu/index_cn.html>`_ : 介绍如何在昇腾 NPU 芯片环境上安装和使用飞桨。
 - `寒武纪 MLU 芯片运行飞桨 <./mlu/index_cn.html>`_ : 介绍如何在寒武纪 MLU 芯片环境上安装和使用飞桨。
 - `燧原 GCU 芯片运行飞桨 <./gcu/index_cn.html>`_ : 介绍如何在燧原 GCU 芯片环境上安装和使用飞桨。
+- `太初 SDAA 芯片运行飞桨 <./sdaa/index_cn.html>`_ : 介绍如何在太初 SDAA 芯片环境上安装和使用飞桨。
 
 ..  toctree::
     :hidden:
@@ -22,3 +23,4 @@
     npu/index_cn.rst
     mlu/index_cn.rst
     gcu/index_cn.rst
+    sdaa/index_cn.rst
diff --git a/docs/hardware_support/sdaa/index_cn.rst b/docs/hardware_support/sdaa/index_cn.rst
@@ -0,0 +1,18 @@
+.. _cn_rocm_information:
+
+####################
+太初 SDAA 芯片
+####################
+
+太初 T100 系列芯片是太初元碁推出的一款高性能人工智能计算芯片，采用主从异构的物理架构，T100 配合服务器可以为数据中心提供强劲算力，可加速深度学习训练进程，具有超强算力、高度集成的特点，满足互联网、运营商、金融、科学计算等人工智能训练以及高性能计算领域的算力需求。更多太初 SDAA 芯片详情及技术指标请 `点击这里 <http://docs.tecorigin.net/>`_ 。
+
+飞桨框架支持基于太初 SDAA 芯片的训练和推理，请参考以下内容快速体验：
+
+- `太初 SDAA 安装说明 <./install_cn.html>`_ : 太初 SDAA 安装说明
+- `太初 SDAA 基于框架的使用指南 <./paddle_tutorial_cn.html>`_ : 太初 SDAA 基于框架的使用指南
+
+..  toctree::
+    :hidden:
+
+    install_cn.md
+    paddle_tutorial_cn.md
diff --git a/docs/hardware_support/sdaa/install_cn.md b/docs/hardware_support/sdaa/install_cn.md
@@ -0,0 +1,148 @@
+# 太初 SDAA 安装说明
+
+飞桨框架 SDAA 版支持太初 SDAA 的训练和推理，提供两种安装方式：
+
+1. 通过飞桨官网发布的 wheel 包安装
+2. 通过源代码编译安装得到 wheel 包
+
+## 太初 SDAA 系统要求
+
+| 要求类型 |   要求内容   |
+| --------- | -------- |
+| 芯片型号 | 太初元碁 系列芯片，包括 T100 |
+| 操作系统 | Linux 操作系统，包括 CentOS、Ubuntu、KylinV10 等 |
+
+## 运行环境准备
+
+推荐使用太初官方发布的太初 SDAA 开发镜像，该镜像预装有太初 SDAA 基础运行环境库。
+
+```bash
+# 拉取镜像
+wget http://mirrors.tecorigin.com/repository/teco-docker-tar-repo/release/ubuntu22.04/x86_64/2.1.0/paddle-2.1.0-paddle_sdaa2.1.0.tar
+docker load < paddle-2.1.0-paddle_sdaa2.1.0.tar
+```
+
+```bash
+# 启动容器
+docker run -itd --name="paddle-SDAA-dev" -v $(pwd):/work --net=host \
+ --device=/dev/tcaicard0 --device=/dev/tcaicard1 --device=/dev/tcaicard2 --device=/dev/tcaicard3 \
+ --cap-add SYS_PTRACE --cap-add SYS_ADMIN --shm-size 128g \
+ jfrog.tecorigin.net/tecotp-docker/release/ubuntu22.04/x86_64/paddle:2.1.0-paddle_sdaa2.1.0 /bin/bash
+```
+
+#### 选项说明及可调整参数
+
+##### ① `--name paddle-SDAA-dev`
+- **作用**：指定容器名称。
+- **可调整**：
+  - 用户可改为其他名称，例如 `paddle-SDAA-test`，方便区分不同实验。
+
+##### ② `-v $(pwd):/work`
+- **作用**：挂载本地目录到容器内 `/work` 目录。
+- **可调整**：
+  - 可以修改 `$(pwd)` 为实际路径，例如 `-v /data/projects:/work`，让容器访问宿主机的数据。
+
+##### ③ `--shm-size=128G`
+- **作用**：设置共享内存大小，影响数据处理和计算效率。
+- **可调整**：
+  - 若内存有限，可降低，如 `--shm-size=32G`，但可能影响大规模训练。
+  - 若训练任务需要更大共享内存，可提高，如 `--shm-size=256G`。
+
+```bash
+# 检查容器内是否正常识别太初 SDAA 设备
+teco-smi
+```
+
+```bash
+# 预期输出
++-----------------------------------------------------------------------------+
+|  TECO-SMI: 1.12.0        SDAADriver: 2.1.0        SDAARuntime: 2.1.0        |
+|-------------------------------+----------------------+----------------------|
+| Index  Name                   | Bus-Id               | Health      SPE-Util |
+|        Temp          Pwr Usage|          Memory-Usage|                      |
+|=============================================================================|
+|   0    TECO_AICARD_01         | 00000000:4F:00.0     | OK                0% |
+|        35C               190W |        0MB / 16384MB |                      |
+|-------------------------------+----------------------+----------------------|
+|   1    TECO_AICARD_01         | 00000000:4F:00.0     | OK                0% |
+|        35C               190W |        0MB / 16384MB |                      |
+|-------------------------------+----------------------+----------------------|
+|   2    TECO_AICARD_01         | 00000000:4F:00.0     | OK                0% |
+|        35C               190W |        0MB / 16384MB |                      |
+|-------------------------------+----------------------+----------------------|
+|   3    TECO_AICARD_01         | 00000000:52:00.0     | OK                0% |
+|        37C                94W |        0MB / 16384MB |                      |
++-------------------------------+----------------------+----------------------+
+```
+
+## 安装飞桨框架
+
+### 安装方式一：wheel 包安装
+
+SDAA 支持插件式安装，需先安装飞桨 CPU 安装包，再安装飞桨 SDAA 插件包。在启动的 docker 容器中，执行以下命令：
+
+```bash
+# 先安装飞桨 CPU 安装包
+pip install paddlepaddle -i https://www.paddlepaddle.org.cn/packages/nightly/cpu
+
+# 再安装飞桨 SDAA 插件包
+pip install paddle-sdaa -i https://www.paddlepaddle.org.cn/packages/nightly/sdaa
+```
+⚠️ 注意：nightly 版本为每日构建，可能存在不稳定性。如果需要更稳定的版本，建议使用 3.0 版本:https://www.paddlepaddle.org.cn/packages/stable/sdaa/paddle-sdaa/
+### 安装方式二：源代码编译安装
+
+在启动的 docker 容器中，先安装飞桨 CPU 安装包，再下载 PaddleCustomDevice 源码编译得到飞桨 SDAA 插件包。
+
+```bash
+# 下载 PaddleCustomDevice 源码
+git clone https://github.com/PaddlePaddle/PaddleCustomDevice
+
+# 在 PaddleCUstomDevice 根目录下执行以下指令更新子模块代码
+git submodule sync
+git submodule update --init --recursive
+
+# 进入硬件后端(太初 SDAA)目录
+cd backends/sdaa
+
+# 先安装飞桨 CPU 安装包
+pip install paddlepaddle -i https://www.paddlepaddle.org.cn/packages/nightly/cpu
+
+# 执行编译脚本
+bash compile.sh
+
+# 编译产出在 build/dist 路径下，使用 pip 安装
+pip install build/dist/*.whl --force-reinstall
+```
+⚠️ 注意：nightly 版本为每日构建，可能存在不稳定性。如果需要更稳定的版本，建议使用 3.0 版本。
+## 基础功能检查
+
+安装完成后，在 docker 容器中输入如下命令进行飞桨基础健康功能的检查。
+
+```bash
+# 列出可用硬件后端
+python3 -c "import paddle; print(paddle.device.get_all_custom_device_type())"
+```
+```bash
+# 预期得到如下输出结果
+['sdaa']
+```
+```bash
+# 使用 paddle_sdaa utils 模块的 `run_check` 功能检查 paddle-sdaa 插件和 PaddlePaddle 主框架是否正常安装
+python3 -c "import paddle_sdaa; paddle_sdaa.utils.run_check()"
+```
+```bash
+# 预期得到输出如下
++--------------+---------------------+-----------------+
+|  Dependence  | Compilation Version | Current Version |
++--------------+---------------------+-----------------+
+| sdaa_driver  |        2.1.0        |      2.1.0      |
+| sdaa_runtime |        2.1.0        |      2.1.0      |
++--------------+---------------------+-----------------+
+```
+## 如何卸载
+
+请使用以下命令卸载 Paddle:
+
+```bash
+pip uninstall paddlepaddle paddle-sdaa
+```
diff --git a/docs/hardware_support/sdaa/paddle_tutorial_cn.md b/docs/hardware_support/sdaa/paddle_tutorial_cn.md
@@ -0,0 +1,121 @@
+
+# 太初 SDAA 基于框架的使用指南
+
+## 一、环境准备
+
+### 环境说明
+
+* 本教程介绍如何基于太初 SDAA 进行 ResNet50 的训练，总共需要 1 卡进行训练
+
+* 考虑到环境差异性，我们推荐使用教程提供的标准镜像完成环境准备：
+
+  * x86_64 镜像链接：http://mirrors.tecorigin.com/repository/teco-docker-tar-repo/release/ubuntu22.04/x86_64/2.1.0/paddle-2.1.0-paddle_sdaa2.1.0.tar
+
+  * 镜像中已经默认安装了太初算子库 TecoDnn
+
+* 太初驱动版本为 2.1.0
+
+### 环境安装
+
+1. 安装 PaddlePaddle
+
+*该命令会自动安装飞桨主框架每日自动构建的 nightly-build 版本*
+
+```shell
+python -m pip install paddlepaddle -i https://www.paddlepaddle.org.cn/packages/nightly/cpu/
+```
+
+2. 安装 CustomDevice
+
+*该命令会自动安装飞桨 Custom Device 每日自动构建的 nightly-build 版本*
+
+```shell
+python -m pip install paddle-sdaa -i https://www.paddlepaddle.org.cn/packages/nightly/sdaa/
+```
+⚠️ 注意：nightly 版本为每日构建，可能存在不稳定性。如果需要更稳定的版本，建议使用 3.0 版本:https://www.paddlepaddle.org.cn/packages/stable/sdaa/paddle-sdaa/
+## 二、运行示例
+
+飞桨框架集成了经典的视觉模型用于帮助用户快速上手，我们将基于 ResNet50 结构，在 Cifar10 数据集上进行一次快速训练，用于帮助您了解如何基于太初 SDAA 进行训练（和 GPU 训练代码相比，差异点仅为 `paddle.set_device("sdaa")`）
+
+注意：
+
+* *本教程主要用于快速入门，并未对参数进行细致调优，训练效果未必是最好的，您可以自行调整超参数进行效果调优*
+
+* *本教程预计使用单卡 T100 训练 35 分钟*
+
+1. 导入必要的包
+
+```python
+import paddle
+from paddle.vision import transforms
+from paddle.vision.models import resnet50
+```
+
+2. 设置运行设备
+
+```python
+# 1. 设定运行设备为 SDAA
+paddle.set_device("sdaa")
+```
+
+3. 加载训练数据集
+
+```python
+# 2. 定义数据集、数据预处理方法与 DataLoader
+transform = transforms.Compose([
+    transforms.Resize(224),
+    transforms.ToTensor(),
+    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
+])
+train_set = paddle.vision.datasets.Cifar10(mode='train', transform=transform)
+train_loader = paddle.io.DataLoader(train_set, batch_size=128, num_workers=8)
+```
+
+4. 定义网络结构和损失函数
+
+```python
+# 3. 定义网络结构
+net = resnet50(num_classes=10)
+# 4. 定义损失函数
+net_loss = paddle.nn.CrossEntropyLoss()
+# 5. 定义优化器
+optimizer = paddle.optimizer.Adam(learning_rate=0.001, parameters=net.parameters())
+```
+
+5. 启动训练
+
+训练过程中会打印 loss 的变化情况，可以观察到 loss 在初步下降，这意味着模型参数逐渐适应了该数据集。
+
+```python
+net.train()
+for epoch in range(10):
+    for batch_idx, data in enumerate(train_loader, start=0):
+        iSDAAts, labels = data
+        optimizer.clear_grad()
+        # 6. 前向传播并计算损失
+        outputs = net(iSDAAts)
+        loss = net_loss(outputs, labels)
+        # 7. 反向传播
+        loss.backward()
+        # 8. 更新参数
+        optimizer.step()
+        print('Epoch %d, Iter %d, Loss: %.5f' % (epoch + 1, batch_idx + 1, loss))
+print('Finished Training')
+```
+
+6. 测试模型效果
+
+```python
+test_dataset = paddle.vision.datasets.Cifar10(mode='test', transform=transform)
+
+# 测试 5 张图片效果
+for i in range(5):
+    test_image, gt = test_dataset[0]
+    # CHW -> NCHW
+    test_image = test_image.unsqueeze(0)
+
+    # 取预测分布中的最大值
+    res = net(test_image).argmax().numpy()
+    print(f"图像{i} 标签：{gt}")
+    print(f"模型预测结果：{res}")
+```