CMake

CMake

最小配置示例 CMakelists.txt 1234cmake_minimum_required(VERSION 3.0) # cmake最低版本project(sample CXX) # 项目名称add_library(sample sample.cpp) # 添加库add_executable(sample_exe sample_exe.cpp) # 添加可执行程序相关函数 pr

2022-12-01

Programming > C/C++ > CMake

Effective Academic Writing

Welcome to my blog, enter password to read.

2022-11-28

Research > Academic Writing

AI Infra

AI Infra

Linear Regression Softmax Classification Multilayer Perceptron Text Prepare Language Model Recurrent Neural Network

2020-02-14

Infra > CUDA

Dive into DL

Dive into DL

Linear Regression Softmax Classification Multilayer Perceptron Text Prepare Language Model Recurrent Neural Network

2020-02-14

Artificial Intelligence > DL

GPU Hardware Resources

一、GPU硬件资源 1. 流多处理器--SM 串行和并发的区别：硬件执行单元利用串行执行：流水线停顿（Pipeline Stall）：数据依赖导致流水线气泡资源闲置：ALU、FPU等执行单元利用率低（通常<30%）冯·诺依曼瓶颈：单一指令流，顺序访问内存并发执行：多发射（Multiple Issue）：单周期发射多条指令执行单元并行：多个ALU/FPU同时工作乱

2020-01-08

Infra > CUDA

#CUDA

Matrix Plus

一、CUDA矩阵加饭 1.1 CUDA程序基本框架在这里插入图片描述 1.2 设置GPU设备在这里插入图片描述 1.3 内存管理在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述主机不能调用设备函数二、CUDA错误检查 1. 运行时API错误代码在这里插入图片描述 2. 错误检查

2020-01-08

Infra > CUDA

#CUDA

Introduction

一、CUDA简介 1.1 GPU硬件平台 GPU 数据运算 CPU 逻辑运算 GPU性能指标核心数 GPU显存容量 GPU计算峰值显存带宽 1.2 CPU+GPU异构架构 CPU起到控制作用，一般称为主机（host） GPU可以看作是CPU的协处理器，一般称为设备（device）主机和设备之间内存访问一般通过PCIe总线链接，PCIe传输较慢，对于小任务瓶颈是IO 1.3 CUDA介

2020-01-08

Infra > CUDA

#CUDA

CUDA Programming

一、核函数核函数在GPU上并行执行注意限定词__global__修饰返回值必须是void 形式 1234__global__ void kernel_function(argument arg){ printf("hello world\n");} 1234void __global__ kernel_function(argument

2020-01-08

Infra > CUDA

#CUDA

C/C++ Cookbook

C/C++ Cookbook

STL GDB inline inline Lambda Expression

2019-12-14

Programming > C/C++

Machine Learning

Machine Learning

PCA AdaBoost FP-growth K-NN Logistics Regression Noive Bayes Regression Apriori Cluster Decision Tree SVM Analytic Hierarchy Process Fuzzy Comprehension Evaluation

2019-12-14

Artificial Intelligence > ML