Кэш-локальность

Современные CPU имеют несколько уровней кэша. Доступ к данным в кэше в 100 раз быстрее, чем к оперативной памяти.

▸Data-Oriented Design

cpp

1// ❌ Плохо: Structure of Arrays
2struct Particle {
3    float x, y, z;
4    float vx, vy, vz;
5    float mass;
6};
7
8std::vector<Particle> particles(100000);
9
10// ✅ Хорошо: Array of Structures
11struct Particles {
12    std::vector<float> x, y, z;
13    std::vector<float> vx, vy, vz;
14    std::vector<float> mass;
15};
16
17void updatePositions(Particles& p, float dt) {
18    for (size_t i = 0; i < p.x.size(); ++i) {
19        p.x[i] += p.vx[i] * dt;
20        p.y[i] += p.vy[i] * dt;
21        p.z[i] += p.vz[i] * dt;
22    }
23}

▸Prefetching

cpp

1for (size_t i = 0; i < n; ++i) {
2    __builtin_prefetch(&data[i + 16]); // Prefetch 16 элементов вперед
3    process(data[i]);
4}

Управление памятью

▸Статическое выделение

cpp

1// Статические массивы не требуют аллокации
2constexpr int BUFFER_SIZE = 1024;
3int buffer[BUFFER_SIZE]; // На стеке
4
5// std::array — безопасная альтернатива
6std::array<int, 1024> arr;

▸Пул объектов

cpp

1template <typename T, size_t PoolSize>
2class ObjectPool {
3    alignas(T) char storage[sizeof(T) * PoolSize];
4    std::vector<size_t> free_indices;
5public:
6    ObjectPool() {
7        for (size_t i = 0; i < PoolSize; ++i) {
8            free_indices.push_back(i);
9        }
10    }
11    
12    T* allocate() {
13        if (free_indices.empty()) return nullptr;
14        size_t idx = free_indices.back();
15        free_indices.pop_back();
16        return reinterpret_cast<T*>(&storage[idx * sizeof(T)]);
17    }
18    
19    void deallocate(T* ptr) {
20        size_t idx = (reinterpret_cast<char*>(ptr) - storage) / sizeof(T);
21        free_indices.push_back(idx);
22    }
23};

SIMD оптимизации

cpp

1#include <immintrin.h>
2
3// Суммирование массива с SSE
4float sum_array_sse(const float* data, size_t n) {
5    __m128 sum = _mm_setzero_ps();
6    size_t i = 0;
7    
8    for (; i + 4 <= n; i += 4) {
9        __m128 vec = _mm_loadu_ps(&data[i]);
10        sum = _mm_add_ps(sum, vec);
11    }
12    
13    // Горизонтальное суммирование
14    sum = _mm_hadd_ps(sum, sum);
15    sum = _mm_hadd_ps(sum, sum);
16    
17    float result;
18    _mm_store_ss(&result, sum);
19    
20    // Обработка остатка
21    for (; i < n; ++i) {
22        result += data[i];
23    }
24    
25    return result;
26}

Компиляторные опции

▸GCC/Clang

bash

1# Оптимизации
2-O2  # Базовые оптимизации
3-O3  # Агрессивные оптимизации
4-Os  # Оптимизация по размеру
5
6# Профиль-guided оптимизации
7-fprofile-generate
8-fprofile-use
9
10# LTO (Link Time Optimization)
11-flto

▸Профилирование

bash

1# GCC profiling
2g++ -pg -O2 main.cpp
3./a.out
4gprof a.out gmon.out > analysis.txt
5
6# perf (Linux)
7perf record ./a.out
8perf report
9
10# Valgrind
11valgrind --tool=callgrind ./a.out

Избегание ненужных копий

cpp

1// ❌ Копирование
2void process(std::vector<int> v) { ... }
3
4// ✅ Передача по ссылке
5void process(const std::vector<int>& v) { ... }
6
7// ✅ Move semantics
8void process(std::vector<int>&& v) { ... }
9
10// ✅ std::string_view (C++17)
11void process(std::string_view sv) { ... }

Branch Prediction

cpp

1// ❌ Непредсказуемые ветвления
2if (data[i] > threshold) { ... }
3
4// ✅ Сортировка для предсказуемости
5std::sort(data.begin(), data.end());
6// Теперь ветвления более предсказуемы

Заключение

Производительность C++ определяется пониманием архитектуры CPU и правильным использованием языка. Кэш-локальность, управление памятью и SIMD-оптимизации могут ускорить код на порядки. Регулярное профилирование помогает найти узкие места.

#c++#производительность#оптимизация#профилирование#simd#memory

C++≈ 13 мин чтения15 мая 2024 г.

Производительность C++: оптимизация и профилирование

Техники оптимизации C++ кода: кэш-локальность, аллокации памяти, SIMD, компиляторные опции и профилирование.

Кэш-локальность

Современные CPU имеют несколько уровней кэша. Доступ к данным в кэше в 100 раз быстрее, чем к оперативной памяти.

▸Data-Oriented Design

cpp

1// ❌ Плохо: Structure of Arrays
2struct Particle {
3    float x, y, z;
4    float vx, vy, vz;
5    float mass;
6};
7
8std::vector<Particle> particles(100000);
9
10// ✅ Хорошо: Array of Structures
11struct Particles {
12    std::vector<float> x, y, z;
13    std::vector<float> vx, vy, vz;
14    std::vector<float> mass;
15};
16
17void updatePositions(Particles& p, float dt) {
18    for (size_t i = 0; i < p.x.size(); ++i) {
19        p.x[i] += p.vx[i] * dt;
20        p.y[i] += p.vy[i] * dt;
21        p.z[i] += p.vz[i] * dt;
22    }
23}

▸Prefetching

cpp

1for (size_t i = 0; i < n; ++i) {
2    __builtin_prefetch(&data[i + 16]); // Prefetch 16 элементов вперед
3    process(data[i]);
4}

Управление памятью

▸Статическое выделение

cpp

1// Статические массивы не требуют аллокации
2constexpr int BUFFER_SIZE = 1024;
3int buffer[BUFFER_SIZE]; // На стеке
4
5// std::array — безопасная альтернатива
6std::array<int, 1024> arr;

▸Пул объектов

cpp

1template <typename T, size_t PoolSize>
2class ObjectPool {
3    alignas(T) char storage[sizeof(T) * PoolSize];
4    std::vector<size_t> free_indices;
5public:
6    ObjectPool() {
7        for (size_t i = 0; i < PoolSize; ++i) {
8            free_indices.push_back(i);
9        }
10    }
11    
12    T* allocate() {
13        if (free_indices.empty()) return nullptr;
14        size_t idx = free_indices.back();
15        free_indices.pop_back();
16        return reinterpret_cast<T*>(&storage[idx * sizeof(T)]);
17    }
18    
19    void deallocate(T* ptr) {
20        size_t idx = (reinterpret_cast<char*>(ptr) - storage) / sizeof(T);
21        free_indices.push_back(idx);
22    }
23};

SIMD оптимизации

cpp

1#include <immintrin.h>
2
3// Суммирование массива с SSE
4float sum_array_sse(const float* data, size_t n) {
5    __m128 sum = _mm_setzero_ps();
6    size_t i = 0;
7    
8    for (; i + 4 <= n; i += 4) {
9        __m128 vec = _mm_loadu_ps(&data[i]);
10        sum = _mm_add_ps(sum, vec);
11    }
12    
13    // Горизонтальное суммирование
14    sum = _mm_hadd_ps(sum, sum);
15    sum = _mm_hadd_ps(sum, sum);
16    
17    float result;
18    _mm_store_ss(&result, sum);
19    
20    // Обработка остатка
21    for (; i < n; ++i) {
22        result += data[i];
23    }
24    
25    return result;
26}

Компиляторные опции

▸GCC/Clang

bash

1# Оптимизации
2-O2  # Базовые оптимизации
3-O3  # Агрессивные оптимизации
4-Os  # Оптимизация по размеру
5
6# Профиль-guided оптимизации
7-fprofile-generate
8-fprofile-use
9
10# LTO (Link Time Optimization)
11-flto

▸Профилирование

bash

1# GCC profiling
2g++ -pg -O2 main.cpp
3./a.out
4gprof a.out gmon.out > analysis.txt
5
6# perf (Linux)
7perf record ./a.out
8perf report
9
10# Valgrind
11valgrind --tool=callgrind ./a.out

Избегание ненужных копий

cpp

1// ❌ Копирование
2void process(std::vector<int> v) { ... }
3
4// ✅ Передача по ссылке
5void process(const std::vector<int>& v) { ... }
6
7// ✅ Move semantics
8void process(std::vector<int>&& v) { ... }
9
10// ✅ std::string_view (C++17)
11void process(std::string_view sv) { ... }

Branch Prediction

cpp

1// ❌ Непредсказуемые ветвления
2if (data[i] > threshold) { ... }
3
4// ✅ Сортировка для предсказуемости
5std::sort(data.begin(), data.end());
6// Теперь ветвления более предсказуемы

Заключение

#c++#производительность#оптимизация#профилирование#simd#memory

🛠

Попробуйте наш инструмент

Закрепите знания с помощью интерактивных упражнений

Перейти →

Производительность C++: оптимизация и профилирование

Кэш-локальность

▸Data-Oriented Design

▸Prefetching

Управление памятью

▸Статическое выделение

▸Пул объектов

SIMD оптимизации

Компиляторные опции

▸GCC/Clang

▸Профилирование

Избегание ненужных копий

Branch Prediction

Заключение

Попробуйте наш инструмент

Похожие статьи

React: полное руководство для собеседования

JavaScript: глубокий анализ для собеседования

Node.js и backend: что спрашивают на собеседовании

DevOps: от основ до продвинутого уровня

Производительность C++: оптимизация и профилирование

Кэш-локальность

▸Data-Oriented Design

▸Prefetching

Управление памятью

▸Статическое выделение

▸Пул объектов

SIMD оптимизации

Компиляторные опции

▸GCC/Clang

▸Профилирование

Избегание ненужных копий

Branch Prediction

Заключение

Попробуйте наш инструмент

Похожие статьи

React: полное руководство для собеседования

JavaScript: глубокий анализ для собеседования

Node.js и backend: что спрашивают на собеседовании

DevOps: от основ до продвинутого уровня