Python для Data Science: pandas, numpy, matplotlib

Введение в Data Science

Python — доминирующий язык в Data Science благодаря богатой экосистеме библиотек. Три основных инструмента:

NumPy — числовые вычисления

pandas — работа с табличными данными

matplotlib/seaborn — визуализация

NumPy: основы

▸Создание массивов

python

1import numpy as np
2
3# Из списка
4arr = np.array([1, 2, 3, 4, 5])
5
6# Генерация
7zeros = np.zeros((3, 4))  # 3x4 нулей
8ones = np.ones((2, 3))    # 2x3 единиц
9range_arr = np.arange(0, 10, 2)  # [0, 2, 4, 6, 8]
10linspace = np.linspace(0, 1, 5)  # 5 равномерных значений
11
12# Случайные числа
13random = np.random.rand(3, 3)  # Uniform [0, 1)
14normal = np.random.randn(1000)  # Normal distribution

▸Операции с массивами

python

1a = np.array([1, 2, 3])
2b = np.array([4, 5, 6])
3
4# Поэлементные операции
5c = a + b      # [5, 7, 9]
6c = a * b      # [4, 10, 18]
7c = a ** 2     # [1, 4, 9]
8
9# Статистика
10mean = np.mean(a)      # Среднее
11std = np.std(a)        # Стандартное отклонение
12median = np.median(a)  # Медиана
13min_val = np.min(a)    # Минимум
14max_val = np.max(a)    # Максимум
15
16# Линейная алгебра
17matrix = np.array([[1, 2], [3, 4]])
18transpose = matrix.T
19inverse = np.linalg.inv(matrix)
20determinant = np.linalg.det(matrix)

▸Индексация и срезы

python

1arr = np.array([10, 20, 30, 40, 50])
2
3# Базовая индексация
4print(arr[0])      # 10
5print(arr[-1])     # 50
6
7# Срезы
8print(arr[1:4])    # [20, 30, 40]
9print(arr[::2])    # [10, 30, 50]
10
11# Булевая индексация
12mask = arr > 25
13print(arr[mask])   # [30, 40, 50]
14
15# 2D индексация
16matrix = np.array([[1, 2], [3, 4], [5, 6]])
17print(matrix[0, 1])  # 2
18print(matrix[:, 0])  # [1, 3, 5]

pandas: работа с данными

▸DataFrame

python

1import pandas as pd
2
3# Создание DataFrame
4data = {
5    'name': ['Alice', 'Bob', 'Charlie', 'Diana'],
6    'age': [25, 30, 35, 28],
7    'city': ['NYC', 'LA', 'NYC', 'Boston'],
8    'salary': [50000, 60000, 70000, 55000]
9}
10df = pd.DataFrame(data)
11
12# Загрузка из файла
13df = pd.read_csv('data.csv')
14df = pd.read_excel('data.xlsx')
15df = pd.read_json('data.json')

▸Основные операции

python

1# Информация о данных
2print(df.head())          # Первые 5 строк
3print(df.info())          # Типы данных
4print(df.describe())      # Статистика
5
6# Выбор данных
7print(df['name'])         # Один столбец
8print(df[['name', 'age']])  # Несколько столбцов
9print(df[df['age'] > 25])   # Фильтрация
10
11# Добавление столбца
12df['salary_k'] = df['salary'] / 1000
13
14# Группировка
15grouped = df.groupby('city').agg({
16    'salary': ['mean', 'max'],
17    'age': 'mean'
18})
19
20# Пропуски
21df.isnull().sum()         # Подсчёт пропусков
22df.dropna()               # Удаление строк с пропусками
23df.fillna(0)              # Заполнение пропусков

▸Объединение данных

python

1# merge (аналог SQL JOIN)
2result = pd.merge(df1, df2, on='id', how='left')
3
4# concat (склейка)
5result = pd.concat([df1, df2], axis=0)  # По строкам
6result = pd.concat([df1, df2], axis=1)  # По столбцам
7
8# join (по индексам)
9result = df1.join(df2, how='inner')

▸Временные ряды

python

1# Парсинг дат
2df['date'] = pd.to_datetime(df['date'])
3
4# Установка индекса
5df.set_index('date', inplace=True)
6
7# Ресемплирование
8daily = df.resample('D').mean()      # Среднее по дням
9monthly = df.resample('M').sum()     # Сумма по месяцам
10
11# Скользящее среднее
12df['ma_7'] = df['value'].rolling(window=7).mean()

matplotlib: визуализация

▸Основные графики

python

1import matplotlib.pyplot as plt
2
3# Линейный график
4plt.figure(figsize=(10, 6))
5plt.plot(x, y, label='Данные')
6plt.xlabel('X')
7plt.ylabel('Y')
8plt.title('Линейный график')
9plt.legend()
10plt.savefig('plot.png')
11plt.show()
12
13# Гистограмма
14plt.hist(data, bins=30, alpha=0.7)
15plt.xlabel('Значение')
16plt.ylabel('Частота')
17plt.title('Гистограмма')
18
19# Scatter plot
20plt.scatter(x, y, c=colors, s=sizes, alpha=0.6)
21plt.colorbar()

▸Subplots

python

1fig, axes = plt.subplots(2, 2, figsize=(12, 10))
2
3axes[0, 0].plot(x, y1)
4axes[0, 0].set_title('График 1')
5
6axes[0, 1].scatter(x, y2)
7axes[0, 1].set_title('График 2')
8
9axes[1, 0].bar(categories, values)
10axes[1, 0].set_title('График 3')
11
12axes[1, 1].pie(sizes, labels=labels)
13axes[1, 1].set_title('График 4')
14
15plt.tight_layout()
16plt.show()

▸Стилизация

python

1# Использование стилей
2plt.style.use('seaborn-v0_8')
3
4# Пользовательские цвета
5colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']
6
7fig, ax = plt.subplots()
8bars = ax.bar(categories, values, color=colors)
9ax.bar_label(bars, fmt='%.1f')

Практический пример

python

1import pandas as pd
2import matplotlib.pyplot as plt
3
4# Загрузка данных
5df = pd.read_csv('sales.csv')
6
7# Анализ продаж по месяцам
8monthly_sales = df.groupby('month')['revenue'].sum()
9
10# Визуализация
11fig, ax = plt.subplots(figsize=(12, 6))
12monthly_sales.plot(kind='bar', ax=ax, color='steelblue')
13ax.set_title('Продажи по месяцам')
14ax.set_xlabel('Месяц')
15ax.set_ylabel('Выручка')
16plt.tight_layout()
17plt.savefig('monthly_sales.png')

Заключение

pandas, numpy и matplotlib — основные инструменты Data Science в Python. Знание этих библиотек критически важно для работы с данными. На собеседовании спрашивают про типичные операции pandas, оптимизацию производительности numpy и выбор типа графика для визуализации.

1import numpy as np

3# Из списка

4arr = np.array([1, 2, 3, 4, 5])

6# Генерация

7zeros = np.zeros((3, 4)) # 3x4 нулей

8ones = np.ones((2, 3)) # 2x3 единиц

9range_arr = np.arange(0, 10, 2) # [0, 2, 4, 6, 8]

10linspace = np.linspace(0, 1, 5) # 5 равномерных значений

12# Случайные числа

13random = np.random.rand(3, 3) # Uniform [0, 1)

14normal = np.random.randn(1000) # Normal distribution

1a = np.array([1, 2, 3])

2b = np.array([4, 5, 6])

4# Поэлементные операции

5c = a + b # [5, 7, 9]

6c = a * b # [4, 10, 18]

7c = a ** 2 # [1, 4, 9]

9# Статистика

10mean = np.mean(a) # Среднее

11std = np.std(a) # Стандартное отклонение

12median = np.median(a) # Медиана

13min_val = np.min(a) # Минимум

14max_val = np.max(a) # Максимум

16# Линейная алгебра

17matrix = np.array([[1, 2], [3, 4]])

18transpose = matrix.T

19inverse = np.linalg.inv(matrix)

20determinant = np.linalg.det(matrix)

1arr = np.array([10, 20, 30, 40, 50])

3# Базовая индексация

4print(arr[0]) # 10

5print(arr[-1]) # 50

7# Срезы

8print(arr[1:4]) # [20, 30, 40]

9print(arr[::2]) # [10, 30, 50]

11# Булевая индексация

12mask = arr > 25

13print(arr[mask]) # [30, 40, 50]

15# 2D индексация

16matrix = np.array([[1, 2], [3, 4], [5, 6]])

17print(matrix[0, 1]) # 2

18print(matrix[:, 0]) # [1, 3, 5]

1import pandas as pd

3# Создание DataFrame

4data = {

5 'name': ['Alice', 'Bob', 'Charlie', 'Diana'],

6 'age': [25, 30, 35, 28],

7 'city': ['NYC', 'LA', 'NYC', 'Boston'],

8 'salary': [50000, 60000, 70000, 55000]

10df = pd.DataFrame(data)

12# Загрузка из файла

13df = pd.read_csv('data.csv')

14df = pd.read_excel('data.xlsx')

15df = pd.read_json('data.json')

1# Информация о данных

2print(df.head()) # Первые 5 строк

3print(df.info()) # Типы данных

4print(df.describe()) # Статистика

6# Выбор данных

7print(df['name']) # Один столбец

8print(df[['name', 'age']]) # Несколько столбцов

9print(df[df['age'] > 25]) # Фильтрация

11# Добавление столбца

12df['salary_k'] = df['salary'] / 1000

14# Группировка

15grouped = df.groupby('city').agg({

16 'salary': ['mean', 'max'],

17 'age': 'mean'

18})

20# Пропуски

21df.isnull().sum() # Подсчёт пропусков

22df.dropna() # Удаление строк с пропусками

23df.fillna(0) # Заполнение пропусков

1# merge (аналог SQL JOIN)

2result = pd.merge(df1, df2, on='id', how='left')

4# concat (склейка)

5result = pd.concat([df1, df2], axis=0) # По строкам

6result = pd.concat([df1, df2], axis=1) # По столбцам

8# join (по индексам)

9result = df1.join(df2, how='inner')

1# Парсинг дат

2df['date'] = pd.to_datetime(df['date'])

4# Установка индекса

5df.set_index('date', inplace=True)

7# Ресемплирование

8daily = df.resample('D').mean() # Среднее по дням

9monthly = df.resample('M').sum() # Сумма по месяцам

11# Скользящее среднее

12df['ma_7'] = df['value'].rolling(window=7).mean()

1import matplotlib.pyplot as plt

3# Линейный график

4plt.figure(figsize=(10, 6))

5plt.plot(x, y, label='Данные')

6plt.xlabel('X')

7plt.ylabel('Y')

8plt.title('Линейный график')

9plt.legend()

10plt.savefig('plot.png')

11plt.show()

13# Гистограмма

14plt.hist(data, bins=30, alpha=0.7)

15plt.xlabel('Значение')

16plt.ylabel('Частота')

17plt.title('Гистограмма')

19# Scatter plot

20plt.scatter(x, y, c=colors, s=sizes, alpha=0.6)

21plt.colorbar()

1fig, axes = plt.subplots(2, 2, figsize=(12, 10))

3axes[0, 0].plot(x, y1)

4axes[0, 0].set_title('График 1')

6axes[0, 1].scatter(x, y2)

7axes[0, 1].set_title('График 2')

9axes[1, 0].bar(categories, values)

10axes[1, 0].set_title('График 3')

12axes[1, 1].pie(sizes, labels=labels)

13axes[1, 1].set_title('График 4')

15plt.tight_layout()

16plt.show()

1# Использование стилей

2plt.style.use('seaborn-v0_8')

4# Пользовательские цвета

5colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']

7fig, ax = plt.subplots()

8bars = ax.bar(categories, values, color=colors)

9ax.bar_label(bars, fmt='%.1f')

1import pandas as pd

2import matplotlib.pyplot as plt

4# Загрузка данных

5df = pd.read_csv('sales.csv')

7# Анализ продаж по месяцам

8monthly_sales = df.groupby('month')['revenue'].sum()

10# Визуализация

11fig, ax = plt.subplots(figsize=(12, 6))

12monthly_sales.plot(kind='bar', ax=ax, color='steelblue')

13ax.set_title('Продажи по месяцам')

14ax.set_xlabel('Месяц')

15ax.set_ylabel('Выручка')

16plt.tight_layout()

17plt.savefig('monthly_sales.png')

Введение в Data Science

NumPy: основы

▸Создание массивов

▸Операции с массивами

▸Индексация и срезы

pandas: работа с данными

▸DataFrame

▸Основные операции

▸Объединение данных

▸Временные ряды

matplotlib: визуализация

▸Основные графики

▸Subplots

▸Стилизация

Практический пример

Заключение

Попробуйте наш инструмент

Похожие статьи

React: полное руководство для собеседования

JavaScript: глубокий анализ для собеседования

Node.js и backend: что спрашивают на собеседовании

DevOps: от основ до продвинутого уровня

Введение в Data Science

NumPy: основы

▸Создание массивов

▸Операции с массивами

▸Индексация и срезы

pandas: работа с данными

▸DataFrame

▸Основные операции

▸Объединение данных

▸Временные ряды

matplotlib: визуализация

▸Основные графики

▸Subplots

▸Стилизация

Практический пример

Заключение

Попробуйте наш инструмент

Похожие статьи

React: полное руководство для собеседования

JavaScript: глубокий анализ для собеседования

Node.js и backend: что спрашивают на собеседовании

DevOps: от основ до продвинутого уровня