A–Z
Activation Function
Функция активации
Математическая функция, определяющая выход нейрона на основе его входа. Вводит нелинейность в сеть, позволяя ей обучаться сложным паттернам.
ReLU: f(x) = max(0, x)
Sigmoid: f(x) = 1 / (1 + e^(-x))
Deep Learning, Neural Networks
Adam (Adaptive Moment Estimation)
Адам (Адаптивная оценка момента)
Оптимизатор, который сочетает преимущества RMSProp и Momentum. Адаптивно вычисляет индивидуальные скорости обучения для разных параметров.
optimizer = tf.keras.optimizers.Adam(learning_rate=0.001)
Deep Learning, Optimization
Attention Mechanism
Механизм внимания
Техника, позволяющая модели динамически фокусироваться на разных частях входных данных, взвешивая их важность для текущей задачи.
# Transformer attention
attention_scores = tf.matmul(query, key, transpose_b=True)
attention_weights = tf.nn.softmax(attention_scores)
context_vector = tf.matmul(attention_weights, value)
NLP, Transformers, Computer Vision
Autoencoder
Автокодировщик
Тип нейронной сети, которая учится сжимать входные данные в компактное представление (кодирование), а затем восстанавливать их (декодирование).
# Simple autoencoder
encoder = Dense(32, activation='relu')(input)
decoder = Dense(784, activation='sigmoid')(encoder)
autoencoder = Model(input, decoder)
Dimensionality Reduction, Anomaly Detection
Backpropagation
Обратное распространение ошибки
Алгоритм обучения нейронных сетей, который вычисляет градиенты потерь по отношению к весам сети, используя цепное правило дифференцирования.
# In frameworks like PyTorch, this is automatic:
loss.backward()
Neural Networks, Deep Learning
Batch Normalization
Пакетная нормализация
Техника нормализации активаций в скрытых слоях сети для каждого мини-батча, ускоряющая обучение и улучшающая стабильность.
x = BatchNormalization()(x) # in Keras
Deep Learning, Computer Vision
BERT (Bidirectional Encoder Representations from Transformers)
BERT (Двунаправленные представления энкодера из трансформеров)
Архитектура трансформера для предварительного обучения языковых моделей, учитывающая контекст в обоих направлениях (слева направо и справа налево).
from transformers import BertModel
model = BertModel.from_pretrained('bert-base-uncased')
NLP, Transformers
BLEU (Bilingual Evaluation Understudy)
BLEU (Двуязычный оценочный заместитель)
Метрика для оценки качества машинного перевода путем сравнения с эталонными переводами на основе n-граммной точности.
from nltk.translate.bleu_score import sentence_bleu
score = sentence_bleu(references, hypothesis)
NLP, Machine Translation
CNN (Convolutional Neural Network)
Сверточная нейронная сеть (СНС)
Тип нейронной сети, специально разработанный для обработки структурированных сеточных данных (изображений, временных рядов), использующий сверточные слои.
model = Sequential([
Conv2D(32, (3,3), activation='relu', input_shape=(28,28,1)),
MaxPooling2D((2,2)),
Flatten(),
Dense(10, activation='softmax')
])
Computer Vision, Image Processing
Cutoff Date
Дата среза
Конкретная дата, до которой модель была обучена на данных. Важно для понимания временного контекста знаний модели.
GPT-3 has a cutoff date of October 2020
LLMs, AI Knowledge
Data Augmentation
Аугментация данных
Техника увеличения разнообразия обучающих данных путем применения случайных преобразований (повороты, сдвиги, шум) без изменения семантики.
# Image augmentation in Keras
datagen = ImageDataGenerator(rotation_range=20, width_shift_range=0.2)
Computer Vision, NLP, Audio Processing
Diffusion Models
Диффузионные модели
Генеративные модели, которые постепенно добавляют шум к данным (прямой процесс), а затем обучаются обращать этот процесс (обратный процесс).
# Stable Diffusion pipeline
from diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")
Generative AI, Image Synthesis
Dropout
Дропаут
Техника регуляризации, при которой случайно выбранные нейроны игнорируются во время обучения, предотвращая переобучение.
x = Dropout(0.5)(x) # 50% dropout rate
Deep Learning, Neural Networks
Embedding
Вложение (Эмбеддинг)
Представление дискретных объектов (слов, категорий) в виде непрерывных векторов в низкоразмерном пространстве, сохраняющее семантические отношения.
# Word embedding layer in Keras
embedding_layer = Embedding(vocab_size, 300, input_length=max_len)
NLP, Recommendation Systems
Few-Shot Learning
Обучение с малым количеством примеров
Парадигма обучения, при которой модель может обобщаться на новые задачи, имея лишь несколько примеров для каждого класса.
# Few-shot prompt for GPT-3
prompt = "Translate English to French:
sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche"
LLMs, Meta-Learning
GAN (Generative Adversarial Network)
Генеративно-состязательная сеть (ГСС)
Архитектура, состоящая из двух сетей (генератора и дискриминатора), соревнующихся друг с другом: генератор создает поддельные данные, дискриминатор пытается отличить их от реальных.
# GAN components
generator = build_generator()
discriminator = build_discriminator()
gan = Model(generator.input, discriminator(generator.output))
Generative AI, Image Synthesis
Gradient Descent
Градиентный спуск
Оптимизационный алгоритм для минимизации функции потерь путем итеративного движения в направлении, противоположном градиенту.
# In PyTorch
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
Machine Learning, Optimization
Hallucination
Галлюцинация (в контексте ИИ)
Когда модель генерирует информацию, которая не поддерживается входными данными или является вымышленной, но представлена как факт.
User: "Who invented the telephone in 2050?"
AI: "Dr. Elena Petrova invented the quantum telephone in 2050."
LLMs, Generative AI
Inference
Вывод (инференс)
Процесс использования обученной модели для предсказаний на новых данных.
predictions = model.predict(new_data)
Machine Learning, Deep Learning
Knowledge Distillation
Дистилляция знаний
Техника, при которой маленькая модель (студент) обучается имитировать поведение большой модели (учитель) или ансамбля моделей.
# Using teacher logits to train student
student_loss = KL_divergence(student_logits, teacher_logits)
Model Compression, Transfer Learning
LLM (Large Language Model)
Большая языковая модель (БЯМ)
Модель на основе трансформера, обученная на огромных объемах текстовых данных, способная генерировать связный текст, отвечать на вопросы и выполнять другие языковые задачи.
GPT-4, LLaMA, PaLM are all LLMs
NLP, Generative AI
Mamba
Мамба
Новая архитектура, сочетающая преимущества трансформеров и RNN, с линейной сложностью по последовательности, использующая selective state spaces.
from mamba_ssm import Mamba
model = Mamba(d_model=256, n_layers=6)
NLP, Sequence Modeling
Mixture of Experts (MoE)
Смесь экспертов
Архитектура, где разные части модели (эксперты) специализируются на разных аспектах данных, а механизм маршрутизации выбирает, каких экспертов использовать для каждого входа.
# In transformers
config = {"num_experts": 8, "expert_capacity": 64}
moe_layer = MoELayer(config)
LLMs, Sparse Models
Normalization
Нормализация
Процесс масштабирования и центрирования входных данных или активаций сети для улучшения стабильности и скорости обучения.
# Layer normalization in transformers
x = LayerNormalization()(x)
Deep Learning, Data Preprocessing
Overfitting
Переобучение
Когда модель слишком хорошо запоминает обучающие данные, включая их шум и конкретные примеры, и плохо обобщается на новые данные.
Training accuracy: 99%, Validation accuracy: 65%
Machine Learning, Model Evaluation
Perplexity
Перплексия
Метрика для оценки языковых моделей, измеряющая, насколько модель "удивлена" тестовыми данными. Чем ниже, тем лучше.
ppl = torch.exp(loss) # where loss is average negative log likelihood
NLP, Language Modeling
Quantization
Квантование
Техника уменьшения размера модели путем представления весов и активаций с меньшей точностью (например, с 32-битных до 8-битных чисел).
# In PyTorch
quantized_model = torch.quantization.quantize_dynamic(model, {torch.nn.Linear}, dtype=torch.qint8)
Model Optimization, Edge AI
Reinforcement Learning from Human Feedback (RLHF)
Обучение с подкреплением на основе человеческих предпочтений
Метод дообучения моделей, где человеческие предпочтения используются для формирования функции вознаграждения в обучении с подкреплением.
Used in ChatGPT fine-tuning to align with human preferences
LLMs, Alignment
RetNet (Retentive Network)
Ретентивная сеть
Архитектура, предлагающая эффективную альтернативу трансформерам с параллельными тренировкой и рекуррентным выводом, используя механизм удержания.
# RetNet layer
ret_layer = RetNetLayer(hidden_size=512, ffn_size=2048)
NLP, Sequence Modeling
Self-Supervised Learning
Самообучение
Парадигма обучения, где модель генерирует собственные обучающие сигналы из структуры данных без явных меток.
BERT's masked language modeling: predict missing words in sentences
Pre-training, Representation Learning
Temperature (in sampling)
Температура (при сэмплировании)
Параметр, контролирующий случайность предсказаний: высокая температура делает распределение более равномерным (творческим), низкая - более острым (консервативным).
# Sampling with temperature in PyTorch
probs = F.softmax(logits / temperature, dim=-1)
LLMs, Generative Models
Transformer
Трансформер
Архитектура, основанная на механизме внимания, без рекуррентных или сверточных слоев, ставшая стандартом для задач обработки последовательностей.
from transformers import Transformer
model = Transformer(d_model=512, nhead=8)
NLP, Computer Vision
Underfitting
Недообучение
Когда модель слишком проста и не может уловить основные закономерности в данных, показывая плохие результаты как на обучающих, так и на тестовых данных.
Training accuracy: 55%, Validation accuracy: 53%
Machine Learning, Model Evaluation
Vision Transformer (ViT)
Визуальный трансформер
Адаптация архитектуры трансформера для задач компьютерного зрения, где изображения разбиваются на патчи и обрабатываются как последовательности.
from vit_pytorch import ViT
model = ViT(image_size=256, patch_size=32, num_classes=1000)
Computer Vision
Word2Vec
Word2Vec
Алгоритм для обучения векторных представлений слов, основанный на предсказании контекстных слов (Skip-gram) или центрального слова по контексту (CBOW).
from gensim.models import Word2Vec
model = Word2Vec(sentences, vector_size=100, window=5)
NLP, Word Embeddings
Zero-Shot Learning
Обучение без примеров
Способность модели выполнять задачи, для которых она не получала явных примеров во время обучения, используя только описание задачи.
"Classify this text as positive, neutral or negative" - without seeing sentiment examples during training
LLMs, Few-Shot Learning
А–Я
Автокодировщик
Autoencoder
Нейронная сеть, которая учится сжимать входные данные в компактное представление (кодирование) и затем восстанавливать их (декодирование) с минимальными потерями.
# Простой автокодировщик в Keras
encoder = Dense(32, activation='relu')(input)
decoder = Dense(784, activation='sigmoid')(encoder)
autoencoder = Model(input, decoder)
Сжатие данных, Поиск аномалий
Агент (в обучении с подкреплением)
Agent (in RL)
Сущность, которая взаимодействует со средой, принимает решения и учится на основе получаемых вознаграждений.
# Агент DQN в PyTorch
class DQNAgent:
def __init__(self, state_size, action_size):
self.model = self._build_model(state_size, action_size)
Обучение с подкреплением
Аугментация данных
Data Augmentation
Техника искусственного увеличения обучающего набора данных путем применения преобразований (повороты, сдвиги, шум), сохраняющих семантику.
# Аугментация изображений в Keras
datagen = ImageDataGenerator(rotation_range=20, width_shift_range=0.2)
Компьютерное зрение, Обработка сигналов
Большая языковая модель (БЯМ)
Large Language Model (LLM)
Модель на основе архитектуры трансформер, обученная на огромных объемах текстовых данных, способная генерировать осмысленный текст и решать языковые задачи.
GPT-4, Яндекс YaLM, SberGPT - примеры БЯМ
Обработка естественного языка
Векторное представление
Embedding
Способ представления дискретных объектов (слов, категорий) в виде векторов в непрерывном пространстве, где семантически близкие объекты имеют близкие векторы.
# Слой эмбеддингов в PyTorch
embedding = nn.Embedding(num_embeddings=10000, embedding_dim=300)
NLP, Рекомендательные системы
Внимание (механизм внимания)
Attention Mechanism
Техника, позволяющая нейросетям динамически фокусироваться на наиболее релевантных частях входных данных при обработке информации.
# Механизм внимания в трансформере
attention = nn.MultiheadAttention(embed_dim=512, num_heads=8)
Трансформеры, NLP, CV
Генеративно-состязательная сеть (ГСС)
Generative Adversarial Network (GAN)
Архитектура из двух конкурирующих сетей: генератор создает поддельные данные, а дискриминатор пытается отличить их от реальных.
# Пример ГСС в PyTorch
generator = Generator()
discriminator = Discriminator()
gan = GAN(generator, discriminator)
Генеративный ИИ, Синтез изображений
Гиперпараметры
Hyperparameters
Параметры модели, которые не обучаются, а задаются до начала обучения (скорость обучения, размер слоев, коэффициент регуляризации).
learning_rate = 0.001
batch_size = 32
num_epochs = 100
Машинное обучение
Дата среза
Cutoff Date
Дата, до которой модель была обучена на данных. Определяет актуальность знаний модели.
GPT-3 имеет дату среза октябрь 2020 года
Большие языковые модели
Дистилляция знаний
Knowledge Distillation
Техника переноса знаний из большой модели (учитель) в маленькую (студент) путем обучения студента имитировать выходы учителя.
# Дистилляция в PyTorch
student_loss = KLDivLoss(student_logits, teacher_logits)
Сжатие моделей
Дропаут
Dropout
Метод регуляризации, при котором случайно выбранные нейроны временно исключаются из сети во время обучения, что предотвращает переобучение.
# Слой дропаута в Keras
x = Dropout(0.5)(x) # 50% вероятность отключения
Глубокое обучение
Интеллектуальное предположение
Educated Guess
Обоснованное предположение модели, основанное на выученных паттернах, когда точный ответ неизвестен.
Вопрос: "Сколько весит синий кит?"
Ответ модели: "Около 150 тонн" (без точных данных в обучающем наборе)
LLM, Генеративный ИИ
Квантование
Quantization
Процесс уменьшения точности представления чисел в модели (например, с 32-бит до 8-бит) для уменьшения размера и ускорения вывода.
# Квантование модели в TensorFlow Lite
converter = tf.lite.TFLiteConverter.from_keras_model(model)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
quantized_model = converter.convert()
Оптимизация моделей
Кросс-энтропия
Cross-Entropy
Функция потерь, часто используемая в задачах классификации, измеряющая разницу между распределениями предсказанных и истинных меток.
# Кросс-энтропия в PyTorch
loss_fn = nn.CrossEntropyLoss()
loss = loss_fn(outputs, labels)
Классификация, Машинное обучение
Мамба (архитектура)
Mamba
Новая архитектура для обработки последовательностей, сочетающая эффективность трансформеров и линейную сложность RNN, использующая selective state spaces.
from mamba_ssm import Mamba
model = Mamba(d_model=256, n_layers=6)
Обработка последовательностей
Метрики качества
Evaluation Metrics
Количественные показатели, используемые для оценки производительности моделей машинного обучения.
Точность, полнота, F1-мера, BLEU, перплексия
Машинное обучение
Нормализация
Normalization
Процесс приведения данных или активаций сети к стандартному масштабу для улучшения стабильности обучения.
# Пакетная нормализация в Keras
x = BatchNormalization()(x)
Глубокое обучение
Обучение с подкреплением
Reinforcement Learning
Парадигма обучения, где агент учится принимать решения, получая вознаграждения за действия в среде.
# Алгоритм DQN
agent.learn(state, action, reward, next_state, done)
RL, Игры, Робототехника
Переобучение
Overfitting
Ситуация, когда модель слишком точно подстраивается под обучающие данные, включая шум, и плохо обобщается на новые данные.
Точность на обучении: 99%, на валидации: 65%
Машинное обучение
Перплексия
Perplexity
Метрика для оценки языковых моделей, показывающая, насколько модель "удивлена" тестовыми данными. Чем ниже, тем лучше.
ppl = torch.exp(loss) # где loss - средний отрицательный логарифм правдоподобия
Языковое моделирование
Пакетная нормализация
Batch Normalization
Техника нормализации активаций в нейронной сети для каждого мини-батча, ускоряющая обучение и улучшающая стабильность.
# В PyTorch
self.bn = nn.BatchNorm1d(hidden_size)
Глубокое обучение
Разреженное внимание
Sparse Attention
Вариант механизма внимания, где вычисляются не все попарные взаимодействия, а только выбранные, для уменьшения вычислительной сложности.
# В Longformer
attention = LongformerSelfAttention(config, layer_id=0)
Трансформеры, Длинные последовательности
Ретентивная сеть
Retentive Network (RetNet)
Архитектура для обработки последовательностей, предлагающая эффективную альтернативу трансформерам с параллельной тренировкой и рекуррентным выводом.
# Слой RetNet
ret_layer = RetNetLayer(hidden_size=512, ffn_size=2048)
Обработка последовательностей
Сверточная нейронная сеть (СНС)
Convolutional Neural Network (CNN)
Тип нейронной сети, специально разработанный для обработки структурированных сеточных данных (изображений, временных рядов), использующий сверточные слои.
# Простая CNN в PyTorch
class CNN(nn.Module):
def __init__(self):
super().__init__()
self.conv1 = nn.Conv2d(1, 32, 3)
Компьютерное зрение
Скрытое пространство (латентное пространство)
Latent Space
Компактное представление данных, полученное в результате кодирования, где похожие объекты расположены близко друг к другу.
# В автоэнкодере
latent_representation = encoder(input_data)
Генеративные модели
Смещение (bias)
Bias
1) Параметр нейрона, добавляющий смещение к взвешенной сумме входов. 2) Систематическая ошибка в данных или модели.
# Добавление смещения в PyTorch
self.fc = nn.Linear(in_features, out_features, bias=True)
Машинное обучение
Температура (в сэмплировании)
Temperature (in sampling)
Параметр, контролирующий случайность генерации: высокая температура увеличивает разнообразие, низкая делает вывод более детерминированным.
# Сэмплирование с температурой
probs = F.softmax(logits / temperature, dim=-1)
Генеративные модели
Токенизация
Tokenization
Процесс разбиения текста на отдельные токены (слова, подстроки или символы) для дальнейшей обработки моделью.
# Токенизация в BERT
tokens = tokenizer.encode("Привет, мир!", return_tensors="pt")
Обработка естественного языка
Трансформер
Transformer
Архитектура нейронной сети, основанная на механизме внимания, без рекуррентных или сверточных слоев, ставшая стандартом для NLP.
# Трансформер в PyTorch
transformer = nn.Transformer(d_model=512, nhead=8)
NLP, Компьютерное зрение
Функция активации
Activation Function
Нелінейная функция, применяемая к выходу нейрона, которая вводит в модель способность обучаться сложным нелинейным паттернам.
ReLU: f(x) = max(0, x)
Sigmoid: f(x) = 1 / (1 + e^(-x))
Нейронные сети
Функция потерь
Loss Function
Функция, измеряющая, насколько предсказания модели отличаются от истинных значений, и которую модель стремится минимизировать в процессе обучения.
# MSE в PyTorch
loss_fn = nn.MSELoss()
loss = loss_fn(predictions, targets)
Машинное обучение
Эпоха
Epoch
Полный проход всего обучающего набора данных через модель во время обучения.
for epoch in range(num_epochs):
for batch in dataloader:
train_step(batch)
Машинное обучение
Ядерный метод
Kernel Method
Класс алгоритмов для нелинейного анализа данных, использующих ядерные функции для отображения данных в пространство более высокой размерности.
# SVM с RBF ядром
svm = SVC(kernel='rbf', gamma='scale')
Классическое машинное обучение