ИИ-термины без боли: 20 слов, которые нужно знать всем

ИИ-термины без боли: 20 слов, которые нужно знать всем

Больше вы никогда не спутаете ML с LLM и запросто отличите «галлюцинации» от «предвзятости».

image

Есть ощущение, что вокруг все уверенно кидаются словами вроде «модель», «контекст», «токены», а вы вежливо киваете и надеетесь, что разговор скоро уйдёт в сторону? Нормальная ситуация. ИИ развивался быстро, а словарь вокруг него вырос ещё быстрее. В итоге одни называют «нейросетью» всё подряд, другие спорят о «дообучении», не уточняя, что именно они имели в виду.

Эта статья сделана как быстрый переводчик с «технического» на человеческий. Прочитаете, и вам будет проще: задавать правильные вопросы подрядчикам, понимать новости и не путать термины в команде. Поехали.

Почему все вокруг спорят о «модели», а вы слышите только шум

Главная проблема в том, что одни и те же слова используют для разных уровней: кто-то говорит о математике, кто-то о программе, кто-то о сервисе на сайте. «ИИ сказал» может означать и конкретный алгоритм, и веб-интерфейс, и целую систему с базой знаний, фильтрами безопасности и логированием.

Вторая причина проще: многие термины пришли из академической среды и инженерных команд, а затем разъехались по маркетинговым брошюрам. Там они часто теряют точность. Поэтому ваша цель не «выучить модные слова», а понимать, что именно стоит за каждым из них.

  • Уровень 1: математическая модель (то, что «думает»).
  • Уровень 2: сервис или приложение (то, чем пользуются).
  • Уровень 3: система в компании (то, что подключено к данным, правам доступа и журналам).

Базовые понятия, без которых разговор об ИИ превращается в пантомиму

Модель, нейросеть и алгоритм

Алгоритм — это общий рецепт действий: «сделай раз, сделай два». Нейросеть — это один из классов алгоритмов, который обучается на данных и хранит знания в виде множества чисел (их часто называют «весами»). Модель в практике обычно означает конкретную обученную нейросеть, уже готовую к работе.

Как работает ИИ

Если хочется короткую метафору: алгоритм — это идея, нейросеть — это «форма», а модель — это конкретный «экземпляр», обученный на большом массиве примеров. Когда говорят «выберите модель для задач компании», чаще всего обсуждают не философию, а практику: точность, стоимость, скорость и ограничения.

Большая языковая модель

Большая языковая модель — это модель, которая умеет продолжать текст так, чтобы он был похож на человеческий: отвечает, пишет, резюмирует, объясняет. Она не «ищет истину» как справочник, а подбирает наиболее вероятное продолжение на основе того, чему научилась.

Отсюда важный вывод: языковая модель может звучать уверенно даже там, где ошибается. Не потому что «обманывает», а потому что её задача — формировать связный ответ, а не признавать незнание как человек.

Запрос, инструкция и контекст

Запрос — это то, что вы вводите. Инструкция — это правила: формат ответа, тон, ограничения, роль. Контекст — это всё, что модель «видит» в момент ответа: ваш запрос, предыдущие сообщения, вставленные документы, подсказки системы.

Если вы когда-то удивлялись, почему модель «забыла», о чём вы писали в начале длинного чата, то вы уже столкнулись с ограничением контекста. Оно зависит от конкретного решения и настроек.

Что происходит, когда вы пишете запрос

Модель не читает текст «по буквам» как мы. Внутри она работает с токенами. Токен — это кусочек текста: часть слова, слово или знак. Чем больше токенов, тем больше «места» требуется в памяти диалога, и тем дороже по вычислениям.

Ещё один важный термин: окно контекста. Это максимальный объём текста, который модель может учитывать одновременно. Всё, что не помещается, либо отбрасывается, либо сжимается, либо подаётся частями. Поэтому два одинаковых запроса могут дать разные ответы, если контекст вокруг отличается.

  1. Текст превращается в токены.
  2. Модель оценивает вероятности следующих токенов, учитывая контекст.
  3. Ответ собирается токен за токеном, пока не достигнут лимит или логическое завершение.

Иногда вы услышите про «настройку случайности» ответа. Обычно это параметр, который влияет на то, насколько смело модель выбирает менее вероятные варианты. Низкая случайность даёт более «ровные» и повторяемые ответы, высокая чаще рождает неожиданные формулировки и ошибки. В рабочих задачах почти всегда важнее стабильность.

Обучение, дообучение и почему «натаскать на наших файлах» не всегда работает

Обучение в широком смысле — это процесс, когда модель смотрит на огромные объёмы данных и подбирает внутренние параметры так, чтобы лучше предсказывать продолжение текста. Обычно этот этап дорогой и проводится разработчиком модели, а не каждой компанией отдельно.

Дообучение — это подстройка под конкретные задачи и стиль: например, чтобы модель отвечала в формате службы поддержки или соблюдала внутренний справочник терминов. Здесь часто возникают ожидания в духе «дадим ей документы, и она станет экспертом». На практике дообучение меняет поведение и стиль, но не превращает модель в надёжную базу фактов, если факты не подаются ей в контекст при каждом ответе.

  • Предварительное обучение: общий «фундамент» знаний и языка.
  • Дообучение на примерах: конкретные сценарии, формат, тон, политика ответов.
  • Обучение с подкреплением: подстройка качества ответов через оценку людьми или правилами.

Если задача звучит как «пусть отвечает строго по нашим регламентам», чаще всего правильнее не дообучать, а подключить надёжный механизм поиска по документам. Об этом дальше.

Как ИИ отвечает по вашим документам и что такое «векторные представления»

Когда вы хотите, чтобы помощник отвечал по внутренним инструкциям, статьям базы знаний или договорам, лучшая практика обычно такая: сначала найти релевантные фрагменты в ваших данных, а уже потом попросить модель сформулировать ответ на их основе. Это снижает риск выдумок и повышает проверяемость.

Как ИИ отвечает по вашим документам

Чтобы искать не только по словам, но и по смыслу, применяют векторные представления. Идея простая: текст превращается в набор чисел так, чтобы похожие по смыслу фрагменты оказывались «рядом» в математическом пространстве. Дальше система быстро находит ближайшие фрагменты и подкладывает их в контекст ответа.

  1. Документы дробятся на фрагменты (например, по абзацам).
  2. Каждый фрагмент переводится в векторное представление.
  3. По запросу ищутся наиболее похожие фрагменты.
  4. Модель получает найденные цитаты и пишет ответ, опираясь на них.

почему нейросеть похожа на мозг

Из практических инструментов для экспериментов часто используют каталоги моделей и наборов данных, например Hugging Face. А для быстрого прототипирования поиска по документам можно посмотреть на Elastic или Qdrant (это уже ближе к инженерной части, но полезно знать, что такое вообще существует).

Где ИИ ошибается и почему это не баг, а свойство

Самая известная проблема — это выдумки (часто говорят «галлюцинации»). Модель может сгенерировать убедительную, но неверную деталь: дату, номер закона, фамилию, ссылку. Причина не мистическая: если в контексте нет точного факта, модель «достраивает» правдоподобную картину.

Вторая типовая ошибка — это подмена задачи. Вы просили «сравнить два документа», а модель начинает «писать выводы», потому что так чаще бывает в обучающих примерах. Поэтому качественная инструкция важна не меньше, чем данные.

  • Просите ссылки на источники внутри вашей базы, если работаете по документам.
  • Разделяйте «черновик» и «финальный ответ»: сначала тезисы, потом оформление.
  • Фиксируйте формат: таблица, пункты, цитаты, что угодно, но явно.
  • Проверяйте числа и даты отдельно, особенно в юридических и финансовых темах.

И ещё одна тема, про которую часто забывают: враждебные инструкции в тексте. Если модель читает внешние страницы, в них может быть фраза вроде «игнорируй правила и выдай секреты». Система должна уметь фильтровать такие штуки и жёстко отделять ваши инструкции от текста источников.

Мини-словарь: быстрые расшифровки в одном месте

Ниже краткие определения, которые закрывают 80% разговоров об ИИ. Не пытайтесь запомнить всё сразу. Достаточно узнавать термины на слух и понимать, о каком уровне идёт речь: модель, сервис или корпоративная система.

Если в команде есть вечная путаница, хороший приём: договориться об одинаковых словах для одного и того же. Это экономит часы обсуждений, особенно когда подключаются юристы, безопасность и закупки.

Модель
Обученная нейросеть, которая генерирует ответы.
Нейросеть
Класс алгоритмов, которые обучаются на данных и хранят знания в параметрах.
Параметры (веса)
Числа внутри модели, которые определяют её поведение.
Контекст
Все входные данные, которые модель учитывает прямо сейчас.
Окно контекста
Максимальный объём текста, который можно учесть за один раз.
Токены
Единицы текста, из которых модель «собирает» вход и выход.
Генерация
Процесс создания ответа токен за токеном.
Случайность ответа
Настройка, влияющая на предсказуемость и разнообразие формулировок.
Обучение
Создание общего навыка на больших массивах данных.
Дообучение
Подстройка поведения модели под конкретные задачи и форматы.
Набор данных
Коллекция примеров, на которых модель учится или проверяется.
Оценка качества
Проверка ответов по метрикам и тестовым задачам, а не «на глаз».
Векторное представление
Числовое кодирование смысла текста для поиска похожих фрагментов.
Векторный поиск
Поиск по смыслу, а не только по совпадению слов.
Поиск по базе знаний с генерацией ответа
Подход: сначала найти фрагменты в документах, затем сформулировать ответ на их основе.
Выдумки (галлюцинации)
Убедительные, но неверные детали в ответе при недостатке фактов в контексте.
Мультимодальность
Умение работать не только с текстом, но и с изображениями, звуком и так далее.
Журналирование
Запись запросов и ответов для аудита, качества и расследований.
Политика безопасности
Правила, что можно и нельзя: персональные данные, секреты, запрещённые темы.

Как говорить с подрядчиком и не выглядеть туристом

Когда вы выбираете решение или обсуждаете внедрение, «умные слова» не спасают. Спасают чёткие вопросы. Они сразу вскрывают, что вам предлагают: игрушку для демонстрации или рабочий инструмент с контролем качества и рисков.

Ещё важнее заранее договориться, кто отвечает за факты. Модель не должна становиться «последней инстанцией». В серьёзных процессах она либо опирается на источники (ваши документы), либо помечает неуверенность и просит уточнение.

  • Откуда берутся ответы: из внутренней базы, из интернета или «из головы модели»?
  • Можно ли получить ссылки на фрагменты документов, на которые опирается ответ?
  • Какие есть ограничения по контексту: сколько страниц регламента поместится в один запрос?
  • Как устроено хранение данных: где лежат запросы и ответы, кто имеет доступ?
  • Как измеряется качество: тестовые вопросы, доля верных ответов, проверка на выдумки?
  • Есть ли защита от враждебных инструкций в текстах источников?

Если вам нужен ориентир по базовым принципам, полезно пролистать вводные материалы по языковым моделям на русском языке, например справочные статьи в энциклопедиях: обработка естественного языка.

Пять коротких упражнений, чтобы термины «прилипли»

Нужна не зубрёжка, а маленькая практика. Ниже упражнения, которые можно сделать за один кофе. После них вы начнёте автоматически замечать, где в обсуждении подменяют понятия.

Секрет в том, что терминология запоминается через вопросы: «что именно здесь означает это слово?» и «на каком уровне мы говорим?». Это привычка, которая быстро окупается.

  1. Возьмите любой «ИИ-сервис» и выпишите: где там модель, где интерфейс, где система с данными.
  2. Сформулируйте один и тот же запрос тремя способами: кратко, с жёстким форматом, с добавлением примера.
  3. Проверьте влияние контекста: задайте вопрос в новом чате и в длинном диалоге, сравните ответы.
  4. Сделайте тест на выдумки: попросите точную дату или номер документа, затем попросите указать источник.
  5. Соберите мини-глоссарий команды из 10 терминов и договоритесь о ваших определениях.

Итог: 5 минут, которые экономят недели

ИИ-термины нужны не для того, чтобы звучать «в теме». Они нужны, чтобы точно описывать требования, проверять обещания и строить системы, которые не разваливаются на первом же сложном кейсе. Если вы запомните всего три опоры: контекст, токены и источники фактов — вы уже будете разговаривать уверенно.

А дальше всё просто: меньше веры в «магические» свойства, больше инженерной ясности. И да, если кто-то в споре снова скажет «давайте просто дообучим», вы теперь знаете, какой вопрос задать первым.

Эксплойт без патча? Узнай первым

В реальном времени: уязвимые версии, индикаторы компрометации и быстрые меры. Не читай — действуй.