Промишлена Електроника · 2-ри курс · AI лекция

КАК РАБОТЯТ GPT LLM

Интерактивно учебно преживяване
Прогрес 0 / 5 модула

Какво е NLP и защо ни трябва?

Хората общуваме с думи, изречения и смисъл. Компютрите работят само с числа. NLP (Natural Language Processing) е клонът на AI, който строи моста между тези два свята.

Когато Google Translate превежда, Siri разбира командата ви, или ChatGPT отговаря на въпрос – навсякъде работи NLP.

Приложения на NLP в реалния свят

🌐
Машинен Превод

Google Translate, DeepL – мигновен превод между 100+ езика.

🤖
Чат Асистенти

ChatGPT, Claude, Gemini – разговорни AI асистенти.

📊
Анализ на Настроения

„Позитивен ли е този отзив?" – автоматична класификация.

🎙️
Разпознаване на Реч

Siri, Google Assistant – звукът се превръща в текст.

🔍
Извличане на Данни

Намиране на ключова информация в хиляди документи.

✍️
Генериране на Текст

Copilot, Gemini – AI пише код, статии, имейли.

Кратка история на езиковите модели

1
1950–1980-те
Правила (Rule-based)
Ръчно написани граматически правила. Крехко и трудно за мащабиране.
2
1990–2010
Статистически модели (N-gram)
Вероятности от огромни текстови корпуси. По-гъвкаво, без истинско разбиране.
3
2010–2017
Рекурентни мрежи (RNN / LSTM)
Четат текст последователно. По-добри, но „забравят" началото при дълги текстове.
2017 – до днес
Transformer / GPT — РЕВОЛЮЦИЯ!
Google публикуват „Attention Is All You Need". Целият текст се обработва паралелно. Базата на ChatGPT, Gemini, Claude.

GPT – Какво означава?

G
Generative
Генерира текст
P
Pre-trained
Обучен на огромни данни
T
Transformer
Специална архитектура

Токенизация – Как компютърът „чете"

Преди да обработи текст, моделът го „нарязва" на малки единици – токени. Токенът може да е цяла дума, представка, или няколко символа. ChatGPT използва около 100 000 токена в речника си.

Правило: ~1 токен ≈ ¾ от средна английска дума, или ~4 символа

🔬 Опитайте сами – Токенизатор

Въведете произволен текст и вижте как моделът го разбива на токени:

Токените ще се появят тук...

Word Embeddings – Думи като точки в пространството

След токенизацията всеки токен се превръща в вектор – списък от ~1536 числа. Думи с близко значение са близо в математическото пространство.

Класически пример:
Вектор("крал") − Вектор("мъж") + Вектор("жена") ≈ Вектор("кралица")
Моделът е научил отношението мъж→жена без никой да му го обяснява!

Памет на модела – Context Window

ChatGPT може да „вижда" наведнъж само определен брой токени – това е context window.

GPT-3.54K токена (~3 стр.)
3%
GPT-48K токена (~6 стр.)
6%
GPT-4 Turbo128K токена (~96 стр.)
96%
Claude 3.5200K токена (~150 стр.)
100%

Важно: ChatGPT НЯМА памет между разговорите! Всеки нов чат = чиста страница.

Temperature – параметърът за „творчество"

При генерирането на токени, temperature контролира колко „случаен" или „детерминиран" е изборът:

Предсказуем (T=0) T = 0.7 Творчески (T=2)

Защо Transformer е революция?

До 2017 г. моделите четяха текста последователно – дума по дума, като хора четящи от ляво надясно. Проблемът: при дълги изречения „забравяха" началото.

⛔ Стари RNN
Обработка:Последователна
Памет:Бързо „забравят"
Скорост:Бавна (серийна)
Дълги текстове:Губят контекст
✅ Transformer
Обработка:Паралелна
Памет:Вижда ЦЕЛИЯ текст
Скорост:Бърза (GPU паралел.)
Дълги текстове:Пълен контекст

👆 Self-Attention – Интерактивна Демонстрация

Кликнете върху дума и вижте как Attention механизмът свързва тази дума с другите в изречението. По-светлите думи имат по-голямо „внимание".

↑ Кликнете върху дума, за да видите нейните Attention връзки
Легенда:
Висока важност Средна важност Ниска важност

Архитектурата на GPT – Стъпка по Стъпка

Когато напишете съобщение до ChatGPT, минава през следните слоеве:

GPT-4 има ~96 Transformer блока наредени последователно!

3-те Фази на Обучение

📚
1. Pre-training

Чете 570 GB+ текст. Задача: предвиди следващия токен. ~$4-12M само за GPT-3.

👥
2. Fine-Tuning (SFT)

Хора пишат примерни диалози. Моделът имитира идеалния асистент.

🎯
3. RLHF

Хора сравняват отговори. Reward Model учи предпочитанията → Безопасен AI.

⚠️ Ограничения – Знайте Това!

🌀
Халюцинации

Измисля факти, звучащи убедително. Винаги верифицирайте важна информация!

📅
Training Cutoff

Не знае новини след датата на обучение. GPT-4 cutoff: Апр. 2023.

🧮
Слаба Математика

Грешки при сложни изчисления без инструменти. НЕ е калкулатор!

🧠
Без Истинско Разбиране

Статистически предсказвач. НЕ „мисли". НЕ „знае". Само предвижда токени.

🎮 Интерактивни Упражнения

Три упражнения за затвърждаване на знанията. Довършете ги преди теста!

Упражнение 1 – Наредете Правилно

Наредете стъпките от обучението на ChatGPT в правилния ред. Влачете картите:

Упражнение 2 – Свържи Понятията

Кликнете термин от лявата колона и след това неговото определение от дясната:

Понятие

Определение

Упражнение 3 – Попълнете Празните Места

Изберете правилната дума от менюто за всяко изречение:

📚 Препоръчани Ресурси

🏆 Тест – Проверете Знанията Си

10 въпроса върху материала от лекцията. Изберете отговор – веднага ще видите дали е верен и защо.

0 / 10
Отговорете на въпросите, за да видите резултата си.