Как работят GPT LLM – Интерактивно Учебно Преживяване

Какво е NLP и защо ни трябва?

Хората общуваме с думи, изречения и смисъл. Компютрите работят само с числа. NLP (Natural Language Processing) е клонът на AI, който строи моста между тези два свята.

Когато Google Translate превежда, Siri разбира командата ви, или ChatGPT отговаря на въпрос – навсякъде работи NLP.

Приложения на NLP в реалния свят

🌐

Машинен Превод

Google Translate, DeepL – мигновен превод между 100+ езика.

🤖

Чат Асистенти

ChatGPT, Claude, Gemini – разговорни AI асистенти.

📊

Анализ на Настроения

„Позитивен ли е този отзив?" – автоматична класификация.

🎙️

Разпознаване на Реч

Siri, Google Assistant – звукът се превръща в текст.

🔍

Извличане на Данни

Намиране на ключова информация в хиляди документи.

✍️

Генериране на Текст

Copilot, Gemini – AI пише код, статии, имейли.

Кратка история на езиковите модели

1

1950–1980-те

Правила (Rule-based)

Ръчно написани граматически правила. Крехко и трудно за мащабиране.

2

1990–2010

Статистически модели (N-gram)

Вероятности от огромни текстови корпуси. По-гъвкаво, без истинско разбиране.

3

2010–2017

Рекурентни мрежи (RNN / LSTM)

Четат текст последователно. По-добри, но „забравят" началото при дълги текстове.

★

2017 – до днес

Transformer / GPT — РЕВОЛЮЦИЯ!

Google публикуват „Attention Is All You Need". Целият текст се обработва паралелно. Базата на ChatGPT, Gemini, Claude.

GPT – Какво означава?

G

Generative
Генерира текст

P

Pre-trained
Обучен на огромни данни

T

Transformer
Специална архитектура

Токенизация – Как компютърът „чете"

Преди да обработи текст, моделът го „нарязва" на малки единици – токени. Токенът може да е цяла дума, представка, или няколко символа. ChatGPT използва около 100 000 токена в речника си.

Правило: ~1 токен ≈ ¾ от средна английска дума, или ~4 символа

🔬 Опитайте сами – Токенизатор

Въведете произволен текст и вижте как моделът го разбива на токени:

Токените ще се появят тук...

Word Embeddings – Думи като точки в пространството

След токенизацията всеки токен се превръща в вектор – списък от ~1536 числа. Думи с близко значение са близо в математическото пространство.

Класически пример:

Вектор("крал") − Вектор("мъж") + Вектор("жена") ≈ Вектор("кралица")

Моделът е научил отношението мъж→жена без никой да му го обяснява!

Памет на модела – Context Window

ChatGPT може да „вижда" наведнъж само определен брой токени – това е context window.

GPT-3.54K токена (~3 стр.)

3%

GPT-48K токена (~6 стр.)

6%

GPT-4 Turbo128K токена (~96 стр.)

96%

Claude 3.5200K токена (~150 стр.)

100%

Важно: ChatGPT НЯМА памет между разговорите! Всеки нов чат = чиста страница.

Temperature – параметърът за „творчество"

При генерирането на токени, temperature контролира колко „случаен" или „детерминиран" е изборът:

Предсказуем (T=0) T = 0.7 Творчески (T=2)

Защо Transformer е революция?

До 2017 г. моделите четяха текста последователно – дума по дума, като хора четящи от ляво надясно. Проблемът: при дълги изречения „забравяха" началото.

⛔ Стари RNN

Обработка:Последователна

Памет:Бързо „забравят"

Скорост:Бавна (серийна)

Дълги текстове:Губят контекст

✅ Transformer

Обработка:Паралелна

Памет:Вижда ЦЕЛИЯ текст

Скорост:Бърза (GPU паралел.)

Дълги текстове:Пълен контекст