Хората общуваме с думи, изречения и смисъл. Компютрите работят само с числа. NLP (Natural Language Processing) е клонът на AI, който строи моста между тези два свята.
Когато Google Translate превежда, Siri разбира командата ви, или ChatGPT отговаря на въпрос – навсякъде работи NLP.
Google Translate, DeepL – мигновен превод между 100+ езика.
ChatGPT, Claude, Gemini – разговорни AI асистенти.
„Позитивен ли е този отзив?" – автоматична класификация.
Siri, Google Assistant – звукът се превръща в текст.
Намиране на ключова информация в хиляди документи.
Copilot, Gemini – AI пише код, статии, имейли.
Преди да обработи текст, моделът го „нарязва" на малки единици – токени. Токенът може да е цяла дума, представка, или няколко символа. ChatGPT използва около 100 000 токена в речника си.
Правило: ~1 токен ≈ ¾ от средна английска дума, или ~4 символа
Въведете произволен текст и вижте как моделът го разбива на токени:
След токенизацията всеки токен се превръща в вектор – списък от ~1536 числа. Думи с близко значение са близо в математическото пространство.
ChatGPT може да „вижда" наведнъж само определен брой токени – това е context window.
Важно: ChatGPT НЯМА памет между разговорите! Всеки нов чат = чиста страница.
При генерирането на токени, temperature контролира колко „случаен" или „детерминиран" е изборът:
До 2017 г. моделите четяха текста последователно – дума по дума, като хора четящи от ляво надясно. Проблемът: при дълги изречения „забравяха" началото.
Кликнете върху дума и вижте как Attention механизмът свързва тази дума с другите в изречението. По-светлите думи имат по-голямо „внимание".
Когато напишете съобщение до ChatGPT, минава през следните слоеве:
GPT-4 има ~96 Transformer блока наредени последователно!
Чете 570 GB+ текст. Задача: предвиди следващия токен. ~$4-12M само за GPT-3.
Хора пишат примерни диалози. Моделът имитира идеалния асистент.
Хора сравняват отговори. Reward Model учи предпочитанията → Безопасен AI.
Измисля факти, звучащи убедително. Винаги верифицирайте важна информация!
Не знае новини след датата на обучение. GPT-4 cutoff: Апр. 2023.
Грешки при сложни изчисления без инструменти. НЕ е калкулатор!
Статистически предсказвач. НЕ „мисли". НЕ „знае". Само предвижда токени.
Три упражнения за затвърждаване на знанията. Довършете ги преди теста!
Наредете стъпките от обучението на ChatGPT в правилния ред. Влачете картите:
Кликнете термин от лявата колона и след това неговото определение от дясната:
Изберете правилната дума от менюто за всяко изречение:
10 въпроса върху материала от лекцията. Изберете отговор – веднага ще видите дали е верен и защо.