Прискорювачі на графічних процесорах сьогодні перебувають у центрі уваги дослідників штучного інтелекту та всіх причетних: від постачальників серверного обладнання до енергетиків і біржових гравців. Ринкова капіталізаціа NVIDIA зросла на 50% за останній рік, перевищивши чотири трильйони доларів.
Залишимо дискусії про «бульбашки» й фінансові ризики провидцям майбутнього. Значно цікавіше зазирнути за технологічні лаштунки. Читання документації розробників процесорів відкриває масштабність завдань і викликає щиру повагу до творців.
Тож до справи.
Відкриваємо першоджерело NVIDIA RTX BLACKWELL GPU ARCHITECTURE. Blackwell — новітня архітектура NVIDIA, «мозок ери ШІ». Вона лягла в основу цілого покоління прискорювачів — від настільних відеокарт RTX 5090 до серверних B100/B200 для дата-центрів.
За офіційною документацією, повний чіп GB202 складається з 92,2 млрд транзисторів і містить 12 GPC, 96 TPC, 192 SM та 16 контролерів пам’яті по 32 біти (загалом 512 біт). У кожному SM — 128 ядер FP32 CUDA, тобто загалом 24 576 CUDA-ядер, а також 192 ядра RT, 768 ядер Tensor, 768 текстурних блоків і 192 ROPS. Підсистема пам’яті включає 24 МБ кешу L1, 48 МБ регістрів і 128 МБ кешу L2.
Ще недавно ми з придихом гортали документацію до архітектури Hopper. Відтоді кількість транзисторів у GPU зросла на 15%. Здавалося б, дрібниця — у відносних величинах це як крок від 200 до 230. Але в абсолютних цифрах йдеться про додаткові 12 мільярдів транзисторів!
Як змусити працювати таку гігантську кількість різноманітних ядер? Як програмне забезпечення розпізнає й координує їхню роботу? Як ядра обмінюються даними та отримують доступ до пам’яті? Як забезпечити стабільну тактову частоту, її синхронізацію, живлення й охолодження всієї системи?
Це не просто нарощування масштабів — це виклик, що потребує надзвичайної інженерної компетентності. NVIDIA й здобула нинішнє лідерство завдяки здатності розв’язувати подібні завдання, втілюючи їх не лише в алгоритмах, а й у надскладних апаратних рішеннях.
Перехід від Ampere до Hopper був для NVIDIA відносно простішим. Нідерландська ASML разом із тайванською TSMC забезпечили перехід із 7-нм на 4-нм техпроцес. Додавання 25,8 мільярда транзисторів не перетворило Hopper на «мартенівську піч».
А от із випуском GB202 ситуація ускладнилася: довелося залишитися на тому ж 4-нм техпроцесі й водночас розмістити ще більшу кількість транзисторів. У сучасних цифрових схемах (CPU чи GPU) головним джерелом тепла є динамічна потужність, пов’язана із заряджанням та розряджанням ємності затвора. Приблизні оцінки (з урахуванням того, що не всі транзистори працюють одночасно й архітектурні оптимізації знижують теплове навантаження) показують: кожен додатковий мільярд транзисторів може збільшувати тепловиділення на 10–50 Вт. У результаті теплове навантаження чіпа наближається до кіловата, що робить створення GPU у форматі PCIe-карти надзвичайно складним завданням.
Щоб упоратися зі зростанням кількості транзисторів і стагнацією літографії, NVIDIA застосувала багаторівневу систему оптимізації енергоспоживання та тепловиділення, засновану на тонкому керуванні живленням і тактуванням. У документації з’явилися нові маркетингові терміни — Clock Gating, Power Gating і Rail Gating. За цими словами стоїть титанічна інженерна праця та надзвичайна складність проєктування.
Удосконалена система керування живленням у Blackwell дозволяє вибірково вимикати окремі функціональні блоки графічного процесора, коли вони не задіяні. Технологія реалізована з високою деталізацією: динамічне вмикання й вимикання навіть найдрібніших компонентів суттєво знижує енергоспоживання без втрати продуктивності.
Вперше NVIDIA застосувала окремі шини живлення для ядер GPU та підсистеми пам’яті. Це дає змогу точно підлаштовувати напругу під потреби кожної з підсистем. Наприклад, модулі пам’яті потребують постійного живлення, тоді як обчислювальні ядра можуть повністю вимикатися у періоди простою. Поділ живлення не лише підвищує енергоефективність, а й зменшує тепловиділення.
Додатково енергозберігальні режими тепер можуть синхронізуватися з обробкою кадрів, оптимізуючи роботу GPU в умовах змінного навантаження. Завдяки цьому тактова частота може адаптуватися до поточних потреб до 1000 разів швидше, ніж у попередніх поколіннях. Якщо раніше графічний процесор мав підтримувати стабільну частоту протягом кількох мілісекунд, то тепер він реагує на зміни в межах мікросекунд.

Така швидка адаптивність істотно знижує енергоспоживання, особливо в умовах змінних чи короткочасних навантажень. Прискорене перемикання частот не лише забезпечує економію енергії, а й підвищує ефективність у реальних робочих сценаріях. Завдяки цьому GPU здатний швидше мобілізувати доступні ресурси, що дозволяє обробляти пікові навантаження без втрати стабільності чи додаткових затримок.
Для розуміння складності таких інновацій варто поглянути на проєктування системи тактування та стробування. Найбільший чіп архітектури NVIDIA Blackwell — GB200 — містить 208 мільярдів транзисторів. Якщо врахувати, що типовий логічний вентиль складається з 4–6 транзисторів, кількість вентилів у Blackwell можна оцінити приблизно у 40 мільярдів.
У напівпровідниковому проєктуванні вважається, що вже при перевищенні позначки у 10 мільйонів вентилів інструменти автоматизованого проєктування (EDA), зокрема Auto Place & Route, стикаються з відчутними труднощами. У випадку з Blackwell ці труднощі виходять на абсолютно новий рівень, що підкреслює виняткову складність створення таких процесорів.
(Synopsys IC Compiler II — основний інструмент для Auto Place & Route — рекомендує розбивати проєкти на блоки розміром приблизно до 10 мільйонів вентилів, що відповідає 2–5 мільйонам інстансів. Такий підхід зумовлений необхідністю зберігати баланс між продуктивністю, споживанням ресурсів, часом виконання та якістю результатів у ключових параметрах: продуктивності, енергоефективності та площі кристала).
Тому дизайн поділяється на області приблизно по 10 мільйонів вентилів. За цим стандартом Blackwell має близько 4000 таких областей. Для роботи мікросхеми кожна з цих областей потребує принаймні одного тактового генератора. Кількість генераторів можна оптимізувати за допомогою різних методів, проте мінімальний рівень залишається — щонайменше 4000.
Додатково ускладнює систему стробування тактових генераторів, яке відключає живлення тоді, коли воно не потрібне. Це дозволяє зменшити енергоспоживання та підвищити ефективність, але водночас збільшує масштабність задачі: кількість вузлів стробування зазвичай у 10–20 разів перевищує кількість тактових доменів. Навіть за консервативною оцінкою — якщо множити на 10 — отримуємо близько 40 000 вузлів.
У кремнієвій реалізації NVIDIA, без сумніву, оптимізувала кількість доменів, проте важко уявити систему, здатну генерувати тисячі тактових сигналів, доставляти їх саме туди, де вони потрібні, і вмикати чи вимикати їх у реальному часі з точністю до кадру.
Це як Метаґалактика — спостережувана частина Всесвіту. Видима, але неосяжна.