Agora sabemos segredo da extrema eficiência do DeepSeek: contornou o padrão CUDA da Nvidia
Os engenheiros do DeepSeek decidiram usar o PTX para aproveitar ao máximo as GPUs H800 Uma das estratégias foi alocar apenas 20 SMs de cada placa para comunicação entre servidores.

