Julgue o item subsequente, a respeito de LLM e IA generativa...
Julgue o item subsequente, a respeito de LLM e IA generativa.
No processo de inferência, o LLaMA utiliza decodificação paralela em vez de decodificação sequencial, gerando todos os tokens simultaneamente, sem depender do contexto anterior, o que elimina a necessidade de otimizações como layer-wise quantization.