240
Pomocí hlubokých neuronových sítí (DNN) model zkoumal výšku a frekvenci hlasu a pomocí konvolučních neuronových sítí (CNN) rozpoznával náladu podle rytmu a textury hlasu. Prostřednictvím hybridního modelu (C-DNN) bylo možné sestavit vizuální spektrogram pro předpovídání nálady.
Výsledkem bylo, že model dokázal rozpoznat emoce se stejnou přesností, s jakou normální člověk určuje náladu partnera rozhovoru. Jak bylo uvedeno, pokud by modely dokázaly překonat člověka, znamenalo by to, že existují vzory, které člověk nerozpozná.