Długofalowa ewaluacja na licznych próbach za pomocą standaryzowanej Skali ujawnia empiryczne zjawisko autonormalizacji. W pomiarach końcowych (po procesie oddziaływań) zaobserwować można dążenie wartości średnich ogółu prób do poziomów charakterystycznych dla każdego ze wskaźników. Poziomy te zależą od treści konkretnego bodźca-stwierdzenia w Skali i są wyższe, gdy dana mikroteza jest łatwiej akceptowalna, a niższe, gdy trudniej ją zaakceptować. Zwykle wskaźniki emocjonalne sytuują się wyżej niż poznawcze.
Pozyskiwanie norm
Aby rezultaty ogółu badanych mogły służyć jako oczekiwane normy, całkowita próba musi być liczna i reprezentatywna pod kątem takich cech, jakie ma populacja. Ze względu na przemiany społeczne, normy te muszą być aktualizowane.
Wartościowanie poziomów
Poziomy wskaźników mierzonych za pomocą Skal zależą nie tylko od natężenia cech, lecz także od sformułowań mikrotez w kwestionariuszu. Jeśli zmieni się choćby jedno słowo w twierdzeniach indagujących, to wypowiedzi respondentów mogą być inne. Zmienność i względność wypowiedzi wymaga, aby podczas wartościowania wyników konkretnej grupy porównywać je z wynikami innych grup lub z normami dla ogółu badanych. Istotniejsze są odniesienia niż ewentualny wysoki poziom w oderwaniu od kontekstu i lokalnych uwarunkowań.
Odnoszenie do norm
W ewaluacji efektów ważne jest to, jaki był stan początkowy i jaki końcowy. Ustala się poziomy normatywne: BazaB' na wejściu oraz NormaN'' na wyjściu procesu edukacyjnego i do nich porównuje rezultaty grup lokalnych.
Spoistość oznak empirycznych
Opracowana zgodnie z zaleceniami Skala pomiarowa, w której wskaźniki tworzą pary kontrolne, umożliwia ocenę jakości danych. Jeśli dwie sąsiednie pozycje kwestionariusza dotyczą podobnej kwestii, to poziomy ich akceptacji powinny być też podobne. Gdy para wskaźników testuje różne wymiary czasoprzestrzenne, to ich poziomy mogą się różnić, lecz różnice te w pomiarach 'przed' i 'po' powinny zachować podobne wielkości (odstępy). Wystarczająca miara Spójności(c ≥0,5) upoważnia do agregowania wskaźników w Składniki.
Komparacja wskaźników
Porównywanie par wskaźników kontrolnych służy pierwotnie do weryfikacji treści bodźców-stwierdzeń, a po standaryzacji Skali – do oceny rzetelności wypełniania kwestionariusza przez każdą z badanych klas i grup.
Współbieżność oznak empirycznych
W Ewaluacji splotowej bada się różne składniki procesu, również te, które mogą być niekorzystne. Nie wszystkie bowiem zgodnie z teorią muszą przyrastać. Przykładowo – początkowo wysoka motywacja może ulec obniżeniu, gdy osiągnie się pewien poziom zaspokojenia aspiracji. Jeśli dobór pary Składników tworzących Czynnik jest prawidłowy, to ich tendencje powinny być podobne. Tak jest np. z parą Ambicje i Intencje. Po wystandaryzowaniu Skali ewentualna niewspółbieżność świadczy negatywnie o badanym procesie. Do oceny tego zjawiska służy miara Zawiłości.
Komparacja składników
Porównywanie par komplementarnych składników służy wstępnie do sprawdzenia, czy strukturyzacja zmiennych jest prawidłowa, a później – do oceny jakości lokalnych oddziaływań w ewaluowanych procesach.
Rozbieżność symptomów
O ile badane Składniki powinny być współbieżne, o tyle Czynniki zwykle wykazują różne tendencje. Najczęściej zbyt wysokie na początku Czynniki afektywne ulegają racjonalnemu obniżeniu (np. Motywacje). Z kolei poziomy Czynników poznawczych winny narastać (np. Poglądy). Czynniki, które najbardziej zależą od cech respondentów lub od jakości badanego procesu, wykazują największe zróżnicowanie tendencji (tutaj np. Opinie o jakości oddziaływań). Tendencje są inne dla różnych populacji, co widać na wykresie zestawiającym rezultaty studentów i licealistów.
Komparacja czynników
Porównywanie Czynników ma największe znaczenie w ewaluacji, gdyż są to zmienne zagregowane (jako wartość wypadkowa z czterech wskaźników), bardziej wiarygodne niż elementarne wskaźniki.
Wiarygodność wniosków
Metodologia pomiarów i analiz statystycznych w Ewaluacji splotowej ma wmontowany mechanizm oceny rzetelności badań i trafności wniosków. Z danych empirycznych oblicza się wyniki dwiema różnymi metodami i porównuje ze sobą. Pierwszą metodą jest analiza różnicowa, a drugą metoda wektorowa. W pierwszej najpierw wyznacza się poziomy HML i z nich oblicza różnice, a w drugiej różnicuje się indywidualne zmiany wypowiedzi względem zmian potencjalnie możliwych. Do porównań wykorzystuje się najbardziej uogólniające miary Trendu i Efektu.
Komparacja wyników
Porównanie rezultatów obliczonych dwiema metodami daje podstawy do wnioskowania, czy wyniki są wiarygodne. Gdyby tak wyznaczone tendencje i wektory różniły się znacznie, to nie ma pewności co do trafności wyników.