Boinc update #6

  1. Zawsze kurwa coś musi się zjebać… no bo po mam mieć cisze i spokój. GG@h NCI miał spore załamanie i sporo konsekwencje ponieważ musiałem anulować wszystkie aktualne zadania w bazie danych czyli ok.3kk pozycji oraz do kasacji poszło także 5kk zapasowych zadań ze stacji dysków bo zrypała się templatka XML
  2. Na NAS’ie rozpocząłem generowanie nowych serii zadań dla monkeys’ów
  3. Po zmianach w analizatorze htest_64bits v2000 prace posuwają się o wiele szybciej, a dla v1060 pozostało już tylko 1,5kk zadań do wrzucenia do bazy
  4. Zaległości na GG@h NCI też zaczynają ładnie schodzić… ale to zapewne przez załamanie serwera i brak nowych wyników przez ostatnie 36 godzin, a nie przez to, że skrypty działają lepiej

 

Ogólnie mam porządnego wkórwa…. nie lubię jeśli coś się wypierdziela nie z mojej winy

Boinc update #5

  1. Serwer GG@h NCI ruszył, na razie na zwolnionych obrotach z powodu testów jakie działają w tle. Trochę stress testów itp na szczęście wystarczyło podpiąć dysk z projektem i wszystko ruszyło w miarę dobrze.
  2. Z zaległości z małpek zaczynam się powoli odkopywać <- w zasadzie skrypty zliczające ilość plików jakie są w kolejce dały poważnie ciała i w zasadzie żaden nie podawał prawidłowych ilości… w jednej z funkcji był mały błąd, który  nie miał znaczenia jeśli w katalogu było mniej niż 500k plików, a tyle zazwyczaj było. Linuksowe polecenia z linii komend wykazują 6kk wyników do analizy, a nie 1kk jak mówiły mi moje skrypty
  3. Przybywa w kolejce wyników do analizy z htest_64bits <- dzięki zrobionym logom wiem dokładnie co zajmuje najwięcej czasu i przez co te opóźnienia, dlatego jutro postaram się coś na to zaradzić

Boinc update #4

  1. Kolejki wyników powoli się zmniejszają się  co jest dobrą wiadomością
  2. Serwer GG@h NCI umarł… padła płyta główna, ramy i procesor, właśnie biorę się za rozwiązanie tego problemu <- i to jest ta zła wiadomość

Boinc update #3

  1. GG@h CPU : analizatory (1x V2000 + 4x V1060 ) zaczynają dawać rady. W tej chwili kolejka plików do sprawdzenia spadła do 2,2kk <- wyników w sumie ze starych z wersji 1.0.6 jak i nowych z wersji 2.0.0
  2. GG@h NCI: 4 analizatory (puszczone osobno dla każdej z aplikacji ) robią co mogą i jeszcze dobre3-4 dni będę się pocić. Po nocnych zmianach i rezygnacji z tymczasowego bufora plików na dysku lokalnym wszystko przyśpieszyło, co oznacza, że dysk umiera…. ale z drugiej strony diodka od aktualności sieci w laptopie nie przestaje gasnąć <- coś za coś
  3. Macierz dyskowa pracuje 6 skryptami sortując katalogi z plikami wynikowymi z GG@h NCI tak, aby w katalogach nie było 5kk plików tylko 1kk co przyśpieszyło pracę na komputerze sprawdzającym
  4. Zarówno dla NCI jak i CPU pozbyłem się kolejek lokalnych zarówno dla plików do analizy jak i tych czekających na archiwizację <- co w razie śmierci dysku jest bardzo dobrą wiadomością

 

Boinc update #2

  1. Komputer  analizujący dostał spooorej zadyszki…  po wyłączeniu wszelkich skryptów działających w tle i odpaleniu SMART’a mogę uznać, że ten dysk jest w zasadzie martwy <- nie wspominając o odgłosach jakie zaczął wydawać
  2. W nawiązaniu do pkt.1 zmieniłem skrypty wszystkie analizujące aby pobierały pliki do sprawdzenia bezpośrednio z macierzy dyskowej i od razu wrzucały je z powrotem na macierz <- etap tymczasowego przechowywania danych na dysku w kompie pomocniczym wyleciał… jest za duże ryzyko utraty danych.
  3. Jutro rozglądnie się za możliwością podpięcia pod ten sprzęt dysku SSD, a podobno można to zrobić za pomocą specjalnego konektora… tylko czy opłacać sią kupować dysk SSD skoro notabene dysk i tab będzie podpięty pod ATA. Drugim pomysłem do sprawdzenia jest podpięcie nowego dysku (w sensie jakiegoś z zapasowych leżących na półce) w kieszeni pod USB tak jak to mam w drugiej testowej maszynie. Teoretycznie wydajność byłaby trochę marna, ale skoro dysk nie będzie przechowywał i obracał gigami danych na godzinę to może być nawet dobre rozwiązanie.
  4. Aktualne kolejki do analizy to: (oczywiście przez te zaległości obrywa się bazie danych z wynikami… ok.75% plików pozostawia swój wpis w bazie)
    1. GG@h NCI : 12kk plików <- w sensie 12 milionów plików na macierzy i 2 miliony do wysłania na nią
    2. GG@h CPU: 1 milion (1kk) plików do analizy i 10k do przesłania do archiwum na macierzy

Boinc update #1

  1. GG@h NCI ma się dobrze, choć zaległości nie zmniejszają się, a wręcz rosną <- wychodzi, ze teraz jest tego ok.10kk plików.. dramat.
  2. GG@h CPU już ma się dobrze <- zapomniałem, ze na stacji dysków przenosiłem katalogi NFS z jednego wolumenu na drugi przez co nei przepiąłem katalogów na komputerach, które ich używają. W tej chwili sytuacja opanowana, zaległość wynosi  375k plików do analizy, ale do rana powinno zejść.
  3. GG@h CPOU, ze względu na ilość spływających wyników musiałem uruchomić drugi walidator, żeby nie robić zbyt dużych kolejek. Ciekawe co będzie przy kilku tysiącach hostów, albo co lepsze przy okazji projektów miesiąca lub wyścigów… nawet nie chce o tym myśleć
  4. Z przykrością stwierdzam, że mój komputer analizujący dane, generujący zadania itp/itd doszedł do granic swojej wydajności <- jak w większości takich przypadków uchem igielnym jest… tadam… dysk <- nie dość, że na interfejsie ATA (który jest już tylko w muzeach) to jeszcze ma 5400obr i w zasadzie zachowuje się jakby miał zaraz umrzeć.  Muszę sprawdzić czy mogę tam wrzucić dysk SSD na SATA zamiast DVD

No to jazda…

Automatyczny analizator dla htest 2.0.0 zrobiony i odpalony, skrypty automatyzujące pracę GG@H CPU odpalone, masowy generator odpalony….

Nic tylko czekać aż coś się zdupi <- to nie kwestia czy, ale kiedy… tak wynika z mojego doświadczenia.

Dodatkowo cały czas odkopuje się z zaległości w analizie wyników z GG@H NCI po  sobotnim krachu skryptów (jest tego jeszcze ok.1,2kk plików), nie mówiąc o starych zadaniach z htest (tu jest więcej bo 2,5kk). Mam nadzieję, ze teraz będzie chwila wytchnienia przy pracach nad htest’em.

Htest_64bits 2.0.0

Nowa aplikacja to mała rewolucja. Zadania będą trwały średnio 25 minut (zależnie od CPU), analiza wyników będzie banalna <- bo rezultatem jest plik tekstowy nie binarny, mający 3-4 zmienne a nie ponad 100 😀

Analiza poprzednich zadań z wersji 1.0.6 jest na poziomie 60% i działa sobie w tle na laptopie analizującym dane.

50% analizy dla 1060

W tej chwili w bazie znajduje się 3,5kk wpisów statystycznych z wyników dla wersji htest_64bits 10.60 do tego ok.30k plików było błędne. Dzisiaj w  nocy powinna skończyć się analiza zaległych serii 4,4kk, i rozpocząć aktualna seria 3kk. Dodatkowo zaczyna pracować skrypt zliczający statystyki dla całych serii zadań w boinc ( na razie było 10 serii).

Czekam teraz na informacje o Rysia o nowej wersji jaką mam udostępnić i zadań jakie mam generować <- były zmiany zarówno w plikach wejściowych jak i wynikach.

Postępy analizy htest_64bits

Aktualny postęp to 445k z 4kk <- nie jest to o czym marzyłem po 24h pracy skryptów, ale zawsze może być gorzej. Zobaczymy co będzie dalej.

Dodatkowo musiałem wygenerować 3kk nowych zadań więc pula wyników będzie wynosić 7,4kk.