To nie wszystko, olbrzymim sukcesem IBM jest nie tylko wzrost dokładności rozpoznawania, ale również przyśpieszenie procesu głębokiego uczenia maszynowego. Wspomniany poprzedni rekordowy rezultat Microsoftu uzyskano w ciągu 10 dni. IBM dokonał znacznego postępu uzyskując większą dokładność w zaledwie siedem godzin.
Algorytmy głębokiego uczenia maszynowego są dla nas użyteczne głównie z tego względu, że dzięki nim możemy zmusić maszyny do “myślenia” w sposób podobny do naszego, ale przy realizacji zadań, których objęcie wyłącznie ludzkim umysłem byłoby niezwykle trudne i czasochłonne. Ich skuteczność jest jednak zależna zarówno od zbioru analizowanych danych, jak i od wydajności komponentów danego systemu. O ile stały rozwój w układach GPU pozwala uzyskiwać coraz wyższą wydajność jednostkową, to jednak im większą wydajność mają pojedyncze GPU, tym większym problemem staje się opracowanie odpowiednio wydajnej architektury komunikacyjnej pomiędzy wieloma GPU pracującymi w jednej macierzy.
Komunikacja jest o tyle istotna, że pojedynczy procesor graficzny jest w stanie dokonywać obliczeń dotyczących części złożonego problemu. Osiągnięcie kompleksowego rozwiązania wymaga jednak współpracy wielu takich układów. Hillery Hunter, jeden z dyrektorów w IBM odpowiedzialny za operacje związane z wydajnością systemów i pamięci, porównał sytuację do dobrze znanej indyjskiej przypowieści o ślepcach i słoniu. Bez odpowiedniej synchronizacji poszczególne części rozwiązania obliczone przez pojedyncze układy nie złożą się na spójny obraz wyniku.
Dotychczasowe oprogramowanie okazywało się zbyt mało wydajne w stosunku do szybko rosnącej wydajności GPU, co oznaczało stratę czasu podczas synchronizacji cząstkowych wyników. Najnowsze, rekordowe rozwiązanie znosi tę niedogodność. Nowe API w formie technical preview zostało udostępnione przez IBM w ramach pakietu oprogramowania PowerAI pracującego na serwerach IBM Power Systems. | CHIP