Las GPU pueden ser mejores, no solo más rápidas, en el entrenamiento de redes neuronales profundas

Investigadores de Polonia y Japón, en colaboración con Sony, han encontrado evidencia de que los sistemas de aprendizaje automático entrenados en GPU en lugar de CPU pueden contener menos errores durante el proceso de entrenamiento y producir resultados superiores, lo que contradice el entendimiento común de que las GPU simplemente realizan tales operaciones más rápido, en lugar de hacerlo. que cualquier mejor.

Él investigartitulado Impact of GPU Uncertainty on the Training of Predictive Deep Neural Networks, proviene de la Facultad de Psicología y Ciencias Cognitivas de la Universidad Adam Mickiewicz y dos universidades japonesas, junto con SONY Computer Science Laboratories.

El estudio sugiere que ‘incertidumbres’ que las redes neuronales profundas exhiben frente a varias configuraciones de hardware y software favorecen a las más caras (y cada vez más escaso) unidades de procesamiento de gráficos, y encontró en las pruebas que una red neuronal profunda entrenada exclusivamente en la CPU produjo tasas de error más altas durante la misma cantidad de épocas (la cantidad de veces que el sistema reprocesa los datos de entrenamiento en el transcurso de una sesión).

En este ejemplo complementario del documento, vemos (las dos filas inferiores), una calidad de resultado similar obtenida de una variedad de GPU, y (primera fila), los resultados inferiores obtenidos de una variedad de CPU muy capaces.  Fuente: https://arxiv.org/pdf/2109.01451.pdf

En este ejemplo complementario del documento, vemos (las dos filas inferiores), una calidad de resultado similar obtenida de una variedad de GPU, y (primera fila), los resultados inferiores obtenidos de una variedad de CPU muy capaces. Fuente: https://arxiv.org/pdf/2109.01451.pdf

Fenómenos extraños

Estos hallazgos preliminares no se aplican de manera uniforme en los algoritmos de aprendizaje automático populares y, en el caso de las arquitecturas de codificador automático simples, el fenómeno no aparece.

No obstante, el trabajo sugiere una posible ‘velocidad de escape’ para la eficacia del entrenamiento en redes neuronales complejas, donde cubrir las mismas operaciones a menor velocidad y mayores tiempos de entrenamiento no obtiene la paridad de rendimiento que uno esperaría de las rutinas de iteración matemática.

Los investigadores sugieren que esta disparidad de rendimiento podría ser particular de ciertos tipos de redes neuronales, y que los aspectos indeterminados del procesamiento específico de la GPU, que con frecuencia se ven como un obstáculo que finalmente se debe superar, no solo pueden proporcionar beneficios notables, sino que eventualmente podrían ser intencionalmente. incorporados a sistemas posteriores. El documento también sugiere que los hallazgos podrían ofrecer una visión más profunda del procesamiento computacional relacionado con el cerebro.

Identificar las peculiaridades que aumentan la eficiencia y la calidad de los resultados de esta manera en las GPU tiene el potencial de obtener una visión más profunda de las arquitecturas de IA de “caja negra”, e incluso para mejorar el rendimiento de la CPU, aunque actualmente, las causas subyacentes son difíciles de alcanzar.

Codificador automático vs. PredNet

Al estudiar las anomalías, los investigadores utilizaron un autocodificador básico y también la Red Neural Predictiva de la Universidad de Harvard. PredNetinvestigación de 2016 que fue diseñada para explorar e intentar replicar el comportamiento de la corteza cerebral humana.

Ambos sistemas son redes neuronales profundas diseñadas para sintetizar imágenes apropiadas a través del aprendizaje no supervisado (con datos de los que se omitieron las etiquetas), aunque el codificador automático trata linealmente con una imagen por lote, que luego produciría una salida como la siguiente imagen en una canalización recurrente. El codificador automático fue entrenado en el MNIST base de datos de escritura a mano.

El codificador automático en las pruebas de los investigadores se entrenó en la base de datos MNIST, que comprende 60 000 imágenes de entrenamiento en 28x28 píxeles, suavizadas para la inducción de escala de grises, así como 10 000 imágenes de prueba.

El codificador automático en las pruebas de los investigadores se entrenó en la base de datos MNIST, que comprende 60 000 imágenes de entrenamiento de 28 × 28 píxeles, suavizadas para la inducción de escala de grises, así como 10 000 imágenes de prueba.

Por el contrario, PredNet evalúa entradas de video complejas y, en el caso de esta investigación, se entrenó en el Conjunto de datos FPSIque presenta una extensa secuencia de video corporal de un día en Disney World en Orlando, Florida (Disney fue uno de los asociados de investigación en el artículo de 2012).

Secuencias de imágenes de FPSI, que muestran vistas en primera persona en un día en Disney World.

Secuencias de imágenes de FPSI, que muestran vistas en primera persona en un día en Disney World.

Las dos arquitecturas son muy diferentes en términos de complejidad. El codificador automático está diseñado para reconstruir imágenes en lugar de predecir valores objetivo. Por el contrario, PredNet presenta cuatro capas, cada una de las cuales consta de neuronas de representación que utilizan memoria convolucional a largo plazo (LSTM).

Las capas emiten predicciones contextuales que luego se comparan con un objetivo para producir un término de error que se propaga por toda la red. Cada uno de los dos modelos utiliza aprendizaje no supervisado.

La arquitectura simple y lineal del autocodificador y la red más laberíntica y recursiva de PredNet.

La arquitectura simple y lineal del autocodificador y la red más laberíntica y recursiva de PredNet.

Ambos sistemas se probaron en una variedad de configuraciones de hardware y software, incluidas CPU sin GPU (Intel i5-4590, i7-6800K, i5-7600K o AMD Ryzen-5-3600) y CPU con GPU (Intel i5-7600K + NVIDIA GTX-750Ti, i5-7600K + GTX-970, i7-6700K + GTX-1080, i7-7700K + GTX-1080Ti, i7-9700 + RTX-2080Ti, i5-7600K + RTX-2060 super, AMD Ryzen-5- 3600 + RTX-2070 super, o i5-9400 + Titan-RTX).

El visor de procesos interactivo arriba se usó para garantizar que todo el entrenamiento ocurriera en un solo subproceso (en un Intel i7-6800K), en cuatro subprocesos (en un Intel i5-4590 e i5-7600K) o en seis subprocesos (en un AMD Ryzen-5-3600 ).

Puntos de silla

En el codificador automático, la diferencia media en todas las configuraciones, con y sin cuDNN, no fue significativa. Para PredNet, los resultados fueron más sorprendentes, con diferencias notables en la evaluación de pérdidas y la calidad entre el entrenamiento de CPU y GPU.

Los resultados de pérdida promedio para el entrenamiento de PredNet en cuatro CPU y ocho GPU, con la red entrenada en 5000 cuadros de video en 250 lotes, con una pérdida promedio para los últimos 1000 cuadros (50 lotes) representados.  cuDNN se apagó.

Los resultados de pérdida promedio para el entrenamiento de PredNet en cuatro CPU y ocho GPU, con la red entrenada en 5000 cuadros de video en 250 lotes, con una pérdida promedio para los últimos 1000 cuadros (50 lotes) representados. cuDNN se apagó.

Los investigadores concluyen que “aunque el mecanismo no está claro, el hardware de la GPU parece tener la capacidad de avanzar en el entrenamiento de las DNN”.

Los resultados indican que las GPU pueden ser mejores para evitar los puntos de silla, las áreas en un descenso de gradiente que describen el fondo de una pendiente.

El punto más bajo de las pendientes en un descenso de gradiente es el 'punto de silla', llamado así por razones obvias.  Fuente: https://www.pinterest.com.au/pin/436849232581124086/

El punto más bajo de las pendientes en un descenso de gradiente es el ‘punto de silla’, llamado así por razones obvias. Fuente: https://www.pinterest.com.au/pin/436849232581124086/

Los puntos críticos, aunque son un impedimento, se han descartado en gran medida como fáciles de resolver en el pensamiento reciente sobre la optimización del descenso de gradiente estocástico (SGD), pero el nuevo documento sugiere no solo que las GPU pueden estar equipadas de manera única para evitarlos, sino que la influencia de los puntos de silla quizás deberían ser revisados.

Deja un comentario