El cerebro humano opera con una estrategia de «crecer y podar», comenzando inicialmente con una gran cantidad de conexiones neuronales y luego eliminando las conexiones no utilizadas con el tiempo. Recientemente, un equipo de investigadores de IA aplicó este enfoque a los sistemas de IA y descubrió que podría reducir sustancialmente la cantidad de energía requerida para entrenar una IA.
Un equipo de investigadores de la Universidad de Princeton Recientemente creó un nuevo método de entrenamiento de sistemas de inteligencia artificial. Este nuevo método de capacitación parece capaz de cumplir o superar los estándares de la industria en cuanto a precisión, pero puede lograr esto mientras consume mucha menos potencia computacional y, por lo tanto, menos energía que los modelos tradicionales de aprendizaje automático. En el transcurso de dos artículos diferentes, los investigadores de Princeton demostraron cómo hacer crecer una red al agregarle neuronas y conexiones. Las conexiones no utilizadas luego se eliminaron con el tiempo, dejando solo las partes más efectivas y eficientes del modelo.
Niraj Jha, profesor de Ingeniería Eléctrica en Princeton, explicó a Princeton News que el modelo desarrollado por los investigadores opera en un «paradigma de fila y poda». Jha explicó que el cerebro de un ser humano es el más complejo que alguna vez tendrá alrededor de los tres años de edad, y después de este punto, el cerebro comienza a eliminar las conexiones sinápticas innecesarias. El resultado es que el cerebro completamente desarrollado es capaz de llevar a cabo todas las tareas extraordinariamente complejas que hacemos todos los días, pero utiliza aproximadamente la mitad de todas las sinapsis que tenía en su punto máximo. Jha y los otros investigadores imitaron esta estrategia para mejorar el entrenamiento de la IA.
“Nuestro enfoque es lo que llamamos un paradigma de cultivo y poda. Es similar a lo que hace un cerebro desde que somos bebés hasta que somos niños pequeños. En su tercer año, el cerebro humano comienza a cortar las conexiones entre las células cerebrales. Este proceso continúa hasta la edad adulta, de modo que el cerebro completamente desarrollado opera aproximadamente a la mitad de su pico sináptico. El cerebro adulto está especializado en cualquier entrenamiento que le hayamos proporcionado. No es tan bueno para el aprendizaje general como el cerebro de un niño pequeño”.
Gracias a la técnica de crecimiento y poda, se pueden hacer predicciones igualmente buenas sobre patrones en los datos utilizando solo una fracción de la potencia computacional que se requería anteriormente. Los investigadores tienen como objetivo encontrar métodos para reducir el consumo de energía y el costo computacional, ya que hacerlo es clave para llevar el aprendizaje automático a dispositivos pequeños como teléfonos y relojes inteligentes. Reducir la cantidad de energía consumida por los algoritmos de aprendizaje automático también puede ayudar a la industria a reducir su huella de carbono. Xiaoliang Dai, el primer autor de los artículos, explicó que los modelos deben entrenarse localmente debido a que la transmisión a la nube requiere mucha energía.
Durante el curso del primer estudio, los investigadores intentaron desarrollar una herramienta de creación de redes neuronales que pudieran usar para diseñar redes neuronales y recrear algunas de las redes de mayor rendimiento desde cero. La herramienta se llamó NeST (herramienta de síntesis de redes neuronales), y cuando se proporciona con solo unas pocas neuronas y conexiones, aumenta rápidamente en complejidad al agregar más neuronas a la red. Una vez que la red alcanza un punto de referencia seleccionado, comienza a recortarse con el tiempo. Si bien los modelos de red anteriores han utilizado técnicas de poda, el método diseñado por los investigadores de Princeton fue el primero en tomar una red y simular etapas de desarrollo, pasando de «bebé» a «niño pequeño» y finalmente a «cerebro adulto».
Durante el segundo artículo, los investigadores colaboraron con un equipo de la Universidad de California-Berkely y Facebook para mejorar su técnica utilizando una herramienta llamada Chameleon. Chameleon es capaz de comenzar con el punto final deseado, los resultados deseados y trabajar hacia atrás para construir el tipo correcto de red neuronal. Esto elimina gran parte de las conjeturas involucradas en ajustar una red manualmente, brindando a los ingenieros puntos de partida que probablemente sean útiles de inmediato. Chameleon predice el desempeño de diferentes arquitecturas bajo diferentes condiciones. La combinación de Chameleon y el marco NeST podría ayudar a las organizaciones de investigación que carecen de grandes recursos informáticos a aprovechar el poder de las redes neuronales.