La visión artificial es un conjunto de tecnologías que proporcionan a los equipos automatizados (industriales o no) una comprensión de alto nivel del entorno inmediato a partir de imágenes. Sin el software de visión artificial, las imágenes digitales no serían más que simples colecciones de píxeles inconexos con distintos valores de color e intensidades tonales para dichos equipos. La visión artificial permite a las computadoras (normalmente conectadas a controles de máquinas) detectar bordes y formas en esas imágenes para que, a su vez, las rutinas de procesamiento de nivel superior identifiquen objetos de interés predefinidos. Imágenes en este sentido no se limitan necesariamente a imágenes fotográficas en el espectro visible; también pueden incluir imágenes obtenidas mediante señales infrarrojas, láser, rayos X y ultrasonidos.
Figura 1: Aumenta el uso de la visión artificial para aplicaciones robóticas más sofisticadas. (Fuente de la imagen: John6863373 | Dreamstime.com)
Una aplicación bastante común de la visión artificial en entornos industriales es identificar una pieza específica en un contenedor que contiene una mezcla de piezas dispuestas al azar (revueltas). En este caso, la visión artificial puede ayudar a los robots de recogida y colocación a recoger automáticamente la pieza correcta. Por supuesto, el reconocimiento de estas piezas con retroalimentación de imágenes sería relativamente sencillo si estuvieran todas ordenadas y orientadas de la misma manera en una bandeja. Sin embargo, los algoritmos resistentes de visión artificial pueden reconocer objetos a distintas distancias de la cámara (y que, por tanto, aparecen como de distinto tamaño en el sensor de imagen), así como en distintas orientaciones.
Los sistemas de visión artificial más sofisticados han hecho posibles diseños nuevos y emergentes mucho más sofisticados que el bin picking, quizá más reconocibles que en los vehículos autónomos, por ejemplo.
Figura 2: La visión artificial proporciona a los sistemas (industriales o no) una comprensión de alto nivel del entorno a partir de imágenes. (Fuente de la imagen: Wikimedia)
Tecnologías relacionadas con la visión artificial
El término visión artificial se reserva a veces para referirse a métodos matemáticos más consolidados y eficaces de extraer información de las imágenes. En cambio, el término visión por computadora suele describir sistemas más modernos y exigentes desde el punto de vista computacional, incluidos los enfoques de caja negra que utilizan el aprendizaje automático o la inteligencia artificial (IA). Sin embargo, la visión artificial también puede servir como término comodín que engloba todos los métodos de extracción de información de alto nivel a partir de imágenes; en este contexto, la visión por ordenador describe sus teorías subyacentes de funcionamiento.
Abundan las tecnologías para extraer significados de alto nivel de las imágenes. Dentro de la comunidad investigadora, estas tecnologías suelen considerarse distintas de la visión artificial. Sin embargo, en un sentido práctico, todas son formas diferentes de lograr la visión artificial… y en muchos casos, se solapan.
El procesamiento digital de imágenes es una forma de procesamiento de señales digitales que implica la mejora, restauración, codificación y compresión de imágenes. Las ventajas sobre el procesamiento analógico de imágenes incluyen la minimización del ruido y la distorsión, así como la disponibilidad de muchos más algoritmos. Uno de los primeros usos de la mejora de imágenes fue la corrección de las primeras imágenes de corta distancia de la superficie lunar. Para ello se utilizó cartografía fotogramétrica, así como filtros de ruido y correcciones de las distorsiones geométricas derivadas de la alineación de la cámara de imágenes con la superficie lunar.
Figura 3: El controlador del circuito integrado (CI) DLPC350 proporciona señales de activación de entrada y salida para sincronizar los patrones visualizados con una cámara. Funciona con dispositivos digitales de microespejos (DMD) diseñados para impartir visión artificial 3D a equipos industriales, médicos y de seguridad. De hecho, entre sus aplicaciones se incluyen la digitalización 3D y los sistemas de metrología. (Fuente de la imagen: Texas Instruments)
La Mejora Digital de la Imagen a menudo implica aumentar el contraste y también puede hacer correcciones geométricas para el ángulo de visión y la distorsión de la lente. La compresión se consigue normalmente aproximando una señal compleja a una combinación de funciones coseno, un tipo de transformación de Fourier conocida como transformada coseno discreta o DCT. El formato de archivo JPEG es la aplicación más popular de la DCT. La restauración de imágenes también puede utilizar transformaciones de Fourier para eliminar el ruido y la borrosidad.
La fotogrametría emplea algún tipo de identificación de características para extraer medidas de las imágenes. Estas mediciones pueden incluir información 3D cuando se han obtenido varias imágenes de la misma escena desde distintas posiciones. Los sistemas de fotogrametría más sencillos miden la distancia entre dos puntos de una imagen empleando una escala. Para ello suele ser necesario incluir en la imagen una referencia de escala conocida.
La detección de características permite a las computadoras identificar bordes y esquinas o puntos en una imagen. Se trata de un primer paso necesario para la fotogrametría, así como para la identificación de objetos y movimiento. La detección de manchas puede identificar regiones con bordes demasiado suaves para la detección de bordes o esquinas.
El Reconocimiento de patrón se utiliza para identificar objetos específicos. En su forma más simple, esto podría significar buscar una pieza mecánica específica bien definida en un transportador.
La reconstrucción 3D determina la forma tridimensional de los objetos a partir de imágenes 2D. Puede lograrse mediante métodos fotogramétricos en los que la altura de los rasgos comunes (identificados en imágenes procedentes de distintos puntos de observación) se determina por triangulación. La reconstrucción 3D también es posible utilizando una sola imagen 2D; en este caso, el software interpreta (entre otras cosas) las relaciones geométricas entre bordes o regiones de sombreado.
Figura 4: Los escáneres 3D capturan imágenes 2D de un objeto para crear un modelo 3D del mismo. En algunos casos, los modelos digitales se emplean después para imprimir copias en 3D. (Fuente de la imagen: Shenzhen Creality 3D Technology Co.)
Un ser humano puede reconstruir mentalmente con facilidad un cubo a partir de una simple representación lineal y una esfera a partir de un círculo sombreado. El sombreado indica la inclinación de las superficies. Sin embargo, el proceso de tal deducción es más complicado de lo que parece porque el sombreado es un parámetro unidimensional mientras que la pendiente se produce en dos dimensiones. Esto puede dar lugar a ambigüedades, como demuestra el arte que representa objetos físicamente imposibles.
Figura 5: La determinación informatizada de la forma tridimensional de una pieza a partir de una imagen bidimensional plantea muchas dificultades.
Cómo se ordenan las tareas de visión artificial
Muchos sistemas de visión artificial combinan progresivamente las técnicas anteriores empezando por operaciones de bajo nivel y avanzando después una a una hacia operaciones de nivel superior. En el nivel más bajo, todos los píxeles de una imagen se almacenan como datos de gran ancho de banda. A continuación, cada operación de la secuencia identifica características de la imagen y representa información de interés con cantidades de datos relativamente pequeñas.
Las operaciones de bajo nivel de mejora y restauración de imágenes son las primeras, seguidas de la detección de características. Cuando se utilizan varios sensores, las operaciones de bajo nivel pueden ser realizadas por procesos distribuidos dedicados a sensores individuales. Una vez detectadas las características de las imágenes individuales, pueden realizarse mediciones fotogramétricas de nivel superior, así como cualquier identificación de objetos u otras tareas que dependan de los datos combinados de múltiples imágenes y sensores.
Cálculos directos y algoritmos de aprendizaje
Un cálculo directo en el contexto de la visión artificial es un conjunto de funciones matemáticas definidas manualmente por un programador humano. Aceptan entradas como los valores de los píxeles de la imagen para producir salidas como las coordenadas de los bordes de un objeto. En cambio, los algoritmos de aprendizaje no los escriben directamente los humanos, sino que se entrenan mediante conjuntos de datos de ejemplo que asocian entradas con salidas deseadas. Por tanto, funcionan como cajas negras. En la actualidad, la mayoría de este tipo de aprendizaje automático emplea el aprendizaje profundo basado en redes neuronales artificiales para realizar sus cálculos.
Figura 6: Los sensores de imagen de la serie iVu pueden identificar piezas de trabajo por tipo, tamaño, ubicación, orientación y coloración. Los componentes de visión artificial pueden aceptar la configuración y supervisión de una pantalla integrada, una HMI remota o un PC. La cámara, el controlador, el objetivo y la luz están preintegrados. (Fuente de la imagen: Banner Engineering Corp.)
El aprendizaje automático simple para aplicaciones industriales suele ser más fiable y menos exigente desde el punto de vista computacional si se basa en el cálculo directo. Por supuesto, la computación directa tiene sus límites. Por ejemplo, nunca podría realizar el reconocimiento avanzado de patrones necesario para identificar a las personas por sus rostros, y menos a partir de un video de un espacio público abarrotado. En cambio, el aprendizaje automático maneja con destreza este tipo de aplicaciones. No es de extrañar, pues, que el aprendizaje automático se utilice cada vez más en operaciones de visión artificial de bajo nivel, como la mejora, la restauración y la detección de características de las imágenes.
Mejorar los enfoques pedagógicos (no los algoritmos)
La madurez de la tecnología de aprendizaje profundo ha puesto de manifiesto que lo que hay que mejorar no son los algoritmos de aprendizaje en sí, sino la forma en que se entrenan. Una de estas rutinas de entrenamiento mejoradas se denomina visión por computadora centrada en los datos. En este caso, el sistema de aprendizaje profundo acepta conjuntos de entrenamiento muy grandes, formados por miles, millones o incluso miles de millones de imágenes, y luego almacena la información resultante que sus algoritmos extraen de cada imagen. Los algoritmos aprenden de forma efectiva practicando ejemplos trabajados y consultando después un «libro de respuestas» para verificar si han llegado a los valores correctos.
Una vieja historia sobre los inicios del reconocimiento de patrón digital sirve de advertencia. El ejército estadounidense pretendía utilizar la visión artificial para el reconocimiento de objetivos, y las demostraciones realizadas por contratistas de defensa identificaron con fiabilidad tanques de fabricación estadounidense y rusa. En las fotografías aéreas del proveedor se diferenciaron correctamente varios tanques, uno tras otro. Pero cuando se volvió a probar con la propia biblioteca de imágenes del Pentágono, el sistema siguió dando respuestas erróneas. El problema era que las imágenes del contratista de defensa mostraban tanques estadounidenses en desiertos y tanques rusos en campos verdes. Lejos de reconocer tanques diferentes, el sistema reconocía fondos de distintos colores. ¿Cuál es la moraleja? Para ser útiles, los algoritmos de aprendizaje necesitan datos de entrenamiento cuidadosamente seleccionados.
Conclusión: visión de la seguridad de las células de trabajo robotizadas
La visión artificial ha dejado de ser una tecnología de nicho. Su mayor implantación se está produciendo en aplicaciones industriales. En este caso, el avance más espectacular es cómo la visión artificial complementa ahora los sistemas de seguridad de las plantas industriales que emiten alarmas o avisos acústicos cuando el personal de la planta entra en una zona de trabajo sin casco, máscara u otro equipo de protección adecuado. La visión artificial también puede completar los sistemas que anuncian cuándo las máquinas móviles, como las carretillas elevadoras, se acercan demasiado a las personas.
Estos y otros sistemas similares de visión artificial pueden sustituir en ocasiones a las protecciones rígidas de los robots industriales para aumentar la eficacia de las operaciones. También pueden sustituir o mejorar los sistemas de seguridad basados en protecciones luminosas que simplemente detienen la maquinaria si un trabajador de la planta entra en una celda de trabajo. Cuando la visión artificial supervisa el suelo de la fábrica que rodea la célula de trabajo, es posible que los robots de dichas células reduzcan gradualmente la velocidad a medida que se acercan las personas.
A medida que los diseños de los entornos industriales evolucionen para dar cabida a robots colaborativos y otros equipos de células de trabajo seguros para el personal de la planta (incluso mientras dicho equipo funciona), estos y otros sistemas basados en la visión artificial se convertirán en una parte mucho más común de los procesos de la fábrica.
Descargo de responsabilidad: Las opiniones, creencias y puntos de vista expresados por los autores o participantes del foro de este sitio web no reflejan necesariamente las opiniones, las creencias y los puntos de vista de DigiKey o de las políticas oficiales de DigiKey.
Fuente: https://www.digikey.es/es/articles/how-machine-vision-is-advancing-automation-now