无人工场的核心技术是图像三维建模和空间定位

无人工厂的核心技术是图像三维建模和空间定位


上篇文章体提到汉澳sinox无人工厂,肯定比现在的自动化生产线先进很多。我们看到现在的自动化工厂机械臂就是自动化组成部分,不过只是比较固定的操作模式,操作位置很固定,只有一些简单的模式。比如说拧螺丝,估计偏移一点,机械臂就无能为力,也就是说这个机械臂不太智能,首先是没有眼睛,然后是不能随意改变位置。这里涉及的就是图像识别建模,以及空间定位技术。我想这些技术应该很前卫,为何要说出来呢?不怕被别人学习模仿?不怕,我不怕别人掌握,我怕的是某些公司又拿这些东西去申请专利,比如最近谷歌居然申请给机器人植入性格这种专利,很可笑,机器人难道不能有性格吗?还要给谷歌交专利费?我把前卫技术细节都公开了,比如矩阵电脑,看你以后还怎么申请专利。无人工厂也不是专利了,技术早就被公开,这里是其中一个。一个公司也是不能靠专利费生存,比如最近暴雪魔兽游戏也没落了。


图像三维建模其实说的是图像识别技术,对物体外观识别,可能需要多个角度平面图才能建立三维模型,人们说的全息摄影可能更进一步,不过目前三维图形,类似我们看的3d电影,估计已经足够识别出物体,比如拧螺丝,外观是六角还是四角,厚度也就是高度多少毫米,通过三维模型就可以识别出几万种不同的螺丝帽。输入图像并计算生成三维模型,这就是图像识别需要的结果,目前计算机处理图像仍然很慢,应该开发出图像三维建模算法,并且模块和硬件化,设计专用的硬件芯片完上万路的并行计算,瞬间完成图像识别。这有点类似cad制图,不过不是人工作画,而是利用多张图片生成模型,就像把模型打印出来,它是逆向,输入图形,生成模型。目前文字识别技术已经比较成熟,但是图形识别还是不够成熟,因为不只是平面图。平面图恢复出线条图形意义不大。只有多个角度图像还原出立体图,才是关键,当然也不会应用到普通用户。目前3d电影只要两个角度图片就能让眼睛看到3d图形。其实图像识别需要的是物体的三维模型,不只是网上图片认出是什么物体,对于机械臂来说,认出物体还不够,还要知道形状和尺寸,这样才能精确定位。


现在机械臂的前方加上了摄像头,摄入物体图像,并三维建模,知道了物体是螺丝还是螺帽,尺寸和位置。

最后是要定位,手臂能夹住螺帽,手臂移到螺帽上方,有点像导弹制导,手臂一边移动一边看,校准位置,把夹子放在螺帽正下方,然后下去,紧紧夹住,当然夹多紧也可以精确控制的,而目前的机械臂夹力估计是固定的。其实定位技术也可以用雷达技术,雷达其实就是发出无线电波,电磁波,然后接收反射回来,计算出往返时间,可以计算出距离。蝙蝠就是用回声定位就是喉咙发出超声波碰到障碍物返回耳膜能感应到,超声波是超高频声音。精确定位是否也可以用雷达技术和回声定位技术实现呢?夹住了螺帽再移动到螺丝上,拧紧,就完成了拧螺丝过程。做这个过程人是依靠眼睛和手操作就能完成,不需要雷达和回声定位。既然眼睛这么好,何必不用呢?只要机械臂前方安装有两个摄像头,两个角度同时识别,能计算出物体与机械臂的精确距离,操作中可以边移动边计算,达到精确控制。目前对计算机来说,图像识别计算量还是太大,估计开发可图像建模的芯片才能胜任这个工作,这个技术广泛用于工农业、交通运输,意义重大。利用两个角度图像建模生成的三维模型以及两个摄像头的距离可以计算出物体跟摄像头的距离,完成空间定位。看来动物都有2个眼睛,是有原因的。


无人工厂的主要技术是图像建模和空间定位,并不需要语音识别,跟机器人还有差距。富士康说开发机器人取代工人,但是工厂机器人并没有语言输入和输出,至少工厂机器人不需要收发声音指令。所以即使目前语音识别和输出技术并不成熟情况下,富士康开发机器人障碍是图像识别和空间定位。没有高速图像识别芯片,开发工业机器人成本很高,富士康也没有芯片开发技术,只能开发简单的机械手辅助装配。GPU图像处理芯片可能有助于图像识别芯片研发。


而CAD软件能把模型打印出来,却不能把2张图像还原出模型。所以还没有成熟的图像识别算法。3D图像识别建模,应该先从2D平面图开始。