智能翻译涉及到三十八种主流语言,其中包含了藏语和维吾尔语两种华夏少数民族的文字和语言。
朝鲜,蒙古、藏、维吾尔、哈萨克、柯尔克孜、彝、傣、拉祜、景颇、锡伯、俄罗斯等民族各有自己的文字,这些文字大都有较长的历史。
除了文字,华夏境内的语言也是非常丰富,这在世界上是罕见的。据统计,华夏的语言正在使用的就有80多种,已经消亡的古代语言更是不计其数。
华夏有55个少数民族。回族和满族一般使用华夏语,其他少数民族都有自己的民族语言,有的民族还有两种以上,如裕固族分别使用东部裕固语和西部裕固语,瑶族分别使用勉语、布努语和拉珈语。中国的全部少数民族语言分属五个语系。
1.汉藏语系:
壮侗语族——壮语、侗语、傣语、布依语、水语、仫佬语、毛南语、拉珈语、仡佬语、黎语等。
藏缅语族——藏语、嘉戎语、门巴语、珞巴语、土家语、羌语、普米语、独龙语、怒语、彝语、傈僳语、纳西语、哈尼语、拉祜语、白语、基诺语、景颇语、载瓦语、阿昌语等。
苗瑶语族——苗语、布努语、勉语、畲语等。
2.阿尔泰语系:
突厥语族——维吾尔语、哈萨克语、柯尔克孜语、乌孜别克语、塔塔尔语、撒拉语、图瓦语、西部裕固语。
蒙古语族——蒙古语、达斡尔语、东乡语、东部裕固语、土族语、保安语。
满—通古斯语族——满语、锡伯语、赫哲语、鄂温克语、鄂伦春语。
3.南亚语系:
孟高棉语族——佤语、崩龙语、布朗语。
4.南岛语系:
印度尼西亚语族——排湾语、布嫩语、阿眉斯语等。
5.印欧语系:
伊朗语族——塔吉克语。
斯拉夫语族——俄罗斯语。
许道微要求智慧学习事业群的自然语言处理部门,整理好华夏所有的文字和语言。
此项工作在投入与产出上完全不成比例。但是很多语言用的人越来越少,面临着失传的困境。
许道微希望大秦科技公司担负起这个责任,保护好华夏的非物质文化遗产。
除此之外,智能翻译还收录了三种方言,粤语,闽语和吴语,尤其是闽语,保留了很多上古华夏语的特征。
现代华夏语有各种不同的方言,它们分布的区域很广。但由于这些方言和共同语之间在语音上都有一定的对应规律,词汇、语法方面也有许多相同之处,因此它们不是独立的语言。
这些语言收入完毕后,对华夏内部的交流会起到极大的促进作用。许道微时刻记得,在藏省散心时,很多时候和当地人甚至无法沟通。
基于公司的弱人工智能,洪小文博士研发出了NMT技术,结束了从1989年开始的IBM机器翻译模型PBMT,即短语的机器翻译。
NMT使用基于神经网络的技术来实现更多上下文精确的翻译,而不是一次翻译一个单词的破碎句子。通过弱人工智能计算单词序列的概率,NMT将完整的句子放入一个集成模型中,达到与人工翻译相媲美的效果,在某些方面,人工智能做的甚至更加出色。
但是华夏语出现的文字顺序颠倒,还不影响阅读的情况,真的有点难为人工智能。起码目前弱人工智能还无法通过大数据自主的对信息进行完善。
不只是华夏语不影响阅读,很多语言、甚至不是语言的连续信息,只要上下文充足,其实都不影响阅读。也算是为爱做梦的人类保留了一丝尊严。
智能翻译还加入了医疗,能源,体育等行业的特殊场景翻译,别说和国际友人沟通了,就是谈个跨境贸易照样可从容面对。
……
三月中旬,燕大,吉大为首的数所高校,不声不响的搞出了一个大新闻。通知所有外国语学院的02级大一新生,可以参加学校举办的特殊转专业考试,通过后可以选择基础兽医学,国际金融与贸易等八个专业。