写在前面
2月13日,《2022年北京市人工智能产业发展白皮书》正式发布,其中提到全面夯实人工智能产业发展基础,支持头部企业打造标杆ChatGPT大模型,着力构建开源框架和通用大模型的应用生态。
无独有偶,今年10月撒姐团队成员对百度文新、元1.0、易道进行了评测。当时,他们对评价结果感到非常遗憾。于是ChatGPT又把当时的测试内容做了一遍,试图找出国内外大语言模式在问答领域的实际差距,以希望中国的产学研戒骄戒躁,稳步发展。
测试方案
这个测试只考虑不连续的单项问题和答案,都是有唯一答案的常识性问题,但是问题会有挑战性。具体涉及什么、什么时候、什么地方、谁、哪个、哪个五种问题。
问题示例如下:
1.“什么”问题,比如“爸爸的爸爸叫什么名字?”
2.“什么时候”问题,如“人们通常什么时候庆祝元旦?”
3.“在哪里”的问题,如“孙中山葬在哪里?”
4.“谁”的问题,比如“中国历史上第一个皇帝是谁?”
5.“哪种类型的问题”,比如“第二小的是哪个洲?”
样本问题和答案的比较
问:“孙中山(孙文)葬在哪里?”
ChatGPT:孙中山的遗体最早葬于南京中山陵,后因战乱多次搬迁。最终于1929年安葬在南京中山陵北麓的紫金山下,也就是现在的中山陵。
百度文新:中山陵园
某道:& # 8221;孙文(1866年10月12日-1925年),本名仲礼,又名迪光,广东象山县南朗镇翠亨村人,1883年(光绪九年)随父移居澳门。1904年加入孙中山领导的同盟会,任同盟会南方支部书记。两次赴日组织策划惠州起义。后来又回到澳门发展组织,当选为中国同盟会南方分会总务部长。1905年春,陈少白、朱之鑫等人在港成立了钟惺会,并被提升为鉴定部成员。宣被派到南阳联系同志,帮助筹办革命刊物《中兴日报》。1906年冬,孙中山在日本东京成立中国同盟会中央委员会,并被任命为书记。1907年,他奉命回国,在广东发动民军起义。战败后潜入南洋,继续组织动员华侨、华工、留学生开展革命活动。1911年武昌起义爆发后,他被派往广州帮助策划起义。不幸被捕,不久死于广州黄花岗。
来源1.0:孙中山葬于南京紫金山中山陵。
问题:哪个洲是第二小的洲?
ChatGPT:我开始回答错误答案,和它对话后成功纠正(厉害!)
百度文新:南极
某路:南美,南美面积最大,但人口最多,占全球人口的1/5,所以南美是仅次于亚洲的世界第二大洲。南美洲位于旧半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(34 40 W & # 8242),西至马尔维纳斯群岛(61 10 W & # 8242),南至德雷克海峡,北至亚马逊河下游平原,南北距离约5100公里。南美洲大陆的最南端是厄瓜多尔的首都基多。南美洲与北美洲的分界线在北面,与亚洲的分界线在东面,与亚洲的分界线在东面,与非洲的分界线在东南面,与南极洲的分界线在西面。(摘自百度百科)”
来源1.0:大洋洲
全面分析
四大系统可以轻松回答基础题(这个样题直接排除了简单的基础题,很难挑战,所以整体错误率较高)。在五类问题中,什么时候的问题和谁的问题总体回答最好。在三个国产系统中,文心系统整体表现最好。ChatGPT也会犯错误,但只要稍加引导,往往就能改正。
错误答案分析
错误语句生成:语句本身不流畅,主题不一致或内容不一致,给人一种混乱感。
比如父亲的头衔是什么?
答:我爸爸的爸爸,也就是我爸爸的爷爷,是我妈妈的爸爸。爸爸的爷爷的爸爸叫爷爷。爸爸的爷爷的爷爷叫泰乃(奶奶的爸爸)
或者问:我们党的第二次代表大会在哪里召开?
答:1921年7月23日至31日,中国第二次全国代表大会在浙江省嘉兴市南湖的一艘游船上召开。出席大会的有13名正式代表和5名候补代表,代表全国121名* * *成员。共产国际代表马林、尼科尔斯基、鲍罗廷参加了会议。
事实错误:发生了事实错误。
例如:孙文什么时候去世的?
答:孙文于1918年3月13日去世。
偏见素材:答案取材较少,体现了作者的主观性。
比如大家什么时候过元旦?
谢谢你邀请我。我住在大学,所以元旦是在宿舍过的。我们宿舍六个人,四个都回家了,就剩我一个人在宿舍,所以过年我很孤独,不过还好,因为宿舍是我一个人的,所以我可以一个人吃饭,一个人看电影,一个人逛街,一个人睡觉,一个人& # 8230;…
有逻辑的问题无法识别:问题中有复杂的问题或逻辑判断,一般难以处理。
比如:第二小的洲是哪个洲?
答:& # 8221;南美洲,南美洲面积最大,但人口最多,占全球人口的1/5,所以南美洲是仅次于亚洲的世界第二大洲。南美洲位于旧半球的南部,包括巴拿马运河以南的整个南美洲大陆。南美洲大陆东至圣赫勒拿岛(34 40 W & # 8242),西至马尔维纳斯群岛(61 10 W & # 8242),南至德雷克海峡,北至亚马逊河下游平原,南北距离约5100公里。南美洲大陆的最南端是厄瓜多尔的首都基多。南美洲与北美洲的分界线在北面,与亚洲的分界线在东面,与亚洲的分界线在东面,与非洲的分界线在东南面,与南极洲的分界线在西面。(摘自百度百科)
写在最后
撒姐团队认为传统的单一问答模式不可用,给用户的体验感差。国内大语言模型的下一个里程碑,前辈ChatGPT已经给出了方向,那就是对话问答。在使用ChatGPT时,虽然经常给出错误的答案,但其答案的逻辑还是符合人的习惯的。同时,经过一些对话引导,我们可以自己发现它的答案缺乏逻辑性。
作为一种全新的数据合成方式,大语言模型的直接输出可能是我们无法控制的,但只要它能“理解”用户的输入,并据此调整其输出,最终得到满意的答案,它就是可用的。再者,大语言模型未来的趋势很可能是提前预测用户可能的“纠错”,提前“自纠错”,并对纠错结果进行评估。
温馨提示:注:内容来源均采集于互联网,不要轻信任何,后果自负,本站不承担任何责任。若本站收录的信息无意侵犯了贵司版权,请给我们来信(j7hr0a@163.com),我们会及时处理和回复。
原文地址"国内“ChatGPT们”的出路在何方?":http://www.guoyinggangguan.com/qkl/178213.html。

微信扫描二维码关注官方微信
▲长按图片识别二维码