其实,我们每个国家的神仙们,没有在我们全球全世界的,每个人的命运里面加有救世这个特大事件的事情哈!神仙们的意思是:让我们大家自己选择生?还是选择死?我想:我们大家肯定是选择生[心]那么既然老天爷是真的神仙!我们大家就顺着天道走,去和谐大自然,不伤害流浪动物,少干坏事或尽量不干坏事!再加上改好自己,大家也很容易办到的[ok][心]那么,再加上现在是末法时代,我们全球全世界的人民,已经坐在末班车上了,只要大家去做好人好事,末世是可以挽救的,我们自己还可以救自己,还有机会,不过现在大家就必须要开始行动了才行哈!迟了的话,大家都只有死路一条哟!只要我们大家把最危险的这几十年度过了,以后生生世世,大家就都一直照我今天说的做,保证你们大家生生世世都活着的哈!但是大家不要去弄爆炸性的东西哟,害怕把灵魂炸没有了哈!我呢!是网上要找的新东方圣人,可我对这个头衔不感兴趣!我是来通知大家,二世轮回投生的事情的哈!不来看通知的死了之后灵魂不保哟,后果自负哟!我宣传到2053年年底结束!信不信由您吧!
围观教授讨论实验设计
今天我的两个导师和一个统计系的教授围绕图灵测试的实验设计和数据分析展开了激烈的讨论。再简单回顾一下图灵测试。图灵测试是让人工检验生成数据真实度。比如说混合50个真实数据和50个生成数据。当人工智能比较差的时候,人能轻松分辨出真实数据和生成数据的区别,对应的会选择出50个数据为真,50个数据为假。
但是当人工智能越来越好的时候,生成数据就会越来越接近真实数据。人的判断开始出现误差。一方面人们还保持着自身的误差;另一方面,由于越来越多生成数据过于真实,人们判断真实数据为真的数量会变少,生成数据为真的数量会变多。最后人们给出的数据标记为真的数量会偏离五十。
比方说,我们能很清楚的判断出50个人和50个计算器声音的区别,从而给出50个真实标记。但是当计算器被换成最先进的人工智能语音的话,我们知道里面有一部分声音是合成的。所以不光我们会把人工智能的声音当成人发出来的,我们也会把一部分人的声音当成是合成的。这样我们给出的标记为真的数量就很难恰好为50。有时候可能是70,有时候可能是35。
这种偏差是有三部分决定的,一个是我们本身的判断偏差,一部分是δ(判断为真 | 图片为真)的偏差,还有一部分是δ(判断为假 | 图片为假)的偏差。
从假说检验的角度来看,如果我们想要验证每个人有区分真实和生成图片的能力,我们的零假设是:
H0: P(判断为真 | 图片为真) p = P(判断为真 | 图片为假) 1-q
或者:
H0: P(判断为假 | 图片为真) 1-p = P(判断为假 | 图片为假) q
这两个假设数学上等价。
但是由于测试者不同,大家的偏差也不一样,从而p_i和q_i并不服从同一个高斯分布。即使我们有了一系列的 (p_i, q_i), 也不能直接计算它们的检验统计量。
但是我之前提出的计算z-score方法也存在问题。因为即使是一个在当前情况下能给出70个真标记的人,面对非常差的人工智能的时候,也会只给出50个真标记。只有当人工智能足够以假乱真的时候,这个人的判断才会服从以~70%为中心的高斯分布。模型稍微弱一点的时候,他的选择并不等同于随机选择。
经历了七个小时的讨论,他们对问题达成了共识。但每个测试者面对的是众多单个的样本,不同的测试者又有着不一样的评价误差,所以还是没有讨论出一个切实可行的方案。我也该好好想想该用什么更准确的统计方法来归一化图灵测试的结果。
#浆果科研日常#
今天我的两个导师和一个统计系的教授围绕图灵测试的实验设计和数据分析展开了激烈的讨论。再简单回顾一下图灵测试。图灵测试是让人工检验生成数据真实度。比如说混合50个真实数据和50个生成数据。当人工智能比较差的时候,人能轻松分辨出真实数据和生成数据的区别,对应的会选择出50个数据为真,50个数据为假。
但是当人工智能越来越好的时候,生成数据就会越来越接近真实数据。人的判断开始出现误差。一方面人们还保持着自身的误差;另一方面,由于越来越多生成数据过于真实,人们判断真实数据为真的数量会变少,生成数据为真的数量会变多。最后人们给出的数据标记为真的数量会偏离五十。
比方说,我们能很清楚的判断出50个人和50个计算器声音的区别,从而给出50个真实标记。但是当计算器被换成最先进的人工智能语音的话,我们知道里面有一部分声音是合成的。所以不光我们会把人工智能的声音当成人发出来的,我们也会把一部分人的声音当成是合成的。这样我们给出的标记为真的数量就很难恰好为50。有时候可能是70,有时候可能是35。
这种偏差是有三部分决定的,一个是我们本身的判断偏差,一部分是δ(判断为真 | 图片为真)的偏差,还有一部分是δ(判断为假 | 图片为假)的偏差。
从假说检验的角度来看,如果我们想要验证每个人有区分真实和生成图片的能力,我们的零假设是:
H0: P(判断为真 | 图片为真) p = P(判断为真 | 图片为假) 1-q
或者:
H0: P(判断为假 | 图片为真) 1-p = P(判断为假 | 图片为假) q
这两个假设数学上等价。
但是由于测试者不同,大家的偏差也不一样,从而p_i和q_i并不服从同一个高斯分布。即使我们有了一系列的 (p_i, q_i), 也不能直接计算它们的检验统计量。
但是我之前提出的计算z-score方法也存在问题。因为即使是一个在当前情况下能给出70个真标记的人,面对非常差的人工智能的时候,也会只给出50个真标记。只有当人工智能足够以假乱真的时候,这个人的判断才会服从以~70%为中心的高斯分布。模型稍微弱一点的时候,他的选择并不等同于随机选择。
经历了七个小时的讨论,他们对问题达成了共识。但每个测试者面对的是众多单个的样本,不同的测试者又有着不一样的评价误差,所以还是没有讨论出一个切实可行的方案。我也该好好想想该用什么更准确的统计方法来归一化图灵测试的结果。
#浆果科研日常#
湖人输6分,从湖人球员数据和正负值来看,今天被国王逆转,谁的责任最大呢?
1.威少,-13,17投6中,得21+4+11
2.浓眉,-7,17投8中,得24+14+3
3.沃克,-14,14投8中,得19+1+1
4.布朗,-14,6投1中,得2+3+0
5.贝弗利,-3,8投2中,得5+3+3
6.加布里,+10,4投4中,得8+2+1
7.李维斯,+2,12投7中,得19+5+1
8.克里斯蒂,+8,5投2中,得7+4+1
9.胡安,+1,3投2中,得5+3+1
10.琼斯,+0,2投2中,得4+2+0
詹姆斯休战,湖人输球,没啥说的今天威少就要背锅啊,命中率35.2%太低了,他要是多命中几次投篮,湖人没准就赢了!
我就不明白,浓眉现在拿个30分怎么这么难了,24分对普通球员来说不算少了,但是他可是历史级别大前锋,这点儿得分不够啊!
#国王战胜湖人##湖人又输##NBA#
1.威少,-13,17投6中,得21+4+11
2.浓眉,-7,17投8中,得24+14+3
3.沃克,-14,14投8中,得19+1+1
4.布朗,-14,6投1中,得2+3+0
5.贝弗利,-3,8投2中,得5+3+3
6.加布里,+10,4投4中,得8+2+1
7.李维斯,+2,12投7中,得19+5+1
8.克里斯蒂,+8,5投2中,得7+4+1
9.胡安,+1,3投2中,得5+3+1
10.琼斯,+0,2投2中,得4+2+0
詹姆斯休战,湖人输球,没啥说的今天威少就要背锅啊,命中率35.2%太低了,他要是多命中几次投篮,湖人没准就赢了!
我就不明白,浓眉现在拿个30分怎么这么难了,24分对普通球员来说不算少了,但是他可是历史级别大前锋,这点儿得分不够啊!
#国王战胜湖人##湖人又输##NBA#
✋热门推荐