机器之心报道
如果你有 100 万个 GPU hour,你会训练什么样的语言模型?
与 GPT 类似,它是一个只包含解码器(decoder-only)的架构,参数量达到了 1760 亿;
70 层的神经网络,每层 112 个注意力头 - 隐藏维度为 14336 - 2048 个 token 序列长度;
ALiBi 位置嵌入 - GeLU 激活函数。
数据治理小组帮助定义了指导数据工作的具体价值,并提出了一个新的国际数据治理结构,包括一些支持性的技术和法律工具;
数据来源小组在全球范围内组织黑客松,帮助参与者利用当地专业知识建立了 246 种语言资源目录,并准备了 605 个相关网站的列表;
隐私工作小组致力于分类和策略,以降低隐私风险;
法律学术小组开发了一套涵盖九个司法管辖区的法律手册,其中包含不同的隐私和数据保护法规,以帮助 ML 从业者了解他们工作的法律背景。
© THE END
转载请联系本公众号获得授权
✋热门推荐