达摩院AliceMind上新！首个中文表格预训练模型来了，已向业界开源--快科技--科技改变未来

正文内容 评论（0）

达摩院AliceMind上新！首个中文表格预训练模型来了，已向业界开源

2021-12-02 14:56:12 作者：ruskin 编辑：ruskin 评论(0)

12月2日，达摩院深度语言模型体系AliceMind发布中文社区首个表格预训练模型SDCUP，该模型在全球权威表格数据集WikiSQL、SQuALL上取得了业界最优效果，且模型和训练代码均已对外开源。（https://github.com/alibaba/AliceMind）

表格是应用普遍的结构化数据，也是智能对话系统和搜索引擎的重要答案来源。但传统表格查询需技术人员撰写专业查询语句，阻碍了表格查询的大规模应用。新兴的表格问答技术，可将自然语言转换为查询语句，使用户能通过简单问句直接与表格数据库交互，具有广泛应用前景。

不过，由于表格内容复杂多样、涉及各行业专业知识，表格问答任务一直是自然语言处理领域的难题。此前，谷歌、微软、亚马逊等海外公司开展了相关探索，但在中文场景，该方向处于空白。

本次，达摩院对话智能团队提出了首个中文表格预训练模型SDCUP，其基于“模式依存”方法，通过模型直接预测自然语言与表格结构内容的关键词映射，提升了表格问答的准确率。具体而言，即参考语义依存分析方法对Schema Dependency任务建模，使用全连接网络获取每个节点作为父亲节点和作为孩子节点的语义表示，然后使用双仿射网络预测每个边存在的概率和该边关系类型的概率。同时，团队使用了模仿人类的“课程学习”方法减少数据噪声。

（SDCUP生成SQL示例）