NLP 中文拼写检测纠正论文SOTA FASPell github 源码介绍
cac55 2025-01-13 11:14 12 浏览 0 评论
NLP 开源项目
[1] nlp-hanzi-similar 汉字相似度: https://github.com/houbb/nlp-hanzi-similar
[2] word-checker 中英文拼写检测: https://github.com/houbb/word-checker
[3] pinyin 汉字转拼音: https://github.com/houbb/pinyin
[4] opencc4j 繁简体转换: https://github.com/houbb/opencc4j
[5] sensitive-word 敏感词: https://github.com/houbb/sensitive-word
前言
大家好,我是老马。
下面学习整理一些其他优秀小伙伴的设计和开源实现。
FASPell
https://github.com/iqiyi/FASPell
FASPell
该仓库(根据GNU通用公共许可证v3.0许可) 包含构建当前最佳(到2019年初)中文拼写检查器所需的所有数据和代码,可以以此复现我们的同名论文中的全部实验:
FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm LINK[7]
此论文发表于 the Proceedings of the 2019 EMNLP Workshop W-NUT: The 5th Workshop on Noisy User-generated Text。
使用本代码与数据时,请按如下信息引用我们的论文:
@inproceedings{hong2019faspell,
title = "{FASP}ell: A Fast, Adaptable, Simple, Powerful {C}hinese Spell Checker Based On {DAE}-Decoder Paradigm",
author = "Hong, Yuzhong and
Yu, Xianguo and
He, Neng and
Liu, Nan and
Liu, Junhui",
booktitle = "Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019)",
month = nov,
year = "2019",
address = "Hong Kong, China",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/D19-5522",
pages = "160--169",
}
概述
中文拼写检查(CSC)的任务通常仅考虑对中文文本中的替换错误进行检测和纠正。
其他类型的错误(例如删除/插入错误)相对较少。
FASPell是中文拼写检查器,可让您轻松完成对任何一种中文文本(简体中文文本;
繁体中文文本; 人类论文; OCR结果等)的拼写检查,且拥有最先进的性能。
性能
下述表格描述了FASPell在SIGHAN15测试集上的性能。
句子级性能为:
精确率 | 召回率 | |
检错 | 67.6% | 60.0% |
纠错 | 66.6% | 59.1% |
字符级性能为:
精确率 | 召回率 | |
检错 | 76.2% | 67.1% |
纠错 | 73.5% | 64.8% |
这意味着10个错误检测/纠正中大约7个是正确的,并且可以成功检测/纠正10个错误中的6个。
使用方法
以下是能够指导您构建中文拼写检查器的步骤指南。
依赖
python == 3.6
tensorflow >= 1.7
matplotlib
tqdm
java (仅在使用树编辑距离时需要)
apted.jar (同上,仅在使用树编辑距离时需要)
数据准备
在此步骤中,您将在此处[8]下载所有数据。
数据包括拼写检查数据(用于训练和测试)以及用于计算字符相似度的字符特征。
由于FASPell中使用的大多数数据来自其他提供商,所以请注意下载的数据应转换为我们所需的格式。
在仓库中,我们提供了一些示例数据来占位。下载好全部数据后请用相同的文件名覆盖它们。
完成此步骤后,如果您有兴趣,则可以使用以下脚本来计算字符相似度:
$ python char_sim.py 午 牛 年 千
请注意,FASPell仅采用字符串编辑距离进行计算 相似。 如果您对使用树编辑距离计算相似度感兴趣 ,您需要下载(从 这里[9])并编译一个 树编辑距离可执行文件“ apted.jar”到主目录,然后运行:
$ python char_sim.py 午 牛 年 千 -t
训练
我们强烈建议您在实施此步骤之前阅读我们的论文。
共有三个训练步骤(按顺序)。 点击链接
获得他们的详细信息:
1.预训练掩码语言模型:请参阅此处[10]
2.微调训练掩码语言模型:请参阅此处[11]
3.训练CSD过滤器:请参见此处[12]
运行拼写检查器
检查您的目录结构是否如下:
FASPell/
- bert_modified/
- create_data.py
- create_tf_record.py
- modeling.py
- tokenization.py
- data/
- char_meta.txt
- model/
- fine-tuned/
- model.ckpt-10000.data-00000-of-00001
- model.ckpt-10000.index
- model.ckpt-10000.meta
- pre-trained/
- bert_config.json
- bert_model.ckpt.data-00000-of-00001
- bert_model.ckpt.index
- bert_model.ckpt.meta
- vocab.txt
- plots/
...
- char_sim.py
- faspell.py
- faspell_configs.json
- masked_lm.py
- plot.py
现在,您应该可以使用以下命令对中文句子进行拼写检查:
$ python faspell.py 扫吗关注么众号 受奇艺全网首播
您还可以检查文件中的句子(每行一个句子):
$ python faspell.py -m f -f /path/to/your/file
如要在测试集上测试拼写检查器,请将faspell_configs.json中的"testing_set"设置为测试集的路径并运行:
$ python faspell.py -m e
您可以将faspell_configs.json中的"round"设置为不同的值,并运行上述命令以找到最佳的回合数。
数据
中文拼写检查数据
1.人类生成的数据:
?SIGHAN-2013 shared task on CSC: LINK[13]?SIGHAN-2014 shared task on CSC: LINK[14]?SIGHAN-2015 shared task on CSC: LINK[15]
2.机器生成的数据:
?我们论文中使用的OCR结果:
?Tst_ocr: LINK[16]?Trn_ocr: LINK[17]
要使用我们的代码,拼写检查数据的格式应按照以下例子:
错误字数 错误句子 正确句子
0 你好!我是張愛文。 你好!我是張愛文。
1 下個星期,我跟我朋唷打算去法國玩兒。 下個星期,我跟我朋友打算去法國玩兒。
0 我聽說,你找到新工作,我很高興。 我聽說,你找到新工作,我很高興。
1 對不氣,最近我很忙,所以我不會去妳的。 對不起,最近我很忙,所以我不會去妳的。
1 真麻煩你了。希望你們好好的跳無。 真麻煩你了。希望你們好好的跳舞。
3 我以前想要高訴你,可是我忘了。我真戶禿。 我以前想要告訴你,可是我忘了。我真糊塗。
中文字符特征
我们使用来自两个开放数据库提供的特征。 使用前请检查其许可证。
数据库名 | 数据链接 | 使用的文件 | |
字形特征※ | 漢字データベースプロジェクト(汉字数据库项目)[18] | LINK[19] | ids.txt |
字音特征 | Unihan Database[20] | LINK[21] | Unihan_Readings.txt |
※ 请注意,原始 ids.txt 本身不提供笔划级别的IDS(出于压缩目的)。 但是,您可以使用树递归(从具有笔画级IDS的简单字符的IDS开始)来为所有字符自己生成笔画级IDS。
可以与我们的代码一起使用的特征文件(char_meta.txt)应该具有格式如下:
unicode编码 字符 CJKV各语言发音 笔划级别的IDS
U+4EBA 人 ren2;jan4;IN;JIN,NIN;nhan ?丿?
U+571F 土 du4,tu3,cha3,tu2;tou2;TWU,THO;DO,TO;th? ??一丨一
U+7531 由 you2,yao1;jau4;YU;YUU,YUI,YU;do ??丨??一丨一
U+9A6C 马 ma3;maa5;null;null;null ???一
U+99AC 馬 ma3;maa5;MA;MA,BA,ME;m? ????一?一一丨?灬
其中:
?CJKV各语言发音的字符串遵循格式:MC;CC;K;JO;V;?当一个语言中的字符是多音字时,可能的发音用,分隔;?当一个字符不存在某个语言的发音时,用null来做占位符。
小结
希望本文对你有所帮助,如果喜欢,欢迎点赞收藏转发一波。
我是老马,期待与你的下次相遇。
相关推荐
- 三菱PLC新手必备!20个案例带你打通编程逻辑!!!
-
在当今自动化蓬勃发展的时代,三菱PLC已然成为众多自动化爱好者和从业者踏入控制领域的首选利器。无论是小型的自动化生产线,还是智能家居系统的搭建,三菱PLC都发挥着举足轻重的作用。在接下来的内容...
- 一文教你看懂三菱PLC定位指令应用
-
一动作描述1、分别介绍各个定位指令的使用规则;2、使用定位指令控制伺服步进,(以脉冲加方向的方式);3、M8029应用注意事项。二硬件设备1、三菱PLC:FX3U-32MT;2、步进电机和步进驱...
- 电气人,三菱Q系列和FX PLC系列之间的区别你都知道吗?
-
PLC软元件大比拼,Q系列VSFX系列,你的选择是什么?家,对每个人都很重要;爱,也是。对工程师来说,PLC就像他们的家,用代码搭建的爱。今天,咱们说说三菱PLC里的Q系列和FX系列,看看它们软元件...
- 三菱PLC中定位指令DRVA的使用案例
-
三菱PLC绝对定位指令DRVA使用案例深度解析:从入门到进阶一、案例引入:伺服电机绝对定位控制用户需求:工厂自动化生产线需要对工件进行精准定位,误差必须控制在极小的范围内。这要求伺服电机能够在特定位...
- 三菱FX-PLC设计一个通电和断电均延时的梯形图
-
任务描述设计一个通电和断电均延时的梯形图。当X000由断变通时,延时10S后Y0得电;当X000由通变断时,延时5S后Y000断电。程序#电工交流圈##PLC##三菱PLC##梯形图#...
- 三菱R系列PLC硬件组态案例2(三菱plc硬件结构图)
-
概述本例中将详细介绍模拟量输出模块R60DAV8的使用方法硬件组态设置CPU:R04ENCPU(内置RJ71EN71集成一个以太网口和CC-LinkIEField接口)电源:R62P串行模块:RJ...
- 新手必看:三菱FX PLC输入接线(三菱fx plc教学视频)
-
导读:对于学习三菱PLC编程的初学者,熟悉和掌握PLC输入接线是必须的。PLC输入接线,根据输入端可以接的元件大致可以分为两线制和三线制。通过下文学习三菱FXPLC的输入接线。一个基本回路需要哪三个...
- 这几种方法教你三菱PLC如何控制变频器,对比,哪种最适用
-
变频器是一个执行机构,它的作用就是驱动三相异步电动机,一些高性能的变频器也可以驱动同步电机,甚至增加编码器反馈实现伺服功能。至于如何驱动,就靠PLC控制实现。在工控行业中,PLC与变频器是最常见的一种...
- 三菱PLC编程实例(三菱plc编程实例大全)
-
三菱PLC编程实例-正反转电路PLC控制控制要求:通过PLC程序控制实现三相异步电动机的正反转控制(正反转切换不需要进行停止可直接切换),且设备具有过载保护、短路保护。注:切换方向时,正运行方向立即...
- 三菱plc的数据类型(PLC的基础)(三菱plc常用的型号)
-
三菱PLC的数据类型根据其软元件和用途可分为以下几类:1.位(Bit)用途:表示开关状态(ON/OFF)。软元件:`X`(输入继电器)、`Y`(输出继电器)、`M`(内部继电器)、`S`(步进继电...
- 三菱R系PLC高级应用(三菱plc高级编程实例)
-
三菱R系PLC高级应用一、模块配置1.添加模块打开GXWorks3,新建工程,选择PLC型号。添加CPU,系统提示设置模块。模块标签,用于在程序中使用标签对模块的参数设置和模块的状态读取。样本注...
- 三菱PLC特殊功能辅助继电器-分类总结清单
-
1.FX系列PLC2.Q系列PLC3.A系列PLC关注我,学习更多电气知识!...
- [三菱PLC] 三菱FX各系列轴输出和插补说明
-
三菱FX系列PLC当下常用的有FX3SA、FX3GA、FX3U、FX5U(IQ-F)。这几个系列里对应晶体管型号的主机具备轴定位功能。之前呢,FX3SA、FX3GA、FX3U只能让单轴单独...
- 三菱PLC的几种类型(常用的三菱plc)
-
三菱PLC分几种类型,其中这几种要记住三菱PLC分几种类型,今天分享大家分享三菱PLC分几种类型。一、PLC的类型:1、小型PLC一体式结构、I/O点数:256点(384点)多用于单机控制如:FX1...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)