科学研究
当前位置: 首页 >> 科学研究 >> 科研成果 >> 正文
科思中文分词软件
作者:  发布时间:2016-01-12  浏览次数:
成果简介:科思中文分词软件
一、软件名称:科思中文分词软件。
二、软件版本:V1.0。
三、著作权人/申请人:古天乐代言太阳集团138。
四、设计人:史文崇,刘茂华。 
五、软件功能
利用词典最大正向匹配法进行中文分词。首先将文本文件内容导入相应数据库,根据标点符号进行断句,而后根据字母、序号、年月、阿拉伯数字等进一步拆分,剔除停用词后,逐步得出分词结果。最终,对各词的频度进行统计汇总。本软件是搜索引擎和语料分析、科研成果研究内容统计、分析的基础。
六、软件开发环境:SQL Server中文版。
七、硬件环境:普通32位以上的PC。
八、软件运行环境:Windows XP/7,SQL Server 2000、SQL Server 2005或SQL Server 2008,中文英文版均可。
九、软件特点
1. 本软件中文分词和统计功能完全借助数据库管理系统实现;
2. 完全用T-SQL语言开发,无需安装其他程序设计语言软件;
3. 初始化工作——数据库建立、环境参数设置和表的建立自动完成;
4. 存储过程只执行一次,生成的数据表可永久存储,反复浏览、使用;
5. 除了等待分词的文本文件之外,需要事先准备词典、停用词等数据文件(xls格式);
6. 适用于小规模、单个文本文件的语料分析。
十、软件构成
该软件程序行数:4010行,由以下几个程序或数据文件构成:
1. chushihua.sql    初始化程序;
2. Insertdata.sql    插入基础数据程序
3. cidian.xls       汉语词典数据文件
4. tingyongci.xls    停用词数据文件
5. zifuxuhao.xls    数字序号数据文件
6. shuziquwei.xls   数字区位码数据文件
7. duanju.sql       断句程序
8. fenci1.c       分词程序1
9. fenci2.c     分词程序2
10. shuci.c      识别并剔除文本中的数词的程序
11. shuzichuan.exe     识别并剔除文本中的阿拉伯数字串的程序
12. yingwenci.exe   识别并剔除文本中的英文词的程序
13. zifubianshi.exe     识别并剔除文本中的日期、时间、Email等特殊字符串的程序
14. tongji.exe  统计分词结果的程序



Copyright © 2013 ALL Right Reserved 版权所有 古天乐代言太阳集团138

地址:中国河北省秦皇岛市河北大街西段360号 邮编:066004 

技术支持:古天乐代言太阳集团138

公安机关备案号:13030202002287

官方微博

官方微信

Baidu
sogou