天津大学硕论文非结构化文档数据提取与分析系统的设计与实现姓名:王云鹏学位申请程度:硕士:软件工程讲师:刘江; Wang Jian 2011-11摘要网络和信息时代随着数据和信息的到来,我们的生活泛滥成灾,并渗透到各个领域。同时,随着我国办公自动化流程的不断发展,产生了越来越多的数据。存储技术为这些数据提供了标准化和结构化的管理方法。但是,每天生成的所有数据都可以用格式进行标准化吗?无论是从看似有用但无法处理的海量数据中挖掘和分析有用信息,传统的导入技术和查询方法显然都无法满足需求,尤其是对于非结构化文档类型数据的收集和分析而言。它已成为当前研究的热点。从实际的业务需求开始,本主题收集,存储和提取实体信息,并分析当前计算机软件生成的各种文档。结合实际工作需要,开发了“基于数据的非结构化提取分析系统”软件。根据其业务应用,制定了开发计划,解决了技术难题,并将日常使用的各种文档以非二进制数据的形式存储在中,以完成数据的存储和组织。使用Windows筛选器API解决不同格式文档的集合兼容性问题,并使用CDO组件解决Emaill文件的操作问题。效果明显,方法简洁,将非结构化文档成功转换为半结构化文档。文档转换。
在此基础上,使用TQ P. Spl i tAI。 Dl组件从收集的文档内容中提取有用的和相关的实体信息,例如名称,地址,电话号码,汽车执照,ID号,银行卡号,Emil地址,U RL等,并完全实现数据结构。为了适应真实数据和工作环境,并根据海量数据的特点,根据“私有云”中“基础设施即服务”的概念设计了分布式处理系统,解决了大量文档收集和实体信息提取,实现了网络负载均衡。最后,根据业务需求模型对结构化数据进行分析,并以图形方式显示分析结果。系统模拟H力,以指导动态点排列算法以可视方式显示分析结果。根据引用的力学原理,可以有效地区分图形社区。它有利于海量信息的显示,并增强了最终分析结果的图形显示的可读性。在系统设计和开发中,应用了文档收集,实体提取,分布式计算和可视化显示等多种技术,并实现了区分功能模块的设计思想,符合现代软件开发标准。用户单位和用户单位系统在全国范围内的设备都证实了其研发成果,大大提高了相关业务工作能力。美容炖煮:非结构化,分布式,结构化转换,模型分析,图形显示摘要开发计算机应用程序和网络技术的人们,依赖于网络和计算机技术的人们,数字化信息将影响美国的安全我们的权利。 Asagesw最后,您将收到一份与您的oredi gi tali表格有关的通知...

本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/shumachanpin/article-372070-1.html
他们要来就来吧