
******高中大学毕业设计(论文)开题报告论文题目:基于 OCR 的名片识笨学 专 年 班 学 姓院: *********学院 业: 级: 级: 号: 名: ********工程 201*级 **** ***** ****** ***指导老师:本科毕业设计(论文)开题报告: ****** 学号 报 告 题 目 题目来源(划√) 论文类型(划√) 报 告 日 期 姓名班级:***** 指导老师基于 OCR 的名片识笨 科研√ 生产⊙槭摇题研究〖⒗ 报告地点: 篇合 他 □工程设计类□实验研究类√2015 年 月 日一、选题目的与背景名片早已变成一种家美观的信息载体,扮演着重要的角色,日常生活和商委中, 它具有介绍、沟通、镣念等多种功能,是近代人际交往中不可缺少的名字的派生物。 当下手机、掌上电脑笔记本、电子记事簿以及 PC 机都无法完成针对名片的管理,但是经 过自动模式输入茨名片不角浪费时间,同时也耗费人的体力,除此之外也不能保证信 息的正确性和完备性,这常常促使日常生活中一直用到的设备蒙恬名片识别系统 电脑版,如电脑、掌上电脑及电子记事 簿等对名片信息的管控和使用篡扣。于是急需开发持高识雹易于操总理的名 片识背,使终端设备无法手动将名片中的内容进行保存,便于他们使用[6,7]。

基于 OCR 技墅片识报可解锯,其特点是识狈率高、复杂低跟速度 快,适用于告式的名片。所谓的 OCR 技誓是光学文字识秉是 Optical Character Recognition 的棘是运用扫描把所有书籍、文稿及材料进行扫描,再对截图文稿茁研 究分巍得字符和版面上信息的一柑[3,4]。椰采用 OCR 技市名片识雹解 拘名片识报中存在的弊端,具有相当重要的实际含义。二、研究状况汉途于 1999 年推弛一改名片识避理系统,历经 9 年的演进,功能越 来越强炊苯不断提高,成为继 PDA、手机夯杆资源管理必备软件,目 前在国内市场上销售的英文名片识背有北京汉图的汉同通、 台湾蒙趟镜拿商寤瞎夤镜淖瞎饷⑿录悠挛殴镜奈琶芗业取!昂和片通”的研发祁早,识鳖高,从 1999 年开始已研发 几妇,占全球粗形拿侗》荻畹 90%以上[4]。 目前,有一些文献探讨名片的识报,文献[8]提郴种多阶段识报,采用两种不 同类型的渗络识蹦名片; 文献[9]构造了一耕的英文名片识背, 但没法处理纯 横排机排的名片,而且假如已知待识敝体;文献[10]采用模板匹配的方式分维版面, 一可处理固定版面的名片。

这些文献没有考虑构造实际系统可能会幽困难, 比如: 名片版面复杂,文字行横竖混排;行内文字排版方犀;字符粘连;字体、字号变化频繁; 汉英双语混排;检排。由于名片识背的关键在于字符识辨面分维因此在此重 点介绍版面分沃符识毙究现状。 版面分吴有四十多年的历史,八十年代早期,版面分涡究疮中 于对布局结构较寄文本文档页面进行分割,到九十年代吃文档内部对闲逻辑标识 的研究起初止开。目前,版面分涡究未发展到对于富同领幽档引入不同 的技枢角度地科学研究,并解臼问题[2]。 字符识毙究,早在 1929 年,Taushek 就在德国凰一项有关 OCR 的专利。据记 载,印刷体汉字的识辩可以追溯至 60 年代[5]。1966 年,IBM 公司的 Casey 和 Nagy 发 表了第一篇关于印刷体汉字识臂文,在这篇论文中它们借助寄模板匹配法识?,000 涪体汉字。70 年代以来蒙恬名片识别系统 电脑版,日本专家醉多工卒中有代表性的系统有 1977 年 东芝综合研究所研制的可以识?0 钢的单体印刷汉字识背;80 年代超中国 武藏野电气研究所研制的可以识?0 稿汉字的印刷体汉字识背, 代表了后来汉字 识鳖高水准。此外,日本的二焉下、理光和富士等公司也是其研发的印刷汉字识蓖场 我国在 OCR 技舒的研究葡晚,在 70 年代才起初对数字、英文字母及符号的 识毙研究,70 年代末开始进行汉字识毙究,到 1986 年汉字识毙究进入一钢市缘慕锥危〉昧私洗晒簧傺芯康ノ幌嗉掏瞥形 OCR 产品,在中文信息处理 领愈表性的清华船 汉途等都推锄表性的产品, 其中包含汉托书五号、 六号,汉童录入系统,蒙蘎 文字扫描识别系统,清华文通的 TH-OCR97, TH-OCR2000、清华紫光的紫光 OCR[6,7]。

这些软件在文字识辨,从识比跟识毕 看,基本都超过了实用的效果,到现在为止,印刷体汉字识钡统性能有了长足进步, 系统的稳健性也受到进一步提升。三、中究内容跟步骤 1. 研究内容以印刷体纸质中文名片图溪信息来源,对名片图闲二值化、平滑去噪、倾斜校 正等预处理[1],卉够达到识奔陷。然嚎名片版面分唯,对名片的文 字区有界定。通过对文本行图闲字符切分,并进一步提取字符特招特珍,与 中的文字进行比对,最终完成英文名片文字的识别。2. 研究方式(1) 图夕理方法 由于输入设备受到的数据不可避免的存在糕在干扰 (名片图汐迹的浓淡、光洁度 等),亿对原始名片图闲识卑,尽可能将干扰夷影响减少,需要对名片图闲邪ǘ祷⑵交ピ搿⑶阈毙U谀诘脑ご聿僮佣芄淮锏绞侗枷数据。 (2) 名片版面分唯 名片版面分嘻片图现为不同区淤把其界定为不同的类别,如图片块、文本块 和线蹋虽然名片图湘面构造多种多样,仍无法将它界定成三类图舷: 1. 文字块:完全由数组构成,它包括英文、字母、数字或者戈点符号等。 2. 线毯有些名片图犀有线堂来醒目单位名称及其有关信息等,通常位于姓名 与单位名称间换名称与地址之间。 3. 图形图片块:由高躺的形状,如单位的标志等。

有时,图片块中包含字符惶疚慕溆胪夹慰楹拖咛恚计橹械男畔⒁彩怯杏玫摹 (3) 字符切分步骤 在名片信息分类过程中无法按照文本信息和位置信息灾类的准确率, 然而即使字符识 狈率较低, 致使该信息损坏了原有的使用价值。 于是, 为了提升整脯识背的性能, 灾符信息的识狈率是十分重要的一岗。 对于英文名片字符切分往往包括对字符的 粗切分和精细切分两告: 第一,对字符行进行平行投影,依据投影图所荒空白间隙对单耕仔分,粗 切分操揍存在导致不了的切分错蔚诙砸亚蟹值淖址卸侠啾檬侗宰址芯盖蟹郑ê鹤植考 合并和粘连字符的再次切分。 (4) 字符特珍方法 将识蹦字符进行特锗,分离超中涪项,从而完成信息的归类与管理,然 而针对较复杂的名片版面,采用已往的模版匹配方式进行信息分类很难达到实际的需且弥豆嬖斫饨信斜枷母畔⑾畹奶卣氤崛∽址卣行特珍,与中的文字进行比对,最终完成英文名片文字的识别。四、期望推动的研究目标才能对印刷体中文名片图闲有效预处理,对名片版面进行分卧文本行进行字符切 分,并最后识蹦名片的文字。五、旨赎1. 实现 3 种图夕理算法; 2. 实现 1 种名片版面分唯; 3. 实现文本行的字符切分; 4. 完成名片文字识别。
六、进度跟要求1-2 周 3-4 周 5-6 周 7-8 周 9-10 周 13-14 周 15-16 周 17 周 查阅相关资料,了解毕业设计的基本内容; 了解图夕理、名片版面分唯跟英文字符切分步骤; 完成 3 种图夕理算法; 完成 1 种名片版面分唯; 实现文本行的字符切分; 完成名片文字识弊幢弦瞪杓坡畚模 完成毕业矗11-12 周 实现一种字符特铡方法和特珍方法;七、治考书及参考资料[1] (美)冈萨雷斯. 数字图享 MATLAB 版(中文版). 电子工业崇, 2009.12. [2] 于 基于 Matlab 的图享. 清华寸, 2011.6. [3] 何耘娴. 印刷体文档图闲文字符识编山硕论文, 2011. [4] 汉字特铡及识毙究. 上海交通炊论文, 2010. [5] 郇政永. 基于 OCR 的英文文本校对研究. 北方工业炊论文, 2011. [6] 算. 基于 OCR 技墅片识报研究.哈尔堡炊论文, 2015. [7] 武 基于 OCR 技墅片识背的研究. 长沙理工炊论文, 2008. [8] H C Fu, C S Chen, K T Sun. Recognition of Chinese Business Cards[C]. Proc. of 5thOCR & DA conference,Hshinchu,Taiwan,1996, 169-175 [9] Yaw-Huei Chiou, His-Jian Lee .Recognition of Chinese Business Cards[C]. Proc. of 4th ICDAR, Ulm,Germany,1997, 1028-1032 [10] X Lin, X Ding, Y Wu. Automatic Input System for Chinese Business Cards[C]. Proc. of 7th ICCPOL, Hong Kong,1997, 277-280指导教师意见: 签名: 年 开题评议小组组员: 开题评议小组意见: (包括对论文的选题、难度、进度、工注论文方式意见) : 1. 论文选题: ±砺垡庖澹弧实用价值;±砺垡庖逵胧涤眉壑担 ∫宀淮2. 论文的难度: 「撸弧当;〉汀 3. 论文的工 〈当;⌒ 4. 进度: ⌒校弧可行; 5. 学生开题报告中体现驰合能力跟表达能力: 。
『茫灰话悖弧差。 6. 论文形式意见:⌒校弧可行; 7. 对论文选题报告的总体评价: 。弧好;“悖弧差。 (在相应的方块内着“√”) 组长签名: 是封论文选题报告:∫猓弧重自谙嘤Φ姆娇槟谧拧啊獭保 评议小组组员签名: 年 月 日 月 日评议结论学院意见教学副院长: 年 月 日备注:本科生毕业设计论文开题报告要 本科生选题报告内容要包含:选题目的与背景、中究内容跟方案、预期超过的目标。 2. 本科开题报告由傅负耘,公开进行;开题小组员工 3 人以上。 3. 学生在要求的时间内,写斥报告超经指导老师涩意荷傅安排开题报告时间; 开题学生自史种樱嵛 5-10 分钟。开题报告未通过者,需再次开题。 4. 开题报告必须按期完成;如有问题要尽快馅沪提?. 开题报告统一用 A4 纸、正反两面矗
本文来自电脑杂谈,转载请注明本文网址:
http://www.pc-fly.com/a/ruanjian/article-139241-1.html
犯我华夏者