绪论
研究背景与意义
随着中国信息化产业的飞速发展,地理信息体系也在各行业中的应用口益广泛起来,人们对信息化服务的需求也越来越迫切。全球的信息化正在引发当今世界的一次深刻的改革。“数字城市”是当今国家信息化发展的主要特征,是城市基础设施建设的不可缺少的重要内容之一。依据((2006-2020年国家信息化发展战略》和《南昌市2010-2020年城市总体规划》,“数字南昌”建设正处在整个提升的阶段,其目标是实现城市管理效率、政府行政效能、公共服务效果的整体提升,全面满足成功举办第七届城市运动会的信息化需求。
地址编码数据库系统是“数字南昌”的基础,建立地址编码数据库系统在数字城市地理空间框架建设中是最基础性的工作之一。地址编码是将自然语言描述的地址位置信息根据既定的地址模型和编码规则,再将其与空间坐标相关联,使得可以在地图上确定此地址数据所代表的地理实体的位置,并目_在地图上显示出来。
在人们的口常生活中,地址编码数据是非常普遍的,也是非常重要的。据有关专家分析,政府的各个职能部门所拥有的巨大的业务信息量中,有很多的部门都有一些街道、单位、小区的住址以及具名的一些具体的联系方式,但是这些信息点无法通过文字的形式来查找到期目标的位置,能将这些空间信息和非空间信息进行集成和很好的融合,建立起这之间的有效联系,将会给城市的数字化和生活带来很多便利之处。例如工商、医疗和教育等等就可以成为有坐标的空间信息,依靠这种技术,我们对工商税务管理的各个数据库就可以进行一个全面的分析,从而生成各种各样的专题信息图,如商业银行分布图、商业分布图、餐饮分布图;若是针对企事业单位进行分析,就可以生成各类的点位分布图,如学校分布图、医疗卫生分布图、图书馆分布图等;若针对房地产业进行的评估,可以生成各类专业的房产信息分布示意图,如房产分布图小区分布图等等。通过运用南昌市普查办公室的各种普查数据库中的详细的地址信息,我们便可以对海量的珍贵的普查数据进行空间可视化分析,生成教育、人口普查商业普查、住房普查、工业普查分布图,从而进一步的对房地产低价指数评估、商业选址、人口与教育布局等等进行有效的分析。
我国的城市地籍管理系统、城市智能交通系统、城市综合管网、城市规划管理系统等等全部是基十地址编码技术建立的,许多地址地名的数字资源通过地址编码技术变成了用途广泛的空间信息资源,为我们的城市规划管理等等相应的部门提供了完备的数据支撑。所以说,城市地址编码数据库的建立和地址匹配整体的形成,可以为国家、政府部门、公众、企业以及全社会良好的服务,也为了整个社会经济和资源的可持续化发展奠定良好的基础。
2国内外研究现状
2. 1国外研究现状
发达国家的信息数字化起步的比较的早,发展也非常迅速,美国就是地址编码应用最早也是最广泛的国家。早十20世纪60年代中期,美国为配合由美国国情情报局负责的人口普查,做了大量的关十地址编码的工作,研究出了“双重独立地编码系统”( Dual Independent Map Encoding,简称DIME),这对十美国的地理信息系统服务起到了很大的推动作用。其基本思想是按照各个地理要素的拓扑关系形式来进行组织数据,从建成一个地理基础文件系统。DIME系统要求,街道中心线的每一段都必须至少具备:街道名称、街道左边的起始地址、街道右边的起始地址、街道左边的结束地址与街道右边的起始地址这5个要素,街道两边的地址编号必须是一边为双、一边为单。在随后多年的进行的人口普查工作中对十普查数据的整理、分区及调查,全部都是用地理基础文件系统为参照系统进行的,DIME的研究开发在地理信息系统技术的发展历史上具有划时代的意义,一系列的企业把地址编码作为主业在那之后如雨后春笋般的诞生了。
20世纪80年代后期,为了1990年的国情普查准备,美国国情普查局又将DIME系统发展成TIGER( Topologically Integrated Geographic Encoding and Referencing)系统,意为拓扑集成的地址编码与参照系统[3-4] o TIGER数据库是包含了1990年人口普查所用的覆盖全国的地图资料库,包括所有的公路、河流、铁路、湖泊等地理特征数据,其中有一些地理特征的很详细的信息记录。例如,在人口普查的过程中,为了使计算机处理方便,必须使用地址编码来给已经划分好的普查区域分配数字代码,从替代文字的名称,再利用GIS把人口普查得到的每家每户的信息与不同的区域所联系起来,就可以总结出普查的基本地理特征。
利用地理信息系统可以对不同地域的分类信息进行统计分析,将人口普查得到的住户和个人资料与其所在地域联系起来,反映出普查资料的地理特征。TIGER数据库的内容更新很快,一般几乎每两年都会有一个新的版本发布,并目都会以各种各样的形式向广大的民众提供。只需要付很少的工本费,就可以得到所需地域TIGER数据,颇为便利。由于TIGER的数据库比较的全面,再加上其精度很高,费用也很平民化,在美国,已经作为地址编码的公认的参照系标准,在行业中影响很大。
加拿大已经完成了国家级的地址编码数据库建设,因为使用了文件系统管理地址编码数据的缘故,使得地址编码数据库具有非常高的响应速度,在全国1.5G字节的地址编码数据量超级大的情况下,进行地址匹配的时间仅仅只需要1秒钟。德国、以色列、澳大利业等国家,很早之前也进行了许多的详细的关十地址编码技术的研究工作,并目‘都已投入了使用当中。同美国一样,这些研究的成果也在各国的行政、测绘、规划等实际工作中,起到了很大的作用。
3 地址编码数据库......... 25-51
3.1 总体设计......... 25-30
3.1.1 设计依据......... 25-26
3.1.2 系统设计原则......... 26-27
3.1.3 逻辑模型设计......... 27-29
3.1.4 地址编码数据库......... 29-30
3.2 数据库结构......... 30-32
3.2.1 概念模型......... 30
3.2.2 编码规则和......... 30-32
3.3 数据采集......... 32-42
3.3.1 地址编码数据......... 32-34
3.3.2 外业采集方案......... 34-35
3.3.3 内业录入......... 35-37
3.3.4 地名数据采集......... 37-40
3.3.5 门楼数据采集......... 40
3.3.6 标准地址字典......... 40-42
3.4 地址标准化......... 42-44
3.5 数据质检......... 44-45
3.5.1 数据质检规则......... 44-45
3.6 数据更新......... 45-47
3.6.1 更新设计思路......... 45-46
3.6.2 地址数据的......... 46-47
3.7 质量与控制......... 47-48
3.7.1 影响数据质量......... 47
3.7.2 保障地址数据......... 47-48
3.8 数据入库......... 48-51
4 地址匹配方法与匹配......... 51-59
4.1 分析中文地址......... 51-52
4.2 字符串匹配......... 52-53
4.2.1 字符串匹配......... 52-53
4.3 地址匹配的方法......... 53-57
4.3.1 地址匹配......... 54-56
4.3.2 赋权值匹配......... 56
4.3.3 回退匹配......... 56-57
4.4 利用地址相关度权衡......... 57
4.5 地址匹配引擎......... 57-59
结论与展望
地址编码数据库系统作为数字城市的基础,在数字城市的地理空间框架建设中起着关键的作用,它既是一个技术问题,又是一个标准化的问题。本文在分析了国内外已有的地址编码技术基础上,基十数字南昌这个项目,阐述了我国中文地址编码数据和具体的南昌市地址数据的特点,针对这些特点探讨了适用十南昌市的地址编码模型、数据采集的方法以及地址匹配的方法。围绕着地址编码数据库建库的建设、地址匹配方法和应用系统这二个重点的研究切入点做了相关的探索,结合数字南昌的地址编码数据库系统研究与实现,主要内容概括如下:
1)对国内外地址编码技术状况进行了探析,阐述目前我国地址编码技术存在的问题与不足与其建设的必要性;描述了数据库建设所引用的标准规范和要素的分类,制定了适合南昌市的逻辑框架结构和标准数据拆分的规则,为后续的研究工作铺垫基础。