码迷,mamicode.com
首页 > 其他好文 > 详细

数据转换服务

时间:2014-07-23 17:00:31      阅读:387      评论:0      收藏:0      [点我收藏+]

标签:数据转换服务   pdf文本抽取   html文件转换   

一.概要

北京红樱枫软件有限公司是一家日本企业在中国投资设立的独资软件开发公司。是目前国内数据文件格式转换领域的领先提供商。主要开发各种数据文件格式转换器、多媒体浏览器、纯文本抽出通用程序库、PDF文件生成程序库、PDF文件读取程序库、PDF文件转换器、HTML文件转换程序库等软件产品。另外我公司在XML技术领域方面也做了大量的研发工作。经过几年的努力,同日本总公司共同成功的开发了XML编辑器、XMLParser以及XSL Formatter等产品,在对XML和XSL规范的实现上是目前世界上最好的产品。目前,公司软件产品和应用解决方案已经进入政府、金融保险,信息资源管理,搜索引擎等行业,在信息检索、中文信息处理、数据挖掘和知识管理等领域获得广泛应用。公司的发展目标是成为国内数据文件格式转换软件产业的先驱。

 


二.数据转换技术的应用


随着网络信息时代的发展,数据转换技术也在不断的飞速发展。人们可以通过计算机与互联网联接,从世界各地实时的接收和发送大量、最新的信息,但在信息交换的过程中存在着一个突出的问题,就是多种多样的数据格式,给信息的有效使用带来了障碍。所以在信息时代,如何以最便捷、最可靠、最有效的方式获取所需的信息是一个很大的困扰。如何让用户在必要的时刻快速简单的得到必要的数据--HYFsoft(北京红樱枫软件有限公司)的数据格式转换技术日益受到社会的瞩目。
经过多年的不懈努力和研究,我公司已经掌握了200种以上的文件格式,并在此基础上掌握了一套分析文件格式的方法。可以为用户提供全方位的数据格式转换。我公司提供的数据格式转换有以下几大优点:

1.保证文件格式之间不失真的数据内容转换
非常真实的再现原文件格式要表现的数据内容。

2.实现文件格式之间的多方向转换
可以实现字处理之间,表计算之间、数据库之间、矢量图形之间、图像之间的数据转换,而且还以实现字处理、表计算、数据库、矢量图形、图像等上述这些不同类型的数据也可以相互进行转换。

3.不依赖于原文件作成的软件和显示技术
在数据转换过程中完全独立对文件格式进行分析转换,不需要安装生成文件的原软件。

4.支持多平台、多語言、多线程的数据转换技术
◆支持Windows9X/2000/NT、Linux、Solaris、AIX、HP-UX、Macintosh
◆支持多国语言的文字代码集合。中文简体(GB2312、GB18030、GBK),中文繁体(Big5),日文(Jis、Shift_Jis、EUC_JP),韩文(KoreanKSC),西文(ISO8859-1~15)、Unicode(UTF8、UTF16、UCS4、UCS8)等文字集合。从设计上可以支持世界上任何一种文字代码集合的文件
◆程序的多线程控制使数据格式转换软件可以在各种环境的服务器上以多线程的方式运行,实现多用户并发操作

 

三.数据转换服务


利用我公司自主开发的数据格式转换产品,面向社会各界,提供数据转换技术服务。根据用户的需求,将用户提供的原始数据文件转换为用户所需的数据文件格式。本公司向广大用户承诺,数据格式转换结果满足用户的需求,收费价格合理。为用户提供质量优良的技术服务。

 

1.PDF转换技术


PDF(Portable Document Format)文件格式是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。PDF格式文件目前已成为数字化信息事实上的一个工业标准。 
PDF具有许多其他电子文档格式无法相比的优点。PDF文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,支持特长文件,集成度和安全可靠性都较高。PDF格式文件越来越为人们广泛使用。

我公司可以提供以下数据格式到PDF格式文件的转换服务。

◆Microsoft Word文件→PDF文件的转换

(1)Microsoft Word文件的语言和版本
★中文简体版Microsoft Word 97/2000/XP
★中文繁体版Microsoft Word 97/2000/XP
★英文版Microsoft Word 97/2000/XP

(2)作成PDF文件的基本功能
将用户提供的Word文件根据PDF1.3的标准,作成PDF文件。作成PDF文件时,根据用户的需求,设定转换条件选项
★字体嵌入的设定
根据用户要求,将源Word文件中使用字体的轮廓数据嵌入到PDF文件中。该选项只限定于TrueType和Type1种类的字体嵌入。当字体不能嵌入时,用空白文字进行替代。 
★打开PDF文件口令的设定
根据用户要求,可以设定打开PDF文件的口令。设定的口令最长为32个字节文字。0x20 ~ 0x7E, 0xA1 ~ 0xDF范围以外的文字及汉字不能作为口令使用。本应用程序软件使用40-bit RC4对PDF文件进行加密。
★安全性口令的设定
根据用户要求,可以设定安全性的口令。设定的口令最长为32个字节文字。0x20 ~ 0x7E, 0xA1 ~ 0xDF范围以外的文字及汉字不能作为口令使用。
★打印不允许的设
PDF文件的内容不允许打印。
★更改文档不允许的设定
PDF文件的内容不允许更改。
★选择文本和图形不允许的设定
PDF文件的内容不允许拷贝。
★添加或更改批注及表单域不允许的设定
PDF文件的批注及表单域不允许添加或更改。
★图像类型
根据用户要求,可以指定存放在PDF文件中图像的压缩方法。有[自动],[BMP]和[JPEG]三种图像类型。当指定[自动]时,选择图像压缩后SIZE较小的压缩方法。JPEG或ZLIB。
★图像质量
根据用户要求,可以指定图像质量,指定的范围为1~100。数字越大图像质量越好。但作成的PDF文件的比较大。

◆各种图像图形文件→PDF文件的转换

(1)图像文件的种类
★BMP,GIF,TIFF,WMF,EMF,JPG,JPEG

(2)图形文件的种类
★CGM,SVG

◆文本文件→PDF文件的转换

(1)源文本文件的语言
中文简体,日文,英文

(2)源文本文件使用的文字集合
★中文简体:GB2312、GBK
★日文:Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J
★英文:ISO8859-1
★Unicode(UTF8、UTF16、UCS4、UCS8)

(3)作成PDF文件的基本功能
★语言的设定
中文简体,日文,英文
★字体的设定
依据系统设定的字体
★字体修饰的设定
下划线,取消线,粗体,斜体
★字体字号的设定
8,9,10,……72
★字体颜色的设定
48种基本颜色和16种自定义颜色
★页面设置
纸型:A4,A3,B4,B5或自定义纸的长和宽
方向:纵向和横向
余白:

◆XML+XSL文件→PDF文件的转换


我公司根据W3C策划并推广的Extensible Stylesheet Language(XSL)式样开发了XML排版,显示,打印及转换为PDF文件的XSLFormatter软件产品。利用自主开发的PDFCreator程序库,在系统不需要安装Acrobat情况下,将XML+XSL排版结果输出为PDF文件。

(1)XSLFormatterV3.0产品的功能概要
★本产品具有强大的排版功能,能将带有页眉,页脚的XML文件以页为单位进行排版。自动生成目录和索引。
★能够实现文本长度伸缩的样式。
★利用自主开发的PDFCreator程序库,在系统不需要安装Acrobat情况下,将排版结果输出为PDF文件。
★可以实现高速,大容量的排版。
★利用自主开发的SVG绘画软件,在PDF中绘画高分辨率的画像。
★支持多国语言

(2)PDFCreator程序库的技术特点
★支持文字,图像,图形以及其他一些复杂功能,如函数,阴影等;支持图像包括BMP和JPEG等格式;支持图形的Bezier曲线;利用函数,阴影等功能对图形和图像进行美化处理,制造出很强的立体感。
★支持多种语言,包括中、日、韩、西文等,并能处理特殊的泰文,阿拉伯文等。
★支持PDF的压缩功能,可以将bmp图像压缩成Jpeg格式保存到Pdf文件中,还可以将文字以Flate方式进行压缩,从而大大缩小了文件的Size。
★支持PDF的加密功能。
★支持PDF的书签、注释(包括链接注释、文本注释、取消线注释、下划线注释等多种注释)功能。
★支持字体嵌入功能。
★支持图形剪切功能。

 

2.纯文本抽出技术


DMC Text Filter是北京市红樱枫软件有限公司自主独立开发完成的,支持多平台、多线程、多语言的通用文本抽出程序库。利用该程序库可以从数十种数据文件格式中,将纯文本数据进行抽出。

(1)原数据文件的语言
中国语(简体/繁体),英语,日本语及韩国语。

(2)文本抽出时可以指定以下的文字集合
★中文简体(GB2312、GB18030、GBK)
★中文繁体(Big5)
★日文(Jis、Shift_Jis、EUC_JP、EUC_JP_Fix、ISO2022_JP、Window31J)
★韩文(KoreanKSC)
★西文(ISO8859-1~15)
★Unicode(UTF8、UTF16、UCS4、UCS8)

(3)原数据文件格式的种类
·Microsoft Word95/97/98/2000/2003/XP
·Microsoft Excel95/97/2000/2003/XP
·Microsoft PowerPoint95/97/2000/2003/XP
·Adobe PDF 1.2/1.3/1.4/1.5
·Adobe PageMaker 6.0/6.5
·Microsoft RTF
·Lotus 1-2-3 R5/97/98/2000
·Works 2000 WP/DB/SS
·一太郎 7/8/9/10/11/12/13
·OASYS V3/V4/V5/V6/V7/V8 OA2
·ClarisWorks 4.0
·AppleWorks 6
·WordPerfect Office 2000(仅限于WordPerfect 8/9 )
·Corel Presentations 9(Slide show 7/8/9)
·QuarkXPress 3.3/4
·AutoCAD R13/LT95/ R14/LT97 DXF
·AutoCAD 2000/2002
·DocuWorks Ver.4/5
·HTML
·XML

(4)文本抽出时可以指定以下的功能
★从指定的文件或嵌在文件中的OLE对象中抽出文本数据。
★从指定的文件中,将文件的属性信息进行抽出。
★从指定的文件中,抽出指定页中的文本数据。
★从设定了安全保护的PDF文件中抽出文本数据。

 

3.HTML转换技术


HTML(Hypertext Markup Language)作为World Wide Web的一个组成部分,发展很快,在短短的几年里,它已历经了HTML1.0、HTML2.0、HTML3.0和HTML4.0等多个版本。 HTML以简单精练的语法、极易掌握的通用性与易学性,使Web网页可以亲近于每一个普通人,互联网因此得以普及发展以至今日辉煌。
DMC HTML Filter是北京红樱枫软件有限公司自主独立开发完成的, 支持多平台、多线程、多语言的MS Office系列文档到HTML转换的通用程序库。利用该程序库可以将MS Word,MS Excel,MS PPT文档转换到HTML。实现用户对多种文档的统一管理、编辑、检索和浏览。

(1)原数据文件格式的种类
·Microsoft Word97/98/2000/XP
·Microsoft Excel97/2000/XP
·Microsoft PowerPoint97/2000

(2)HTML的版本
转换为HTML文件的版本为4.0

(3)浏览器的种类
HTML文件可以用以下浏览器进行浏览。
·Internet Explorer 5.01/5.5/6.0
·Netscape 4.7x/6.2以上

(4)支持的语言的种类
中文简体/繁体,日语,英语,韩国语

⑸转换的HTML文件中可以嵌入CSS语言

数据转换服务

标签:数据转换服务   pdf文本抽取   html文件转换   

原文地址:http://blog.csdn.net/hyfsoft4/article/details/38065135

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!