在计算机和互联网的世界里,文件的格式林林总总不下几千种,常见的文档格式有:.doc文件、.ppt文件、.pdf文件、.rar文件、.eml文件,等等。在这些文档中,数据以各自不同表示规则进行存储,还常常包含嵌套定义,因此需要对每个文档格式进行具体的分析,提取用户感兴趣的数据。
此外,在网络传输过程中,信息是以网络包为单位进行传输的,一个文档常常由多个网络包组成。在某些实时网络应用中,等待所有的网络包到齐然后才进行文档格式分析是不现实的,它们要求每到来一个网络包,就分析一段文档,这就要求提供增量式的、流式的文档格式分析功能。
I3S DocAnalyze提供了丰富的文档格式分析功能,能够准确解析当前互联网上的主流文档格式,包括:PDF格式、CHM格式、RAR格式、EML格式、RTF格式、ZIP格式、Office系列格式,等等。此外,I3S DocFormat还提供网络流式的格式分析功能,无需等待文档的全部数据到来,即可对部分数据进行分析,并及时返回分析结果。