您的位置：首页 > 其它

关于使用cspreadsheet读写EXCEL表格数据的问题

2016-05-07 14:34 507 查看

前几天项目有读写EXCEL表格的需求，我就找了大概有几种，大致分为：COM方法、ODBC方法、OLE方法、纯底层格式分析方法。由于COM方法要求必须安装有OFFICE的EXCEL组件，纯底层格式分析方法又很多功能需要自行去完善，所有最终选择了数据库的方法，用数据库的方法去存取xls格式的数据。网上有一个高手写的CSpreedSheet，看了一下提供的接口，感觉挺好用的。在使用的过程中发现几个问题，做如下探讨：

1 cspreadsheet的构造问题：

CSpreadSheet(CString File, CString SheetOrSeparator, bool Backup = true);

第一个参数不用多说，是xls文件的全路径；

第二个参数也不用多说，是xls其中某一个表格的名字，不过有趣的是，如果你不确定表格的名称，可以用空字符串代替，它便会默认读取第一个表格；

第三个参数默认为true，我觉得这个参数是很有问题的。这个参数为true的原始意义是读取表格时额外做个备份，但是如果你的xls表格不是每列每行都全有数据的时候，它便会严重破坏你的表格数据，这可能是作者的无心之失，实验的数据可能全是满值的结果吧。这个问题想改也很容易，就是删除表格重新写入的过程。所以我构造这个对象的时候最后一个参数为false，我不需要有备份，这样便会省去删除表格又重新写的麻烦了。

2 AddCell问题，四参数的那个：

bool AddCell(CString CellValue, CString column, long row = 0, bool Auto = true);

如果你想添加一个新列，就必须得到你想添加在哪一列，分析当最后一个参数添加新列的方式：

（1）当最后一个参数为true时具体代号在EXCEL中可以看出，第一列是“A”，第二列为“B”，以此类推，传入的第二个参数必须是“A”、“B”...如果你想在没有数据的下一列生成新列，方法就是先用GetTotalColumns()获得总的列数，然后“A”代表65，新的一列的值为 65 + 总列数 - 1，再转换成ASCII字符传进去就OK了。

（2）当最后一个参数为false时，第二个参数就只能传入列头了，比如xls表其中一个列头名为Age,则传入第二个参数就传入“Age”,只能代替原有表格的数据，但是当你想添加新列，列头名为Tel的时候，就不能做了，原因是作者没有考虑到最后一个参数为false的时候，添加新列的情况。

这个问题也很简单，我做了如下修改，便可以用AddCell("Tel","Tel",0,false)用新表头来创建新列了，

bool CSpreadSheet::AddCell(CString CellValue, CString column, long row, bool Auto)

{

short columnIndex = CalculateColumnNumber(column, Auto);

if (columnIndex == 0)

{

columnIndex = m_aFieldNames.GetSize()+1;

}

if (AddCell(CellValue, columnIndex, row))

{

return true;

}

return false;

}

这样修改的目的就是当在原有的列头中搜索，没有发现就认定为新的列，返回一个列的列号。

3 第三个问题相信有很多朋友都遇到过，就是用cspreadsheet生成的表格，每个格子里的数据左上方会有一个上逗号的标志：“’” 虽然不影响读取数据，但影响了美观。

起初我怀疑是写入表格的时候所有数据前有个多余的“’”符号，但我跟踪代码后并没有发现，后来找了个新的读写EXCEL的开源库 ExcelFormat_src，发现写入的也是有“’”符号，这两种都是用的数据库方式。所以，我断定这个数据库方式特点，“’”符号代表是字符串类型的。

出现这个情况的原因就是CSpreadSheet将所有的数据类型都按一种称为万能类型的字符串类型，这种处理方式虽然简单，但是却忽略了每一列的数据类型，在数据库中每一列代表每一个字段。

于是我将CSpreadSheet源代码修改了一下，用来区别开字符串类型和数字类型，加入了PUBLIC成员变量vector<BOOL> vecNumOrAlp;

它的含义就是为了表征每一列的数据类型，FALSE时为字符串类型，TRUE为数值类型。

然后修改AddRow函数的代码：

将m_stempSql.Format("\"%s\"%s", RowValues.GetAt(i), m_sSeparator);替换为：

if(!vecNumOrAlp[i])

m_stempSql.Format("\"%s\"%s", RowValues.GetAt(i), m_sSeparator);

else

{

float f = atof((LPCSTR)RowValues.GetAt(i));

m_stempSql.Format("\"%.7f\"%s", f, m_sSeparator);

}

修改Commit()代码如下：

将m_stempSql = m_stempSql + "[" + m_aFieldNames.GetAt(j) +"]" + " char(255), ";替换为：

if(！vecNumOrAlp[i])

m_stempSql = m_stempSql + "[" + m_aFieldNames.GetAt(j) +"]" + " text, ";

else

m_stempSql = m_stempSql + "[" + m_aFieldNames.GetAt(j) +"]" + " double, ";

经过如此修改，就可以区分出数值类型和字符串类型的，而且数字类型的左上角不会有”‘“符号了。当然，如果牵扯到其他类型，比如日期型，可以将vecNumOrAlp的BOOL类型改成结构体或枚举类型的，用来表征不同的数据类型。

至此我所遇到的 CSpreadSheet问题都已经解决了，如果有朋友哪里有更好的建议或者不明白的，可以随时和我探讨，使CSpreadSheet用起来更加方便，更加完美。

最近又发现点新问题，在这给大家分享一下！

1 CSpreadSheet由于采用的是数据库方式，所以有一个字段数量限制，这是微软的ADO访问数据库的一个限制，最多255个字段，多了就不行了，详情请参照微软核心代码dbcore.一般情况下，是用不到这么多字段的，所以很少人能够发现，如果用到这么大的，很遗憾，只能选用其他的exl组件了。

2 AddRow()函数问题。这个问题也有很多人没有注意到，它的效率极其低下！当然如果添加行数比较少的话，没什么影响，但是当你添加上百行数据的时候，这个函数的问题就凸现出来了。原因就在于AddRow（）函数调用了Commit()。Commit()函数的步骤相信看过代码的人都能了解： 1 删除DROP表；2 创建CREATE TABLE表；3 往表里循环写数据。也就是说每次添加行都要执行这3步，显然是不合理的，如果你只想添加第500行数据，但程序一定要将500行数据全部写入，这样效率就很低了。这个问题解释到这
解决方案很简单：每次添加新行时，不进行前两步，第三步也只写入新行。代码就不在此贴出了，相信大多数人都会改，如果有人需要的话，也可以在我的博客留言。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航