【VBA】ADOを使ったテキストファイル(CSV)の読み込みについて調べてみた。ついでに、Line Input と速度を比べてみた。
タイトルに「比べてみた」と書いてあるけど、ADOでの処理や設定についてがメインだったりするので、結果だけ知りたい場合は、ずっと下の結果へ・・・
処理の流れ
- 事前準備
- Schema.ini ファイルの作成
- Connection オブジェクトの生成
- プロバイダの指定
- 処理対象ファイルのあるフォルダの指定
- プロパティの指定
- Open
- Recordset オブジェクトの生成
- Cursorの指定
- 排他処理(Lock)の指定
- SQLの指定
- Open
- データの取得
- データ読み込み
- 後処理
- Recordset オブジェクト、Connection オブジェクトを閉じて、開放
ADO
Schema.ini ファイル (テキスト ファイル ドライバー)
Schema.ini ファイルとは
Scema.ini というテーブル情報の設定ファイルを併用することで、テキストファイルの定義情報を指定し、ADOでその定義情報に従った形で読み込むとが可能となる。
Schema.ini については、以下参照。
docs.microsoft.com
Schema.ini の設定については、以下参照。
docs.microsoft.com
INIファイルの構成、書き方
INIファイルは、
- セクション
- キー
- 値
から構成され、以下のように構成されている。
[セクション1] キー11=値11 キー12=値12 キー13=値13 ;コメント(必要であれば) ・ ・ ・ [セクション2] キー21=値21 キー22=値22 キー23=値23 ・ ・ ・
Schema.ini では、
セクション | ファイル名 |
---|---|
キー | 設定項目名 |
値 | 設定項目の設定値 |
を書く。
設定項目
キーと値については、以下のような項目を設定することが出来る。
項目 | キー | 値 | 備考 |
---|---|---|---|
文字セット | CharacterSet | 932 | Shift-JIS |
65001 | UTF-8 | ||
ファイル書式 | Format | CSVDelimited | CSV |
TabDelimited | TSV(Tab区切り) | ||
Delimited(custom character) | 任意の文字での区切り | ||
FixedLength | 固定長 | ||
ヘッダ行の有無 | ColNameHeader | True | 先頭行をフィールド名として扱う |
False | 先頭行をデータとして扱う | ||
フィールドのデータ型を決定するためスキャンするレコード数 | MaxScanRows | 0 | 全レコードをスキャンする |
n | 先頭からnレコード目までに格納されているレコードをスキャン | ||
フィールド定義 | Coln | フィールド名 | |
データ型 | 下表参照 | ||
長さ | 固定長の場合 Width nn |
Coln=フィールド名 データ型 [Width 長さ]
n:列番号(Col1、Col2・・・)
データ型
以下の型を指定できます。
種別 | 型 | 備考 |
---|---|---|
Microsoft Jet のデータ型 | Bit | |
Byte | ||
Short | ||
Long | ||
Currency | ||
Single | ||
Double | ||
DateTime | ||
Text | ||
Memo | ||
ODBC のデータ型 | Char | Text |
Float | Double | |
Integer | Long Integer | |
LongChar | Blob | |
Date |
MaxScanRowsについて
あくまでもフィールドのデータ型を決定するためにスキャンするレコード数であって、レコードセットに取得するレコード数の制限ではないようです。
デフォルト値は、25だそうです。
dobon.net
記入例
[CSV100000.csv] CharacterSet=932 Format=CSVDelimited ColNameHeader=True Col1=F1 Text Col2=F2 Text Col3=F3 Text Col4=F4 Text Col5=F5 Text Col6=F6 Text Col7=F7 Text Col8=F8 Text Col9=F9 Text Col10=F10 Text [CSV1000000_UTF8.csv] CharacterSet=65001 Format=CSVDelimited ColNameHeader=True Col1=F1 Text Col2=F2 Text Col3=F3 Text Col4=F4 Text Col5=F5 Text Col6=F6 Text Col7=F7 Text Col8=F8 Text Col9=F9 Text Col10=F10 Text [Sample1.csv] CharacterSet=932 Format=CSVDelimited ColNameHeader=True Col1=F1 Short Col2=F2 Long Col3=F3 Text [Sample2.ssv] CharacterSet=932 ;スペース区切り "("と")"の間に、半角スペースがある Format=Delimited( ) ColNameHeader=False Col1=ID Short Col2=品名 Text Width 20 Col3=金額 Integer
余談ですが、スペース区切りのフォーマットは、SSV と言われることもあるそうです。
TSVは知っていたけど、SSVとかDSVとかは知らなかった。
類似したフォーマットとして、タブで区切られた tab-separated values (TSV)や、欧文間隔 (いわゆる半角スペース) で区切られた space-separated values (SSV) などがあり、これらをまとめて character-separated values (CSV)、delimiter-separated values (DSV) とも呼ばれることも多い。
Comma-Separated Values - Wikipedia
Connection オブジェクト
Connection オブジェクトについては、以下参照。
docs.microsoft.com
ConnectionString
対象ファイルに接続するための文字列を設定する必要があります。
以下の項目を設定します。
項目 | 値 | 備考 |
---|---|---|
Provider | Microsoft.ACE.OLEDB.12.0 Microsoft.Jet.OLEDB.4.0 |
Office 2007以降は、ACE それより前は、Jet |
Data Source | 対象ファイルのあるフォルダパス | ファイルパスではない |
Extended Properties | Text | データベースの種類が、テキストファイル |
HDR=Yes | 1行目をヘッダとして扱う場合 Yesを指定する 1行目からデータの場合は、No を指定する |
|
FMT=Delimited | CSVファイルの場合は、Delimitedを指定 |
各値の間には、";" を挟む。
Extended Properties の値は、「"」で括る。
記入例
Provider=Microsoft.ACE.OLEDB.12.0;Data Source=C:\Datas\;Extended Properties="Text;HDR=Yes;FMT=Delimited"
ConnectionString の HDR と Schema.ini の ColNameHeader
どちらも先頭行に対する扱いの指定ですが、双方の指定が異なった場合、Schema.ini の設定が優先されるようです。
結果としては、schema.iniファイルにフィールド定義情報がある場合は、そちらが優先される。
https://antonsan.net/vt/excel-db/heading-4/page-046
HDR=NO の設定がある場合、先頭行もデータとして取り込まれる。
Command オブジェクト
Command オブジェクトについては、以下を参照。
docs.microsoft.com
以下の項目を設定します。
プロパティ | 設定する値 | 備考 |
---|---|---|
ActiveConnection | Connection オブジェクト | |
CommandType | adCmdText | 引数をコマンド文字列として評価 |
CommandText | データを取得するためのSQL | テーブル名部分をファイル名とし、 [ ] で括る ファイル名と[ ] の間にスペースを含めない 例:SELECT * FROM [Sample.csv] |
SQL
ファイルから読み込むデータの指定を行う。
無条件に、全データを読み込む場合
SELECT * FROM [ファイル名]
特定のフィールドのみを指定して読み込む場合
SELECT フィールド名1,フィールド名2,・・・ FROM [ファイル名]
フィールド名nは、CSVファイルのヘッダ行に記載されている物を指定する。
HDR=No; を指定して読み込んだ場合には、ヘッダ行がないので、その場合には、
F1、F2 のように "F" + 何列目のデータかの番号 を指定する。
指定する順番は、ファイルの列の順番と一致していなくても構わない。(後ろの列を先に指定しても良い)
SELECT F1,F3 FROM [ファイル名] SELECT F5,F2 FROM [ファイル名]
SQLでは、いろいろな事が出来るので、興味がある方は、以下のようなキーワードを例にして調べてみて下さい。
抽出条件の指定:WHERE
並べ替え:ORDER BY
集計:GROUP BY
複数ファイルの結合:JOIN
サブクエリー
ワイルドカード
UNION
カーソル
カーソルについては、以下を参照。
docs.microsoft.com
CursorLocation
クライアント側カーソルの明確な利点の 1 つは、反応が速いことです。結果セットがクライアント コンピューターにダウンロードされた後は、非常に迅速に行を参照できます。
カーソル位置の重要性 | Microsoft Docs
ファイルサイズが大きいCSVファイルの場合、上記のダウンロード相当部分に時間がかかり、結果的にサーバー側カーソルの方が速い場合もあります。
実行環境に応じたカーソル位置を選択して下さい。
選択肢は以下の通りです。
CursorLocationEnum
定数 | 値 | 備考 |
---|---|---|
adUseServer | 2 | サーバー側 |
adUseClient | 3 | クライアント側 |
CursorType
カーソルの種類については、以下を参照。
docs.microsoft.com
選択肢は以下の通りです。
CursorTypeEnum
定数 | 値 | 備考 |
---|---|---|
adOpenForwardOnly | 0 | 前方スクロールタイプ 既定値 |
adOpenKeyset | 1 | キーセットカーソル |
adOpenDynamic | 2 | 動的カーソル |
adOpenStatic | 3 | 静的カーソル |
通常の読み込み作業(先頭から最後まで1回だけ読み込む)の場合には、adOpenForwardOnly で問題ないと思います。
Recordset オブジェクト
Recordset オブジェクトについては、以下参照。
docs.microsoft.com
カーソル情報(前述)及びレコードに適用されるロックの種類を設定します。
- CursorLocation
- CursorType
- LockType
LockType プロパティ
LockType プロパティについては、以下参照。
docs.microsoft.com
LockTypeEnum
定数 | 値 | 備考 |
---|---|---|
adLockReadOnly | 1 | 読み取り専用 既定値 |
adLockPessimistic | 2 | レコードごとの排他的ロック |
adLockOptimistic | 3 | レコードごとの共有的ロック |
adLockBatchOptimistic | 4 | 共有的バッチ更新 |
ローカルファイルの読み込み作業の場合には、adLockReadOnly で問題ないと思います。
RecordCount
RecordsetをOpenした後に、RecordCountプロパティにより、読み込んだレコードの件数を取得できる場合があります。
CursorLocation プロパティとCursorType プロパティの組み合わせにより、以下のようになります。
CursorLocation プロパティ | CursorType プロパティ | RecordCount 値 |
---|---|---|
adUseServer | adOpenForwardOnly | -1 |
adOpenKeyset | レコード数 | |
adOpenDynamic | -1 | |
adOpenStatic | レコード数 | adUseClient | adOpenForwardOnly | レコード数 |
adOpenKeyset | ||
adOpenDynamic | ||
adOpenStatic |
ソース
以下のコードを実行するには、予め、
Microsoft ActiveX Data Objects 6.X Library
を参照設定する必要があります。
Private Const TARGET_FOLDER As String = "C:\Datas\" Private Const TARGET_NAME As String = "CSV10.csv" Public Sub readByAdo() Dim cn As ADODB.Connection Dim cmd As ADODB.Command Dim rs As ADODB.Recordset Dim lRecords As Long Dim i As Long Dim sgStart As Single Dim sgStop As Single sgStart = Timer On Error GoTo ERR_EXIT Set cn = New ADODB.Connection cn.Open "Provider=Microsoft.ACE.OLEDB.12.0;" _ & "Data Source=" & TARGET_FOLDER & ";" _ & "Extended Properties=""Text;" _ & "HDR=Yes;" _ & "FMT=Delimited""" Set cmd = New ADODB.Command Set cmd.ActiveConnection = cn cmd.CommandType = adCmdText 'データを取得するためのSQL cmd.CommandText = "SELECT * FROM [" & TARGET_NAME & "]" Set rs = New ADODB.Recordset 'カーソルとロックの設定 rs.CursorLocation = adUseServer rs.CursorType = adOpenForwardOnly rs.LockType = adLockReadOnly rs.Open cmd 'rs.RecordCountを取得するには '1.adUseClientを使用する ' (CursorTypはどれを指定しても可) 'または '2.adUseServerを使用し、かつ ' CursorTypeを次のいずれかにする ' adOpenKeyset ' adOpenStatic ' lRecords = rs.RecordCount lRecords = 10 Do Until rs.EOF For i = 0 To rs.Fields.Count - 1 Debug.Print rs.Fields(i).Value & " "; Next i Debug.Print "" rs.MoveNext Loop ERR_EXIT: If Err.Number <> 0 Then 'エラーがあればログ出力 Debug.Print "[" & Err.Source & "]" & "[" & CStr(Err.Number) & "] " & Err.Description End If If Not rs Is Nothing Then If rs.State = adStateOpen Then 'レコードセットのインスタンスが生成されていて、かつ開いていたら、閉じる rs.Close End If Set rs = Nothing End If If Not cmd Is Nothing Then 'アクティブコネクションへの参照を破棄する Set cmd.ActiveConnection = Nothing Set cmd = Nothing End If If Not cn Is Nothing Then If cn.State = adStateOpen Then 'コネクションのインスタンスが生成されていて、かつ接続済みならば、閉じる cn.Close End If Set cn = Nothing End If sgStop = Timer Debug.Print "Done. [ " & Format$(sgStop - sgStart, "0.00") & " sec.][ " & CStr(lRecords) & " records.]" End Sub
サンプルデータ
ヘッダ行あり。
10列×10レコード。
F1,F2,F3,F4,F5,F6,F7,F8,F9,F10
AA0000001,AB0000001,AC0000001,AD0000001,AE0000001,AF0000001,AG0000001,AH0000001,AI0000001,AJ0000001
AA0000002,AB0000002,AC0000002,AD0000002,AE0000002,AF0000002,AG0000002,AH0000002,AI0000002,AJ0000002
AA0000003,AB0000003,AC0000003,AD0000003,AE0000003,AF0000003,AG0000003,AH0000003,AI0000003,AJ0000003
AA0000004,AB0000004,AC0000004,AD0000004,AE0000004,AF0000004,AG0000004,AH0000004,AI0000004,AJ0000004
AA0000005,AB0000005,AC0000005,AD0000005,AE0000005,AF0000005,AG0000005,AH0000005,AI0000005,AJ0000005
AA0000006,AB0000006,AC0000006,AD0000006,AE0000006,AF0000006,AG0000006,AH0000006,AI0000006,AJ0000006
AA0000007,AB0000007,AC0000007,AD0000007,AE0000007,AF0000007,AG0000007,AH0000007,AI0000007,AJ0000007
AA0000008,AB0000008,AC0000008,AD0000008,AE0000008,AF0000008,AG0000008,AH0000008,AI0000008,AJ0000008
AA0000009,AB0000009,AC0000009,AD0000009,AE0000009,AF0000009,AG0000009,AH0000009,AI0000009,AJ0000009
AA0000010,AB0000010,AC0000010,AD0000010,AE0000010,AF0000010,AG0000010,AH0000010,AI0000010,AJ0000010
実行結果
call readByAdo
AA0000001 AB0000001 AC0000001 AD0000001 AE0000001 AF0000001 AG0000001 AH0000001 AI0000001 AJ0000001
AA0000002 AB0000002 AC0000002 AD0000002 AE0000002 AF0000002 AG0000002 AH0000002 AI0000002 AJ0000002
AA0000003 AB0000003 AC0000003 AD0000003 AE0000003 AF0000003 AG0000003 AH0000003 AI0000003 AJ0000003
AA0000004 AB0000004 AC0000004 AD0000004 AE0000004 AF0000004 AG0000004 AH0000004 AI0000004 AJ0000004
AA0000005 AB0000005 AC0000005 AD0000005 AE0000005 AF0000005 AG0000005 AH0000005 AI0000005 AJ0000005
AA0000006 AB0000006 AC0000006 AD0000006 AE0000006 AF0000006 AG0000006 AH0000006 AI0000006 AJ0000006
AA0000007 AB0000007 AC0000007 AD0000007 AE0000007 AF0000007 AG0000007 AH0000007 AI0000007 AJ0000007
AA0000008 AB0000008 AC0000008 AD0000008 AE0000008 AF0000008 AG0000008 AH0000008 AI0000008 AJ0000008
AA0000009 AB0000009 AC0000009 AD0000009 AE0000009 AF0000009 AG0000009 AH0000009 AI0000009 AJ0000009
AA0000010 AB0000010 AC0000010 AD0000010 AE0000010 AF0000010 AG0000010 AH0000010 AI0000010 AJ0000010
Done. [ 0.31 sec.][ 10 records.]
参考データ
Open + Line Input との速度比較
Open ステートメント + Line Input ステートメントを使用したコードと速度を比較してみた。
使用したコード
Public Sub readByOpen() Dim iFileNo As Integer Dim sLine As String Dim vLineItems As Variant Dim lRecords As Long Dim vRecords() As Variant Dim sgStart As Single Dim sgStop As Single sgStart = Timer lRecords = 0 ' ReDim vRecords(lRecords) ReDim vRecords(9) iFileNo = FreeFile Open TARGET_FOLDER & TARGET_NAME For Input As iFileNo 'ヘッダ行読み捨て Line Input #iFileNo, sLine Do Until EOF(iFileNo) Line Input #iFileNo, sLine vLineItems = Split(sLine, ",") ' ReDim Preserve vRecords(lRecords) vRecords(lRecords) = vLineItems lRecords = lRecords + 1 Loop Close iFileNo sgStop = Timer Debug.Print "Done. [ " & Format$(sgStop - sgStart, "0.00") & " sec.][ " & CStr(lRecords) & " records.]" End Sub
結果
単位は秒。
各レコード、各フィールドの値のDebug.Printなし。
レコード数が少ない場合は、Open + Line Input の方が速い。
100,000件以上では、ADOの方が速く、件数が増えるほど差が大きくなっている。
レコード数 | readByAdo | readByOpen Preserveあり | readByOpen Preserveなし |
---|---|---|---|
10 | 0.28 | 0.00 | 0.00 |
10,000 | 0.33 | 0.11 | 0.11 |
100,000 | 0.72 | 1.09 | 0.92 |
500,000 | 2.43 | 10.77 | 4.53 |
1,000,000 | 4.54 | 33.50 | 9.09 |
カーソル、LockTypeによる影響
今回は、省略しましたが、
- CursorLocation
- CursorType
- LockType
が変わると、処理時間も変わるようです。
機会があれば、まとめて掲載するかも知れません。
類似記事
2019/10/26 追記
UTF-8 の読み込み処理として、ADODB.Recordset と ADODB.Stream の比較記事があります。
z1000s.hatenablog.com
z1000s.hatenablog.com