空腹おやじのログと備忘録

VBA(主にExcel)でいろいろな実験的な事とか、Linuxのコマンドとか設定とかについて忘れないように、あれこれと・・・

【VBA】ADOを使ったテキストファイル(CSV)の読み込みについて調べてみた。ついでに、Line Input と速度を比べてみた。

タイトルに「比べてみた」と書いてあるけど、ADOでの処理や設定についてがメインだったりするので、結果だけ知りたい場合は、ずっと下の結果へ・・・

環境

この記事の内容は、以下の環境下にて確認しています。

  • Windows 10 Home 64bit
  • Office 2013 32bit

処理の流れ

  1. 事前準備
    1. Schema.ini ファイルの作成
  2. Connection オブジェクトの生成
    1. プロバイダの指定
    2. 処理対象ファイルのあるフォルダの指定
    3. プロパティの指定
    4. Open
  3. Recordset オブジェクトの生成
    1. Cursorの指定
    2. 排他処理(Lock)の指定
    3. SQLの指定
    4. Open
  4. データの取得
    1. データ読み込み
  5. 後処理
    1. Recordset オブジェクト、Connection オブジェクトを閉じて、開放

ADO

Schema.ini ファイル (テキスト ファイル ドライバー)

Schema.ini ファイルとは

Scema.ini というテーブル情報の設定ファイルを併用することで、テキストファイルの定義情報を指定し、ADOでその定義情報に従った形で読み込むとが可能となる。

Schema.ini については、以下参照。
docs.microsoft.com

Schema.ini の設定については、以下参照。
docs.microsoft.com

INIファイルの構成、書き方

INIファイルは、

  • セクション
  • キー

から構成され、以下のように構成されている。

[セクション1]
キー11=11
キー12=12
キー13=13
;コメント(必要であれば)
 ・
 ・
 ・

[セクション2]
キー21=21
キー22=22
キー23=23
 ・
 ・
 ・

Schema.ini では、

セクション ファイル名
キー 設定項目名
設定項目の設定値

を書く。

設定項目

キーと値については、以下のような項目を設定することが出来る。

項目キー備考
文字セットCharacterSet932Shift-JIS
65001UTF-8
ファイル書式FormatCSVDelimitedCSV
TabDelimitedTSV(Tab区切り)
Delimited(custom character)任意の文字での区切り
FixedLength固定長
ヘッダ行の有無ColNameHeaderTrue先頭行をフィールド名として扱う
False先頭行をデータとして扱う
フィールドのデータ型を決定するためスキャンするレコード数MaxScanRows0全レコードをスキャンする
n先頭からnレコード目までに格納されているレコードをスキャン
フィールド定義Colnフィールド名
データ型下表参照
長さ固定長の場合
Width nn
フィールド定義の構文

Coln=フィールド名 データ型 [Width 長さ]

n:列番号(Col1、Col2・・・)

データ型
以下の型を指定できます。

種別備考
Microsoft Jet のデータ型Bit
Byte
Short
Long
Currency
Single
Double
DateTime
Text
Memo
ODBC のデータ型CharText
FloatDouble
IntegerLong Integer
LongCharBlob
Date

MaxScanRowsについて

あくまでもフィールドのデータ型を決定するためにスキャンするレコード数であって、レコードセットに取得するレコード数の制限ではないようです。
デフォルト値は、25だそうです。
dobon.net

記入例

[CSV100000.csv]
CharacterSet=932
Format=CSVDelimited
ColNameHeader=True
Col1=F1 Text
Col2=F2 Text
Col3=F3 Text
Col4=F4 Text
Col5=F5 Text
Col6=F6 Text
Col7=F7 Text
Col8=F8 Text
Col9=F9 Text
Col10=F10 Text

[CSV1000000_UTF8.csv]
CharacterSet=65001
Format=CSVDelimited
ColNameHeader=True
Col1=F1 Text
Col2=F2 Text
Col3=F3 Text
Col4=F4 Text
Col5=F5 Text
Col6=F6 Text
Col7=F7 Text
Col8=F8 Text
Col9=F9 Text
Col10=F10 Text

[Sample1.csv]
CharacterSet=932
Format=CSVDelimited
ColNameHeader=True
Col1=F1 Short
Col2=F2 Long
Col3=F3 Text

[Sample2.ssv]
CharacterSet=932
;スペース区切り "("と")"の間に、半角スペースがある
Format=Delimited( )
ColNameHeader=False
Col1=ID Short
Col2=品名 Text Width 20
Col3=金額 Integer

余談ですが、スペース区切りのフォーマットは、SSV と言われることもあるそうです。
TSVは知っていたけど、SSVとかDSVとかは知らなかった。

類似したフォーマットとして、タブで区切られた tab-separated values (TSV)や、欧文間隔 (いわゆる半角スペース) で区切られた space-separated values (SSV) などがあり、これらをまとめて character-separated values (CSV)、delimiter-separated values (DSV) とも呼ばれることも多い。

Comma-Separated Values - Wikipedia
その他

このファイルは必須ではないが、無い場合、正しくデータが読み込まれない場合があるらしい。
このファイルがない場合は、レジストリを参照するらしいけど、レジストリの値が変わっているとそれに従って動作する。
ちょっと怖い・・・

作成する場合は、CSVと同じフォルダに作成、配置する。

Connection オブジェクト

Connection オブジェクトについては、以下参照。
docs.microsoft.com

ConnectionString
対象ファイルに接続するための文字列を設定する必要があります。
以下の項目を設定します。

項目 備考
Provider Microsoft.ACE.OLEDB.12.0
Microsoft.Jet.OLEDB.4.0
Office 2007以降は、ACE
それより前は、Jet
Data Source 対象ファイルのあるフォルダパス ファイルパスではない
Extended Properties Text データベースの種類が、テキストファイル
HDR=Yes 1行目をヘッダとして扱う場合 Yesを指定する
1行目からデータの場合は、No を指定する
FMT=Delimited CSVファイルの場合は、Delimitedを指定
上記のデータを結合して、Connection.Open する際に渡す。
各値の間には、";" を挟む。
Extended Properties の値は、「"」で括る。

記入例

Provider=Microsoft.ACE.OLEDB.12.0;Data Source=C:\Datas\;Extended Properties="Text;HDR=Yes;FMT=Delimited"
ConnectionString の HDR と Schema.ini の ColNameHeader

どちらも先頭行に対する扱いの指定ですが、双方の指定が異なった場合、Schema.ini の設定が優先されるようです。

結果としては、schema.iniファイルにフィールド定義情報がある場合は、そちらが優先される。
HDR=NO の設定がある場合、先頭行もデータとして取り込まれる。

https://antonsan.net/vt/excel-db/heading-4/page-046

Command オブジェクト

Command オブジェクトについては、以下を参照。
docs.microsoft.com

以下の項目を設定します。

プロパティ 設定する値 備考
ActiveConnection Connection オブジェクト
CommandType adCmdText 引数をコマンド文字列として評価
CommandText データを取得するためのSQL テーブル名部分をファイル名とし、 [ ] で括る
ファイル名と[ ] の間にスペースを含めない
例:SELECT * FROM [Sample.csv]
SQL

ファイルから読み込むデータの指定を行う。
無条件に、全データを読み込む場合

SELECT * FROM [ファイル名]

特定のフィールドのみを指定して読み込む場合

SELECT フィールド名1,フィールド名2,・・・ FROM [ファイル名]

フィールド名nは、CSVファイルのヘッダ行に記載されている物を指定する。
HDR=No; を指定して読み込んだ場合には、ヘッダ行がないので、その場合には、
F1F2 のように "F" + 何列目のデータかの番号 を指定する。
指定する順番は、ファイルの列の順番と一致していなくても構わない。(後ろの列を先に指定しても良い)

SELECT F1,F3 FROM [ファイル名]
SELECT F5,F2 FROM [ファイル名]

SQLでは、いろいろな事が出来るので、興味がある方は、以下のようなキーワードを例にして調べてみて下さい。
抽出条件の指定:WHERE
並べ替え:ORDER BY
集計:GROUP BY
複数ファイルの結合:JOIN
サブクエリー
ワイルドカード
UNION

カーソル

カーソルについては、以下を参照。
docs.microsoft.com

CursorLocation

クライアント側カーソルの明確な利点の 1 つは、反応が速いことです。結果セットがクライアント コンピューターにダウンロードされた後は、非常に迅速に行を参照できます。

カーソル位置の重要性 | Microsoft Docs

ファイルサイズが大きいCSVファイルの場合、上記のダウンロード相当部分に時間がかかり、結果的にサーバー側カーソルの方が速い場合もあります。
実行環境に応じたカーソル位置を選択して下さい。

選択肢は以下の通りです。
CursorLocationEnum

定数 備考
adUseServer 2 サーバー側
adUseClient 3 クライアント側

docs.microsoft.com

CursorType

カーソルの種類については、以下を参照。
docs.microsoft.com

選択肢は以下の通りです。
CursorTypeEnum

定数 備考
adOpenForwardOnly 0 前方スクロールタイプ
既定値
adOpenKeyset 1 キーセットカーソル
adOpenDynamic 2 動的カーソル
adOpenStatic 3 静的カーソル

通常の読み込み作業(先頭から最後まで1回だけ読み込む)の場合には、adOpenForwardOnly で問題ないと思います。

Recordset オブジェクト

Recordset オブジェクトについては、以下参照。
docs.microsoft.com

カーソル情報(前述)及びレコードに適用されるロックの種類を設定します。

  • CursorLocation
  • CursorType
  • LockType
LockType プロパティ

LockType プロパティについては、以下参照。
docs.microsoft.com
LockTypeEnum

定数 備考
adLockReadOnly 1 読み取り専用
既定値
adLockPessimistic 2 レコードごとの排他的ロック
adLockOptimistic 3 レコードごとの共有的ロック
adLockBatchOptimistic 4 共有的バッチ更新

ローカルファイルの読み込み作業の場合には、adLockReadOnly で問題ないと思います。

RecordCount

RecordsetをOpenした後に、RecordCountプロパティにより、読み込んだレコードの件数を取得できる場合があります。
CursorLocation プロパティとCursorType プロパティの組み合わせにより、以下のようになります。

CursorLocation プロパティ CursorType プロパティ RecordCount 値
adUseServer adOpenForwardOnly -1
adOpenKeyset レコード数
adOpenDynamic -1
adOpenStatic レコード数
adUseClient adOpenForwardOnly レコード数
adOpenKeyset
adOpenDynamic
adOpenStatic

データの並び順

データベースの場合、明示的にORDER BY句を使用して並びを指定しない限り、レコードの順番は保証されません。
レコードの順番がファイル内の順番と一致している必要がある場合、

  • SQLでORDER BY句を使って、並びを指定する。
  • Recordsetで、Sortプロパティを使用する。(但し、CursorLocationに、adUseClient を指定する必要あり)
  • ORDER BY句で明示的に指定できない場合には、OPENステートメントを使用して読み込む方法に切り替える。

等の対応が必要です。

ソース

以下のコードを実行するには、予め、
Microsoft ActiveX Data Objects 6.X Library
を参照設定する必要があります。

Private Const TARGET_FOLDER As String = "C:\Datas\"
Private Const TARGET_NAME   As String = "CSV10.csv"

Public Sub readByAdo()

    Dim cn  As ADODB.Connection
    Dim cmd As ADODB.Command
    Dim rs  As ADODB.Recordset
    Dim lRecords    As Long
    Dim i           As Long

    Dim sgStart     As Single
    Dim sgStop      As Single

    sgStart = Timer

    On Error GoTo ERR_EXIT

    Set cn = New ADODB.Connection

    cn.Open "Provider=Microsoft.ACE.OLEDB.12.0;" _
            & "Data Source=" & TARGET_FOLDER & ";" _
            & "Extended Properties=""Text;" _
            & "HDR=Yes;" _
            & "FMT=Delimited"""

    Set cmd = New ADODB.Command

    Set cmd.ActiveConnection = cn
    cmd.CommandType = adCmdText
    'データを取得するためのSQL
    cmd.CommandText = "SELECT * FROM [" & TARGET_NAME & "]"

    Set rs = New ADODB.Recordset

    'カーソルとロックの設定
    rs.CursorLocation = adUseServer
    rs.CursorType = adOpenForwardOnly
    rs.LockType = adLockReadOnly

    rs.Open cmd

    'rs.RecordCountを取得するには
    '1.adUseClientを使用する
    '   (CursorTypはどれを指定しても可)
    'または
    '2.adUseServerを使用し、かつ
    '   CursorTypeを次のいずれかにする
    '       adOpenKeyset
    '       adOpenStatic
'    lRecords = rs.RecordCount
    lRecords = 10

    Do Until rs.EOF
        For i = 0 To rs.Fields.Count - 1
            Debug.Print rs.Fields(i).Value & " ";
        Next i

        Debug.Print ""

        rs.MoveNext
    Loop

ERR_EXIT:
    If Err.Number <> 0 Then
        'エラーがあればログ出力
        Debug.Print "[" & Err.Source & "]" & "[" & CStr(Err.Number) & "] " & Err.Description
    End If

    If Not rs Is Nothing Then
        If rs.State = adStateOpen Then
            'レコードセットのインスタンスが生成されていて、かつ開いていたら、閉じる
            rs.Close
        End If

        Set rs = Nothing
    End If

    If Not cmd Is Nothing Then
        'アクティブコネクションへの参照を破棄する
        Set cmd.ActiveConnection = Nothing

        Set cmd = Nothing
    End If

    If Not cn Is Nothing Then
        If cn.State = adStateOpen Then
            'コネクションのインスタンスが生成されていて、かつ接続済みならば、閉じる
            cn.Close
        End If

        Set cn = Nothing
    End If

    sgStop = Timer

    Debug.Print "Done. [ " & Format$(sgStop - sgStart, "0.00") & " sec.][ " & CStr(lRecords) & " records.]"

End Sub

サンプルデータ

ヘッダ行あり。
10列×10レコード。

F1,F2,F3,F4,F5,F6,F7,F8,F9,F10
AA0000001,AB0000001,AC0000001,AD0000001,AE0000001,AF0000001,AG0000001,AH0000001,AI0000001,AJ0000001
AA0000002,AB0000002,AC0000002,AD0000002,AE0000002,AF0000002,AG0000002,AH0000002,AI0000002,AJ0000002
AA0000003,AB0000003,AC0000003,AD0000003,AE0000003,AF0000003,AG0000003,AH0000003,AI0000003,AJ0000003
AA0000004,AB0000004,AC0000004,AD0000004,AE0000004,AF0000004,AG0000004,AH0000004,AI0000004,AJ0000004
AA0000005,AB0000005,AC0000005,AD0000005,AE0000005,AF0000005,AG0000005,AH0000005,AI0000005,AJ0000005
AA0000006,AB0000006,AC0000006,AD0000006,AE0000006,AF0000006,AG0000006,AH0000006,AI0000006,AJ0000006
AA0000007,AB0000007,AC0000007,AD0000007,AE0000007,AF0000007,AG0000007,AH0000007,AI0000007,AJ0000007
AA0000008,AB0000008,AC0000008,AD0000008,AE0000008,AF0000008,AG0000008,AH0000008,AI0000008,AJ0000008
AA0000009,AB0000009,AC0000009,AD0000009,AE0000009,AF0000009,AG0000009,AH0000009,AI0000009,AJ0000009
AA0000010,AB0000010,AC0000010,AD0000010,AE0000010,AF0000010,AG0000010,AH0000010,AI0000010,AJ0000010

実行結果

call readByAdo
AA0000001 AB0000001 AC0000001 AD0000001 AE0000001 AF0000001 AG0000001 AH0000001 AI0000001 AJ0000001
AA0000002 AB0000002 AC0000002 AD0000002 AE0000002 AF0000002 AG0000002 AH0000002 AI0000002 AJ0000002
AA0000003 AB0000003 AC0000003 AD0000003 AE0000003 AF0000003 AG0000003 AH0000003 AI0000003 AJ0000003
AA0000004 AB0000004 AC0000004 AD0000004 AE0000004 AF0000004 AG0000004 AH0000004 AI0000004 AJ0000004
AA0000005 AB0000005 AC0000005 AD0000005 AE0000005 AF0000005 AG0000005 AH0000005 AI0000005 AJ0000005
AA0000006 AB0000006 AC0000006 AD0000006 AE0000006 AF0000006 AG0000006 AH0000006 AI0000006 AJ0000006
AA0000007 AB0000007 AC0000007 AD0000007 AE0000007 AF0000007 AG0000007 AH0000007 AI0000007 AJ0000007
AA0000008 AB0000008 AC0000008 AD0000008 AE0000008 AF0000008 AG0000008 AH0000008 AI0000008 AJ0000008
AA0000009 AB0000009 AC0000009 AD0000009 AE0000009 AF0000009 AG0000009 AH0000009 AI0000009 AJ0000009
AA0000010 AB0000010 AC0000010 AD0000010 AE0000010 AF0000010 AG0000010 AH0000010 AI0000010 AJ0000010
Done. [ 0.31 sec.][ 10 records.]

参考データ

Open + Line Input との速度比較

Open ステートメント + Line Input ステートメントを使用したコードと速度を比較してみた。

使用したコード
Public Sub readByOpen()

    Dim iFileNo     As Integer
    Dim sLine       As String
    Dim vLineItems  As Variant
    Dim lRecords    As Long
    Dim vRecords()  As Variant
    Dim sgStart     As Single
    Dim sgStop      As Single

    sgStart = Timer

    lRecords = 0

'    ReDim vRecords(lRecords)
    ReDim vRecords(9)

    iFileNo = FreeFile

    Open TARGET_FOLDER & TARGET_NAME For Input As iFileNo

    'ヘッダ行読み捨て
    Line Input #iFileNo, sLine

    Do Until EOF(iFileNo)
        Line Input #iFileNo, sLine

        vLineItems = Split(sLine, ",")

'        ReDim Preserve vRecords(lRecords)

        vRecords(lRecords) = vLineItems

        lRecords = lRecords + 1
    Loop

    Close iFileNo

    sgStop = Timer

    Debug.Print "Done. [ " & Format$(sgStop - sgStart, "0.00") & " sec.][ " & CStr(lRecords) & " records.]"

End Sub
結果

単位は秒。
各レコード、各フィールドの値のDebug.Printなし。
レコード数が少ない場合は、Open + Line Input の方が速い。
100,000件以上では、ADOの方が速く、件数が増えるほど差が大きくなっている。

レコード数readByAdoreadByOpen
Preserveあり
readByOpen
Preserveなし
100.280.000.00
10,0000.330.110.11
100,0000.721.090.92
500,0002.4310.774.53
1,000,0004.5433.509.09

文字セット(Shift-JIS と UTF-8)の違いによる比較

同一内容で文字コードが異なるファイルを処理して速度を比較してみた。
レコード数: 1,000,000件
Schema.ini あり

結果

文字セット時間(秒)
Shift-JIS4.68
UTF-84.06
UTF-8の方が、約15%速かった。

カーソル、LockTypeによる影響

今回は、省略しましたが、

  • CursorLocation
  • CursorType
  • LockType

が変わると、処理時間も変わるようです。
機会があれば、まとめて掲載するかも知れません。

類似記事

2019/10/26 追記
UTF-8 の読み込み処理として、ADODB.Recordset と ADODB.Stream の比較記事があります。
z1000s.hatenablog.com
z1000s.hatenablog.com