プロジェクトの開始
Overview
OpenRefine では既存データを取り込むことでプロジェクトを開始します。ゼロからデータを作成する機能はありません。
どこから取り込んだデータであっても、OpenRefine は元のファイルやシステムには手を入れず、入力をコピーして独自のプロジェクトファイルを生成し、ワークスペースディレクトリに保存します。
データと編集内容はプロジェクトファイル内に自動的に保存されます。編集後に必要であれば、お好みの形式でエクスポートできます。
他人のプロジェクトを受け取って開いたり、あなたのプロジェクトを共有したりするには、プロジェクトアーカイブをエクスポート → インポートします。
データを読み込んでプロジェクトを作成する
起動すると 画面が表示され、次の入力方法から選べます:
- PC 内のファイル
- Web 上のファイル(URL)
- クリップボードへの貼り付け
- データベース(SQL)接続
- Google Drive 上のシート
読み込める形式:
- CSV/TSV
- テキスト
- 固定幅
- JSON
- XML
- ODS
- XLS/XLSX
- PC-Axis (PX)
- MARC
- RDF(JSON-LD/N3/N-Triples/Turtle/RDF/XML)
- Wikitext
拡張機能を導入するとさらに多くの形式に対応できます(拡張機能ページ参照)。
複数ファイルを指定すると入力順で読み込まれ、先頭列にソースの URL やファイル名が追加されます。共通列名はそのまま共有され、異なる列名は後ろに追加されます。
| File | Fruit | Quantity | Berry | Berry source |
|---|---|---|---|---|
| fruits.csv | Orange | 4 | ||
| fruits.csv | Apple | 6 | ||
| berries.csv | 9 | Mulberry | ||
| berries.csv | 2 | Blueberry |
行をまたいでデータを追加する形で 2 つのファイルをつなげることはできませんが、後から cross() や 追加フェッチ などで結合できます。
どの方法を選んでも、 をクリックするとプレビューとデータの解釈設定が表示されます。
このコンピュータから
を押して、ハードディスク上のファイルを選択します。すべてのファイルが表示され、多形式に対応しています。
.zip, .tar.gz, .tgz, .tar.bz2, .gz, .bz2 などの圧縮ファイルを選ぶと中身を解析し、選択して読み込めます(.rar は非対応)。複数の圧縮アーカイブを取り込む際は「Store archive file」をチェックすると抽出元の名前を保持できます。
Web アドレス (URL)
データファイルの URL を入力欄に貼り付けて追加できます。複数行追加できます。OpenRefine がダウンロードしてプレビューを表示します。
2 つ以上の URL を指定する場合は個別に読み込むかすべて選ぶかを問い、読み込み対象を選択できます。
Google シートはここではなく、Google 連携フォーム を使って読み込んでください。
クリップボード
ワードプロセッサ・スプレッドシート・PDF の表・任意のリストからコピー&ペーストできます。OpenRefine は CSV/TSV/テーブル形式を判断し、改行ごとに行を分割します。
特定の行を先にピックアップしたり、異なるソースから貼り合わせたりするのに便利です。また URL のリストを貼り付けて後からフェッチすることも可能です。
データベース (SQL)
SQL 接続で最新データを直接取得できます。オンラインカタログや管理データベースなどが該当します。同じデータベースで複数のクエリを実行する例や、単一クエリで複数列を連結する例(SELECT ... UNION)はドキュメント内で紹介されています。
オプション
詳細なインポート設定には次のタブがあります:
Original data
インポート対象の元データを確認できます。ファイルや URL でデータを増やしたい場合はこのタブに戻って追加します。
Parsing options
テキストの区切り文字や quoting 文字、ヘッダ行の有無、エラーハンドリング(10 行までのプレビューで表示)を設定します。
Preview
実際に取り込まれるスニペットとデータ型候補が表示されます。認識された型を確認し、必要があれば手動で text, number, boolean, date などに切り替えます。
Google データ
Google アカウントを認証すると Drive 上の Sheets を取り込めます。追加欄に複数のシート ID を入力可能です(例: https://docs.google.com/spreadsheets/d/.../edit#gid=0)。
スナップショット
一度プロジェクトを開いてから Snapshots を使うと、編集差分を保存して元の状態に戻したり、他人にスナップショットを共有できます。
データの例
以下のようなデータを貼り付けたりインポートして学習用途に使えます。詳細な例は付属ドキュメントや Wiki にあります。
Project history
プロジェクトの Undo/Redo と操作履歴は History に記録され、いつでも再適用できます。