i7って？

2008年11月16日発売となったIntelの新CPU、Core i7。
「その速さ、ビッグバン。」というキャッチフレーズで全国のショップで大々的にアピールされているが、その性能はどれ程なのだろうか。

実はi7の演算ブロックはCore2のものをベースに改良したもので、劇的な変化はない。
それでもその性能は、最下位のi7 920でもCore2の最上位であるQX9770を凌ぐほど。
では，i7はCore2からどこが変化したのだろうか。
このページではCore i7の強化ポイントを紹介する。

仕様の変更
強化、変更された機能
追加された機能
ベンチ評価
i7のこれから
- 新ソケについて
- 結局i7は買いなの？

仕様の変更

ソケット形状

i7はLGA1366というソケットを使用してマザーボードと接続する。ダイサイズが大きくなり、Core2のLGA775ソケットとの互換は全くない。

メモリスロット

メモリはDDR3を使用し、トリプルチャンネルに対応した。
前世代でDDR3を使っていた人もデュアルチャンネル用なので、トリプルチャンネルに対応したセットを購入した方が良いだろう。

対応チップセット

以上に加え、後述の機能の拡張にともない、使用するマザーボードは大きく変化した。
今出ている9xx系ではX58、今後出てくる普及向けi7ではP55というチップセットが必要となる。この両者でもソケットが違うので互換はない。
よって、新規にi7でPCを組む場合には、最低限マザーボードとメモリは新しく買う必要が出てくる。
さらに、CPUクーラーも流用できず、消費電力の高さから電源も換えなければならなくなる可能性もある。　
クーラーをLGA1366に変更するリテンションキットも売っているので対応しているか要確認

強化、変更された機能

ネイティブクアッドコア化

Core2Quadのコアは、デュアルコアを二つ搭載したものだったが、i7からは一つのシリコンダイに4つのコアを搭載した。
これにより4つのコアを共有するキャッシュを搭載できるようになり、3つ以上のコアの協調がスムーズになったり，3つ以上のスレッドでの動作がより効率的になると思われる。

キャッシュ構造の変化

Core2のキャッシュ構造

　　一次:命令32KB、データ32KB×4　共有二次：6MB×2

i7のキャッシュ構造

　　一次：命令32KB、データ32KB×4　二次：256KB×4　共有三次：8MB

このように、各コアに一次、二次キャッシュを持ち、三次キャッシュをすべてのコアで共有している。
この最大の利点は、先述の通り、各コアでの協調がよりスムーズになる点である。
トータルの容量ではi7の方が少ないが、キャッシュ容量は大きくなるとメモリーアドレスを管理する「タグRAM」とのアクセスで遅延(レイテンシ)が生じるため、でかければ良いというものでもないらしい。

また、Intelはキャッシュ処理に「インクルーシブキャッシュ」という方式を採用している。
これは各次キャッシュが同じデータを持つことを許可する仕組みのことで、同一データの存在を確認する必要がないため、アクセス速度が向上するが、反面、無駄な容量を消費してしまう。しかし2次キャッシュが256KBであれば、3次キャッシュで無駄になる容量は最大でも256KB×4の1MBで済む。
これも二次キャッシュ容量が小さい理由の一つだと思われる。

さらに、三次キャッシュに後述のQPIとメモリーコントローラーを接続することで、データ伝送も高速化が可能になった。

CPUへのメモリーコントローラー統合

core2世代は、メモリーコントローラーをマザーボードのノースブリッジに搭載して、FSBを用いてCPU～ノースブリッジ間のデータ転送を行っていた。
しかし昨今、メモリの高速化が進む上で、これ以上FSBを高速化すると、マザーボード上の配線を作るのが難しくなるという弊害がでてきた。
現在でも、マルチCPU環境を作るのにE-ATXサイズの大掛かりな装備が必要となっていることからもFSBの限界が見え隠れしている。
そもそもマルチCPU環境の作りやすさが利点だったFSBが足を引っ張るなら、CPUとメモリーコントローラーを分離する必要は無くなったというわけだ。

トリプルチャンネルメモリ

今回メモリーコントローラーを統合するに当たり、新たに3チャンネルメモリへの対応がなされた。
X58マザーボードではこれに伴い、メモリスロットが3スロット、あるいは3×2スロット用意されている。
DDR3-1333メモリ1チャンネルで10.7GB/s、3チャンネルなら32.0GB/sという驚異的な転送速度である。

FSBの廃止、QPIの採用

QPIは、CPU内に搭載され、チップセットとのデータ転送を行う。
送信、受信ともに、20本のデータレーン(1本はエラー検出)で伝送を行うパラレルバスとなる。
転送レートは動作周波数の2倍となり、i7 965の3.2GHzならば6.4GHZ相当の25.6GB/sになる。
FSBが1600MHzのQX9770でも12.8GB/sなので、相当な違いだと分かる。

LSDの位置変更

マイクロアーキテクチャ自体にあまり変化がない中で、一番の変化といえばLSDの配置変更かもしれない。
LSDとは、プログラム中のループ処理を検出して保持するCPU内の処理機構のこと。
Core2シリーズでは、フェッチ、プリデコード、LSD、デコードという順番で配置されていたが、i7ではフェッチ、プリデコード、デコード、LSDという順番に置き換わっている。これのなにが良いかというと、CPU内での電力の3,4割をデコーダーが消費しているからだ。LSDがループ処理を検出すると、以降LSDが命令を供給し、デコーダーが停止する。これにより、消費電力の低下が期待できるわけだ。

TLBの拡張

TLBはプログラムが認識しているメモリアドレスと実際に保存されている物理アドレスを変換するキャッシュである。i7ではこの容量が強化された。
詳しく書くとキリがないので書かないが、1スレッド当たりのエントリー数を増加させることで、後述のハイパースレッティングの効率を上げていると思われる。

SSE4.2

新しい拡張命令だが、今のところこの拡張命令を使用するアプリケーションはほとんど無い。
パターン検出に関する処理に使われるらしい。64bit世代に効果を発揮するかも知れない。

追加された機能

Hyper-Threading

ハイパースレッティング(以下、HT)とは、1つのコアで2つのスレッドを動作させる機能のこと。
i7はクアッドコアなので、OSから見ると論理CPUは8個に見える。
Pentium4でも搭載されたが、あまりパッとしなかったHTだが、今回は事情が違う。理由は二つ。
一つはコア数が増えたこと。もう一つが複数スレッド処理を行うアプリケーションが増えたことである。
コア数が多くなることで、実況ユニットが無駄に待機しているような状態での効率的な処理配分が可能になる。
また、単調で、動作が決められた処理を実行するソフト、たとえば動画のエンコードソフト等では、8スレッド動作の威力は絶大である。
ということになっているが、Avisynth・Aviutlを用いてx264,DivXでHTオン時とオフ時でエンコード時間を比べてみたがほとんど変わらなかった。
ただ、HTオフ時は各コアの負荷60%程度だったのに対し、HTオン時は各コアの負荷が40%程度であった@AviUtl+x264
なので、HTオン時は同時に二つの動画をエンコードしてもパフォーマンスが下がらないがHTオフ時だと若干のパフォーマンスダウンがある。(エンコード時間にして約10%ほど増加した)
ただHTをオンにすることによって温度がオフ時に比べ7～12度くらい上昇するのでオンにすべきどうかは何を重視するかによるだろう。

Turbo Boost Technology

ターボモードと呼ばれる。簡単に言えば自動オーバークロックモードといったところ。
　・全コアがフル動作している場合→定格で動作
　・幾つかのコアがフル稼働で、残りが休止状態の場合→ベースクロック1段階クロックが上がる
　・一段階ブーストしても全体の動作に余裕がある場合→一つのコアがさらに1段階クロックが上がる
　・全コアが稼動しているが余裕のある場合→全てのコアが1段階クロックが上がる
Intel曰く、ユーザーによるOCと違って、ターボモードでのOCによる安定性の低下はない、とのこと。
i7 Extremeでは、この倍率を変更可能だ。

PowerGate

パワーゲートは、C6ステートにおける待機電力を大幅に低下させる仕組みである。
C6ステートは、待機時電力を下げるもので、Core2シリーズに実装されていた機能だが、i7ではこれを完成させたような形になった。
Core2シリーズでは、C6ステート時に外部のVRMの電圧を低下させるが、漏れ電流が流れたり、1つのVRMから2つのコアに電力を供給する構造だったため、電圧が0とはならなかった。しかしi7では、CPU内の電源を、コア、メモリーコントローラー、アンコアの3ブロックに分けて供給するようにしてあり、他のコアの状態と無関係に電力をカット、供給電圧を0にすることを可能にした。

EPT

仮想マシンを使用する際、今までは仮想化ソフトがメモリアドレスの変換を行っていたが、EPTを搭載することで、CPU内部のハードウェアでメモリアドレスを管理することになり、仮想マシンの性能低下を防ぐことが可能だ。

ベンチ評価

HT、ターボモードの効果は確かに見られる。複数スレッドでも、シングルスレッドでもかなりの高速処理が可能。
トリプルチャンネルの転送速度は圧倒的。しかしチャンネル数による性能差は誤差程度。使い切るには相当なメモリアクセスを行う処理が必要か
QPI帯域はFSBと比べると膨大だが、現状ではあまり使いきれていないと思われる。今後に期待。
64bitOSだとアプリケーションによっては1,2割高速になることも
消費電力はかなり幅が広い。高負荷時には相当な電力消費だが、アイドル時はどのCPUもほぼ一定値となり、PowerGateの効果を感じる。

i7のこれから

新ソケについて

2009年には、低価格版のi7、LynnfieldとHavendaleが発売される。
これらはLGA1156という、i7 9xxシリーズのソケットとはまた別の仕様となり、互換がない。また、メモリはDDR3のデュアルチャンネルである。
これにより、LGA1366を使用するi7の寿命を気にする声もあるが、Intelが言うには、それぞれ別の客層に向けているため、短命に終わることはないとのこと。

次のLGA1366のCPUとされるNehalem-EXも発表されている。
8コア、16スレッドという未知の領域に踏み出せるので、是非期待して待っていよう。

結局i7は買いなの？

色々調べてきたが、結局i7はCore2の完成度を上げたようなCPUで、非常に高性能、高効率なものに仕上がっている。
ベンチマークでも最下位のi7 920がQX9770並の性能を叩き出すなど、確かな性能を発揮している。
規格の変更にともない、投資額が大きくなるのが欠点といえば欠点だが、価格性能比で見ればかなり優秀だと言える。
現時点で最強のPCを作るならi7 965で間違いないし、15万円するQX9770並の性能を持つi7 920は3万弱。
性能を追求したい人は是非購入しよう。

むしろ課題があるとすればマザーボードの方。
現状では問題がないが、QPIやメモリー周りの強化で余裕がありすぎるくらい高速化されたIOH(ノース)に対し、ICH周りは未だに低速である。
SATA、PCI、USBの規格変更に伴い、ICH10に搭載されているDMIでは、現状でも帯域不足の感が否めない。
DMIが高速化されるか、ノース～サウス間にもQPIを使用する、といった変更があれば、まさに最強の構成となるかもしれない。

タグ：

+ タグ編集

「i7って？」をウィキ内検索

最終更新：2009年03月11日 17:58

ツールボックス

下から選んでください:

新しいページを作成する

ヘルプ / FAQ もご覧ください。

VIPで自作PCＷＩＫＩ