JP2022519848A

JP2022519848A - アンカーデータ値のオーバーフロー又はアンダーフロー処理

Info

Publication number: JP2022519848A
Application number: JP2021545709A
Authority: JP
Inventors: ルッツ、デビット、レイモンド; バーゲス、ネイル; ヒンズ、クリストファー、ニール
Original assignee: アーム・リミテッド
Priority date: 2019-02-06
Filing date: 2019-11-28
Publication date: 2022-03-25
Anticipated expiration: 2039-11-28
Also published as: CN113424146A; WO2020161457A1; KR102835335B1; EP3921727A1; JP7541526B2; US20200257499A1; US10936285B2; KR20210121221A

Abstract

【解決手段】処理回路は、２の補数のビットの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の処理をサポートすることができる。アンカーデータ処理は、結果アンカーデータ要素又はアンカーデータ値により表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に依存してもよい。動作がオーバーフロー又はアンダーフローを引き起こした場合、オーバーフロー又はアンダーフローの原因並びに／あるいは、オーバーフロー又はアンダーフローを防ぐためにアンカー情報及び／又はアンカーデータ値内の要素数をどのように更新するかの指示、を示す使用情報を格納してもよい。これにより、アンカーデータ処理を含むソフトウェアアルゴリズムの動的範囲調整をサポートすることができる。【選択図】図１２

Description

本技術は、データ処理分野に関するものである。

データ処理システムでは、浮動小数点（ＦＰ）表現を使用するのが一般的である。浮動小数点数は、仮数と、その仮数のビットの有意性を示す指数とを含む。これにより、有限数のビットを用いて広い範囲の数値を表現することができる。しかし、浮動小数点演算の問題点は、一般的に計算が非結合的であるため、和が問題となる点である。特にプログラマは、少数の値を加算するときでさえ、異なる結果を得ることを気にしなければならない。

この結合性の問題を解決するために、高精度アンカー（ＨＰＡ）数と呼ばれる新しいデータ型が提案されている。高精度アンカー（ＨＰＡ）数は、通常ｉの最小ビットの有意性を指定することにより、長い２の補数（例えば２００ビット）の整数ｉと、ｉのビットの重みを表す小さいアンカー整数ａと、を含むペア（ｉ，ａ）で構成され得る。浮動小数点値をＨＰＡ形式に変換し、その後、結合的に加算を実行することができる。

少なくともいくつかの例は、装置であって、データ処理を実行する処理回路と、それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように処理回路を制御する命令デコーダであって、当該アンカーデータ値は、結果アンカーデータ要素又はアンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられている、命令デコーダと、を備え、アンカーデータ処理動作がアンカーデータ値によって表される２の補数のオーバーフロー又はアンダーフローを引き起こすことをアンカー情報が示すアンカーデータ処理動作に応答して、命令デコーダは、ソフトウェアアクセス可能な格納場所に、オーバーフロー又はアンダーフローの原因、及び、オーバーフロー又はアンダーフローを防ぐためにアンカーデータ値のフォーマットをどのように変更するかの指示、のうちの少なくとも１つを示す使用情報を格納する処理回路を制御するように構成される、装置、を提供する。

少なくともいくつかの例は、データ処理方法であって、１つ以上の命令をデコードすることと、デコードされた命令に応答して、それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように処理回路を制御することであって、当該アンカーデータ値は、結果アンカーデータ要素又はアンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられている、制御することと、を含み、アンカーデータ処理動作がアンカーデータ値によって表される２の補数のオーバーフロー又はアンダーフローを引き起こすことをアンカー情報が示すアンカーデータ処理動作に応答して、処理回路は、ソフトウェアアクセス可能な格納場所に、オーバーフロー又はアンダーフローの原因、及び、オーバーフロー又はアンダーフローを防ぐためにアンカーデータ値のフォーマットをどのように変更するかの指示、のうちの少なくとも１つを示す使用情報を格納する、データ処理方法を提供する。

少なくともいくつかの例は、命令を実行するための命令実行環境を提供するようにホストデータ処理装置を制御するためのコンピュータプログラムを格納する非一時的記憶媒体であって、コンピュータプログラムは、データ処理を実行するようにホストデータ処理装置を制御する、ターゲットコードのプログラム命令をデコードするための命令デコードプログラムロジックを含み、当該命令デコードプログラムロジックは、それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するようにホストデータ処理装置を制御するアンカーデータ処理プログラムロジックを含み、当該アンカーデータ値は、結果アンカーデータ要素又はアンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられており、アンカーデータ処理動作がアンカーデータ値によって表される２の補数のオーバーフロー又はアンダーフローを引き起こすことをアンカー情報が示すアンカーデータ処理動作に応答して、命令デコードプログラムロジックは、ソフトウェアアクセス可能な格納場所に、オーバーフロー又はアンダーフローの原因、及び、オーバーフロー又はアンダーフローを防ぐためにアンカーデータ値のフォーマットをどのように変更するかの指示、のうちの少なくとも１つを示す使用情報を格納するように処理回路を制御するように構成される、非一時的記憶媒体、を提供する。

少なくともいくつかの例は、データ処理方法であって、アーキテクチャ状態のチェックポイントをキャプチャすることと、チェックポイントでキャプチャされたアーキテクチャ状態に基づいて、データ処理動作のシーケンスの一部分を実行することであって、一部分は、２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するための少なくとも１つのアンカーデータ処理動作を含み、当該アンカーデータ値は、結果アンカーデータ要素又はアンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられている、実行することと、オーバーフロー又はアンダーフローの検出を実行して、少なくとも１つのアンカーデータ処理動作がアンカーデータ値のオーバーフロー又はアンダーフローを引き起こしたかどうかを検出することと、オーバーフロー又はアンダーフローが検出された場合、アーキテクチャ状態のチェックポイントを復元することと、アンカーデータ値のフォーマットを変更することと、変更されたフォーマット及び復元されたアーキテクチャ状態のチェックポイントに基づいて、データ処理動作のシーケンスの当該一部分を再試行することと、を含む、データ処理方法を提供する。

少なくともいくつかの例は、アーキテクチャ状態のチェックポイントをキャプチャすることを含む方法を実行するようにデータ処理装置を制御するためのコンピュータプログラムを格納した非一時的記憶媒体、を提供する。

本技術の更なる態様、特徴、及び利点は、添付の図面と併せて読まれるべき以下の実施例の説明から明らかとなるであろう。
図１は、データ処理装置を模式的に示す図である。図２は、数値の異なる表現を模式的に示す図である。図３は、倍精度浮動小数点値と高精度アンカー（ＨＰＡ）値との関係の一例を模式的に示す図である。図４は、有意性が重複する複数のＮビット部分を含む冗長な表現を用いて数値を表す冗長ＨＰＡ値の一例を示す図である。図５は、一例において、ＨＰＡ整数がどのように複数のベクトルレジスタをまたがる選択されたレーン内に格納され得るかを模式的に示す図である。図６は、１つの例示的な構成による、どのように浮動小数点数をＨＰＡ形式に変換して処理し得るかを模式的に示したブロック図である。図７は、一例において使用され得るメタデータの形態を模式的に示す図である。図８は、一例における、各レーンに関連して提供され得る変換及び処理回路をより詳細に示す図である。図９は、アンカーデータ要素が２の補数のビットの一部分を表すのか、又は、特殊値を表すのか、を示す型情報を含むアンカーデータ要素の符号化を示す図である。図１０は、型情報の符号化を示す図である。図１１は、第１オペランド及び第２オペランドの型情報に基づいて、結果アンカーデータ要素の型情報を設定する際の異なる結果を示す図である。図１２は、オーバーフロー又はアンダーフローに応答して使用情報を格納することを含む、アンカーデータ処理方法を示す図である。図１３は、少なくとも１つのアンカーデータ処理動作を含むデータ処理動作のシーケンス中に、アンカーデータ値に含まれるアンカー情報及び／又は要素数を動的に調整する方法を示す図である。図１４は、図１３の方法を用いてコードシーケンスを処理する例を示す図である。図１５は、検出されたオーバーフローに応答して、アンカーデータ値の最上位端に少なくとも１つの追加要素を提供する例を示す図である。図１６は、検出されたアンダーフローに応答して、アンカーデータ値の最下位端に少なくとも１つの追加要素を提供する例を示す図である。図１７は、使用される可能性のあるシミュレータの例を示す図である。

前述したように、浮動小数点演算の問題点は、一般的に計算が結合的であることであり、これが和算の問題点となっている。例えば、複数の浮動小数点値を加算する場合、前の加算の結果に別の値を加算するたびに、結果は丸められ、正規化され、これは値を加算する順序によって全体の結果が異なることを意味する。このため、全く同じ順序で加算しないと和の再現性がないため、浮動小数点演算の並列化が困難である。再現性のある結果を得るためには、通常、一連の加算又は減算を連続して実行しなければならず、これにより浮動小数点演算は、相対的に遅くなる。

そのため、プログラマは、このような異なる結果を回避するために、必要以上に高い精度を使用する。そのため、同じ順序で計算しないと和は再現性がないため、プログラマは簡単にコードを並列化することができない。

この問題は、プログラムが数百万の値を加算する必要があり得るハイパフォーマンスコンピューティング（ＨＰＣ）では特に顕著である。プログラマは、これらの問題を並列化したいが、そうすると再現性がないためにデバッグが難しくなる。マシンの構成が違う場合ですら、たとえそのマシン用の再プログラミングが完璧に行われたとしても、異なる答えが出てしまう。

前述のとおり、結合性の問題を解決するために、ＨＰＡ（高精度アンカー）数と呼ばれる新しいデータ型が提案されている。ＨＰＡ数は、長い２の補数（例えば２００ビット）の整数ｉと、ｉのビットの重みを表す小さいアンカー整数ａと、を含むペア（ｉ，ａ）で構成され得、通常はｉの最小ビットの有意性を指定する）。このペアは、ＦＰ数の仮数と指数値にやや類似しているが、長整数ｉが正規化されておらず、通常はＦＰの仮数よりもはるかに大きい点と、及び、アンカー値ａがＨＰＡ動作のすべてのオペランドに対して固定されている点と、が異なる。ＦＰ数を追加すると指数が変化させることはあるが、ＨＰＡ数を追加してもアンカーは変化しない。

自明な例として、１０ビットのｉとアンカー値ａ＝－４で構成されるＨＰＡ表現を考えてみる。このフォーマットのいくつかの値を表１に示す。

０．５と１．５とのように２つの数を足しても、アンカー（－４）は変わらないので、ｉの値だけを足すことで簡便に和が得られる。ＨＰＡの和は、ちょうど２の補数の足し算なので、範囲が十分であれば、ＨＰＡの和は結合的、正確、及び、反復可能である。

ＦＰ数は範囲が広い。倍精度数（ＦＰ６４）は、２～１０００より小さく、２１０００より大きくなり得るが、ほとんどの集積はこの全範囲には及ばない。実際のところ、この範囲のすべての値を有意性のある形で加算するような問題を想像するのは難しく、ＨＰＣでさえほとんどの集積は限られた範囲で行われる。倍精度演算よりも広い範囲の演算を必要とするほとんどのアプリケーションには、２００ビット程度で十分足りると考えられる。プログラマが、ある和のデータはすべて２１００より小さい大きさであり、２～５０以下の大きさのビットは、和に有意性のある影響を与えないと判断するとする。ＨＰＡフォーマット（ｉ，－５０）で２００ビットのｉを使ってデータを加算すると、集積は結合的に行われ、少なくとも２４９個の数をどのような順序でもオーバーフローの心配なく加算することができる。

近年のほとんどのアーキテクチャにはＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＤａｔａ：単一命令複数データ）ユニットが搭載されており、これを使って長整数を表すことができる。６４ビットレーン間のキャリーを容易にするためのロジックを少し追加すれば、２５６ビットＳＩＭＤユニットを使って２５６ビットの整数を加算することができる。あるいは、詳細は後述するが、冗長な表現を用いることで、ほとんどの加算においてレーン間のキャリーを回避することができる。ＳＩＭＤレジスタでＨＰＡ（アンカーデータ）値（又は長整数）を表すための１つのアプローチは、ＨＰＡ値のいくつかのＨＰＡ（アンカーデータ）要素を、単一のＳＩＭＤレジスタ内のそれぞれのベクトルレーンに割り当てることである。あるいは、後述するように、ＨＰＡ値のそれぞれのアンカーデータ要素は、複数の異なるＳＩＭＤレジスタ内の対応するベクトルレーンに割り当てられ、全アンカーデータ値のそれぞれ部分は、異なるベクトルレジスタの対応する位置にあり、単一のベクトルレジスタには、複数のアンカーデータ要素が含まれており、それぞれが異なるアンカーデータ値（ＨＰＡ値）の一部を構成することも可能である。

以下の技術では、装置は、データ処理を実行する処理回路と、処理回路により実行されるデータ処理を制御するための命令をデコードする命令デコーダとを備えている。命令デコーダは、それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素からなるアンカーデータ値の結果アンカーデータ要素を生成するアンカーデータ処理動作を実行するように処理回路を制御するための命令をサポートしてもよい。アンカーデータ処理動作は、結果アンカーデータ要素又はアンカーデータ値であらわすことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に依存する。アンカー情報を使用することで、プログラマ又はコンパイラが想定する所与アプリケーションの値の範囲に依存して、アーキテクチャは、計算に使用するビット数を制限しつつ、アンカーデータフォーマットの幅広い数値をサポートすることができる。しかし、プログラマ又はコンパイラがアンカー情報を適切に設定していない可能性があり、アンカー情報で定義された許容される数値範囲内で、アンカーデータフォーマットで表現できない一連の動作に対して、入力が行われる可能性が時々ある。そのため、アンカーデータ処理動作を行うと、アンカーデータ値で表される２の補数のアンダーフロー又はオーバーフローを引き起こし、処理結果の正しい値が、アンカーデータ値で表すことのできる数値範囲よりも大きくなったり小さくなったりすることがあり得る。このようなオーバーフロー又はアンダーフローを処理するための１つのアプローチは、単に、何らかの応答アクションを取るようにソフトウェアをトリガし得る例外を通知することであり得る。しかし、これではソフトウェアにとってどのように対応すべきか判断するのが難しい可能性がある。

後述の技術では、処理回路及び命令デコーダは、オーバーフロー又はアンダーフローの原因、及び、オーバーフロー又はアンダーフローを防ぐためにアンカーデータ値のフォーマットをどのように変更するかの指示、のうちの少なくとも１つを示す使用情報をソフトウェアに利用可能にすることをサポートしてもよい。フォーマットの変更の表示は、例えば、アンカーデータフォーマットで提供する追加のアンカーデータ要素の数の表示、追加のアンカーデータ要素の総数の表示、及び／又は、更新されたアンカー情報の表示などであり得る。

したがって、オーバーフロー又はアンダーフローの場合、ハードウェアは、オーバーフロー又はアンダーフローが発生した理由、又は、オーバーフロー又はアンダーフローを防ぐためにアンカーデータ値のフォーマットをどのように変更するかの指示、又は、その両方に関する情報を返し、ソフトウェアがどのように処理を進めるべきかを判断するのをサポートする。これは、後述するように、アンカーデータ値のフォーマットを動的に調整し得る（例えば、アンカー情報及び／又は要素数を変更する）ソフトウェアアルゴリズムをサポートすることができる。これにより、ソフトウェア開発者にとって、アンカーデータ処理を使用するソフトウェアを設計することが非常に容易になる。ソフトウェアアクセス可能な格納場所への使用情報の格納は、使用情報の格納を制御するための専用の状態格納命令を必要とせず、オーバーフロー又はアンダーフローをトリガしたアンカーデータ処理動作に対応してハードウェアで自動的に実行してもよい。

アンカー情報は、所与のアンカーデータ処理動作で生成されるアンカーデータ要素、又は、アンカーデータ値全体の１つ又は複数の異なる特性を示すことができる。例えば、少なくとも１つの特性は、以下の少なくとも１つを構成することができる。
・結果アンカーデータ要素により表されるビットの部分の有意性、
・結果アンカーデータ要素により表される２の補数の部分のビットの幅、
・アンカーデータ値の１つ以上の他のアンカーデータ要素に対する、結果アンカーデータ要素の相対的な位置、及び、
・アンカーデータ値に含まれるアンカーデータ要素の総数。

アンカー情報は、上記の特性をすべて示すことは必須ではない。ここでいう「有意性」とは、所与のビット位置で表される特定の２の累乗を意味する。例えば、２の補数のビットのうち、２^４を表すビット値は、２^３を表す２の補数のビットよりも大きい有意性を有すると考えられる。つまり、２の補数の最上位ビットが最も高い有意性を有し、最下位ビットが最も低い有意性を有する。

前述のように、アンカーデータ処理をベクトル動作で行う場合、同じアンカーデータ値の異なるデータ要素を、単一のベクトルレジスタ内の複数のレーンにまたがって分散させること、又は、同じアンカーデータ値のそれぞれのデータ要素を、複数のベクトルレジスタの対応するレーンにまたがってストライピングすることのいずれかが可能である。最初のケースでは、アンカーメタデータは、アンカーデータ値のアンカーデータ要素の合計数を指定することができ、又は、別の変数がアンカーデータ要素の数を定義することもできる。２つめのケースでは、所与のアンカーデータ処理命令は、一度に１つのアンカーデータ値の要素しか見ることができず、そのため、アンカーデータ処理動作のソースオペランドとして提供されるアンカーメタデータは、アンカーデータ要素の総数を定義する必要はないため、アンカーメタデータ自身は、アンカーデータ要素の総数を示す必要はない。この場合、アンカーデータの総数は、アンカーデータ処理を制御するプログラムが保持する変数を使って別途指定することができる。この変数は、それぞれが異なるレジスタの要素に作用する所与のアンカーデータ値のそれぞれのアンカーデータ要素を処理するために、いくつのアンカーデータ処理命令が実行されるかを制御するために使用することができる。

使用情報は、アンカーデータ値のオーバーフロー又はアンダーフローを引き起こす可能性のあるアンカーデータ処理動作に対して返される可能性がある。しかし、アンカーデータ処理動作が、浮動小数点値に対応する２の補数のビットの一部分を表す、結果アンカーデータ要素への浮動小数点値の変換に依存する変換動作を含む場合には、特に有用であり得る。アンカーデータ値のオーバーフロー又はアンダーフローの原因としては、アンカーデータ処理を用いて実行する動作のシーケンスへの入力として提供された浮動小数点値が、アンカー情報で定義された数値範囲外である可能性がよくある。したがって、このような浮動小数点からアンカーデータへの変換動作において、アンカーデータフォーマットで浮動小数点値の数値を正確に表現することが、少なくとも１つの、許容される数値範囲で表すことができるよりも有意性の高いビット、又は、有意性が低いビットを要求する場合、オーバーフロー又はアンダーフローが通知される。浮動変換動作(float-to-conversion operation)は、浮動小数点値をアンカーデータ要素に変換するが、アンカーデータ要素の更なる処理を行う単独の変換動作、又は、浮動小数点値を変換するとともに、変換後のアンカーデータ要素を第２のアンカーデータ要素に追加する変換・加算動作、であってもよい。

このような浮動小数点からアンカーデータへの変換動作の場合、いくつかの例では、使用情報は、オーバーフロー又はアンダーフローを引き起こす浮動小数点値の指数から導出される情報を含み得る。これは、動作の同じシーケンスが後で再試行された場合に、同じ浮動小数点値に対応できるようにするために、アンカーデータの値、及び／又は、アンカー情報の要素の総数に対してどのような変更が必要であるかを、ソフトウェアが使用情報から判断するのに役立つ。指数から導出される情報は、異なる方法で表現することができる。場合によっては、使用情報は、単に指数自体を含んでもよい。また、使用情報は、指数が許容される数値範囲内にあるかどうかを示すフラグを含んでもよい。時には、許容される数値範囲内の浮動小数点値を処理しても、許容範囲の最大値に近い浮動小数点値にそれぞれが対応する複数のアンカーデータ値を加算した結果が許容範囲を超えてしまうと、オーバーフロー又はアンダーフローの原因となることがある。したがって、変換された浮動小数点値の指数が範囲内にあるか否かの表示は、オーバーフローに対処するためにアンカーデータ値に対して単一の追加アンカーデータ要素で十分であり得るか、又は、より多くの要素が必要であり得るか、をソフトウェアが判断するのに役立つ。（変換される浮動小数点値の指数に応じた使用情報の）他の例としては、指数がどの程度想定範囲外であるかの表示、又は、アンカー情報で定義された許容数値範囲を有するアンカーデータ値の中に浮動小数点値に相当する数値を格納するために、アンカーデータ値に必要な追加要素数の表示、であってもよい。これらのすべての例により、オーバーフロー又はアンダーフローを引き起こした浮動小数点値に対応するために、ソフトウェアがアンカーデータ値のフォーマットをどのように更新するかを決定することができる。

別の実装形態は、使用情報が格納されるソフトウェアアクセス可能な格納場所として、別の場所を選択してもよい。ソフトウェアアクセス可能な格納場所を、メモリ上の場所とすることも可能である。

しかしながら、他の例としては、ソフトウェアアクセス可能な格納場所は、
結果アンカーデータ要素を格納するために使用されるデスティネーションレジスタ、及び、
結果アンカーデータ要素が格納されるレジスタとは別に、汎用レジスタと専用レジスタとのうちの少なくとも１つ
の少なくとも１つを含む。

ソフトウェアアクセス可能な格納場所は、オーバーフロー又はアンダーフローを引き起こしたアンカーデータ処理動作で生成された、結果アンカーデータ要素を格納するのにも使用される同じデスティネーションレジスタを含むことが有用であり得る。これは、メモリへの追加の格納動作が必要ないことを意味し、また、アンカーデータ処理命令に必要なレジスタの書き込みが１回で済むこともあり、マイクロアーキテクチャの複雑さを軽減するのに役立つ。命令設定アーキテクチャでは、２つ以上のデスティネーションレジスタを更新する必要のある命令は比較的少ないため、多くのマイクロアーキテクチャの実装形態では、１つのレジスタ書き込みポートしか提供されないことがある。そのため、使用情報の返送用に第２のレジスタ書き込みポートを設ける必要を回避することは、回路面積や消費電力の削減に貢献することができる。あるいは、装置が２つ以上のレジスタライトポートを有している場合でも、アンカーデータ処理動作を処理する際に、第２のライトポートは、第１のレジスタ書き込みポートと同じ命令に使用されるのではなく、異なる命令に応じて異なるレジスタライトを実行するために使用される可能性がある。そのため、使用情報を結果と同じレジスタに格納することで、マイクロアーキテクチャの実装形態の効率を向上させることができる。

使用情報は、オーバーフロー又はアンダーフローが発生していない場合、通常は結果の２の補数値の一部を格納するデスティネーションレジスタの一部のビットに書き込まれることができる。結果自体を完全に表現できないため、好ましくないと思われるかもしれないが、実際にはオーバーフロー又はアンダーフローが発生した場合、アンカー情報の異なる値で後から動作を繰り返すことが多いため、この時点ではオーバーフロー又はアンダーフローが発生したアンカーデータ要素で表される実際の数値はもはや重要ではない。そのため、通常はデータ値自体の一部となるビットを再利用して使用情報を通知することで、追加のストレージが必要となるのを回避することができる。したがって、使用情報は、結果アンカーデータ要素自体の一部内で指定されてもよい。

後続のアンカーデータ処理動作において、所与の動作に対する入力アンカーデータ要素が、アンカーデータ要素の一部に使用情報を指定している場合、処理回路は、使用情報を指定する結果アンカーデータ要素も生成することができる。したがって、使用情報は、一度設定されると、一連の処理結果を通じて持続するという意味でスティッキーであると言え、そのため、一連の処理動作の終了時に、ソフトウェアは最終結果を調べて、一連の処理の中でオーバーフロー又はアンダーフローを引き起こした動作があるかどうかを判断し、オーバーフロー又はアンダーフローを防ぐためにアンカーデータ値のフォーマットをどのように変更するかの可能性のある原因及び／又は指示を使用情報から学ぶことができる。使用情報が、浮動小数点値が許容範囲をどの程度超えるかを示す、浮動小数点値の指数から導出される何らかの情報（例えば、指数自体、又は、指数と許容される数値範囲の境界に相当する有効指数との差）を含む実装形態では、入力アンカーデータ要素が使用情報を指定した後に、入力アンカーデータ要素内の使用情報が既に示した数値範囲よりも更に外側にある浮動小数点値に遭遇した場合、結果アンカーデータ要素は、最新のアンカーデータ処理動作の浮動小数点値の指数に基づいて更新される、更新された使用情報で生成されてもよい。したがって、一連のアンカーデータ処理動作により、使用情報は、アンカー情報で定義された許容範囲から最も離れた浮動小数点値、及び／又は、アンカーデータ値の要素数、を追跡するように徐々に更新されてもよい。

他の例では、ソフトウェアアクセス可能な格納場所は、汎用レジスタと、結果アンカーデータ要素が格納されるレジスタとは別の専用レジスタの少なくとも１つを含んでもよい。これには第２のレジスタが必要になるかもしれないが、これにより結果アンカーデータ要素の数値を使用情報と一緒に格納できるという利点がある。繰り返すが、ある動作の入力が予想される範囲をどれだけ逸脱しているかを使用状況情報が示している場合、別のレジスタに格納された使用情報は、一連の動作の中で見られた範囲外の最大のマージンを追跡するために、連続した動作の中で再び更新され得る。

いくつかの例では、所与のアンカーデータ要素に関連するアンカー情報は、その要素がアンカーデータ値の最上位アンカーデータ要素であるか、中間のアンカーデータ要素であるか、又は、最下位アンカーデータ要素であるか、を示す要素の型情報を含んでいてもよい。これは、複数のレジスタにまたがるアンカーデータ値のストライピングをサポートする、及び／又は、個々のベクトルレジスタの長さと異なる長さのアンカーデータ値をサポートするのに役立つ。命令デコーダは、アンカー情報内の要素の型情報を用いて、所与のアンカーデータ処理動作においてオーバーフロー又はアンダーフローが検出された場合に、使用情報を生成してソフトウェアアクセス可能な格納場所に格納する必要があるかどうかを判断するように処理回路を制御してもよい。例えば、現在の動作が、所与のアンカーデータ値の中間又は最下位アンカーデータ要素を生成している場合、オーバーフローがあると、これはアンカー情報の発言が不適切であるという信号になるだけではなく、後述するように重複の伝搬が十分に実行されなかったために、アンカーデータ値の中にレーンオーバーフローがあったことを示してもよい。いくつかの場合では、レーンオーバーフローを処理するために、単に使用情報を通知するだけでなく、例外をトリガするなど、より深刻な応答アクションが必要になることがある。したがって、いくつかの場合では、オーバーフロー時に生成される使用情報は、アンカーデータ処理動作がアンカーデータ値の最上位アンカーデータ要素を生成する動作である場合に限定されることがある。

一方、所与のアンカーデータ値の最上位アンカーデータ要素を生成する動作に対しては、アンダーフローが発生しても、またもや結果の有意性の低いビットを収容できる別の命令によって計算される下位要素があるため、使用情報を報告する必要がない場合がある。したがって、使用情報を介したアンダーフローの報告は、アンカー情報が、結果のアンカーデータ要素がアンカーデータ値の最下位アンカーデータ要素であることを示しているアンカーデータ処理動作に限定される場合がある。

オーバーフローとアンダーフローとの両方を使用情報を用いて報告することは必須ではない。いくつかのシステムでは、アンダーフローは単に精度の低下につながるため、追跡が重要視されない場合があるが、オーバーフローは、オーバーフローにより誤った大きさの値になる可能性があるため、より重要視される場合がある。そのため、いくつかの実装形態は、オーバーフローにのみ応答し、アンダーフローには応答せずに使用情報を設定することも可能である。

後述するように、いくつかの例では、ハードウェアアーキテクチャは、ソフトウェアアクセス可能な場所に使用量情報を自動的に返すことができるが、その後、ハードウェア上で実行されるソフトウェアは、使用量情報を使用して、例えば、追加要素を提供すること、及び／又は、アンカー情報を変更することによってアンカーデータ値のフォーマットを変更することで、オーバーフロー又はアンダーフローにどのように対応するかを判断することができる。

しかしながら、他の実装形態では、使用情報を自動的に使用してアンカーデータ値のフォーマットを適応させるためのハードウェアを提供することができ、そのため、プログラマ／コンパイラは使用情報をチェックするための命令を含める必要がない。したがって、いくつかの例では、処理回路は、
アンカーデータ処理動作を含む処理動作のシーケンスの一部分においてオーバーフローが検出された場合、アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素によってアンカーデータ値を拡張すること、
処理動作のシーケンスの当該一部分においてアンダーフローが検出された場合、アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素によってアンカーデータ値を拡張すること、及び
処理動作のシーケンスの当該一部分においてオーバーフロー及びアンダーフローの両方が検出された場合、アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素と、アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素と、によってアンカーデータ値を拡張すること
のうちの少なくとも１つを実行するように動作可能であってもよい。

別の例では、データ処理方法は、少なくとも１つのアンカーデータ処理動作を含むデータ処理動作のシーケンスを含むことができる。この方法では、データ処理動作のシーケンスの一部分を実行する前に、アーキテクチャ状態のチェックポイントをキャプチャすることができる。このチェックポイントは、現在のアーキテクチャ状態の完全な記録である必要はないが、データ処理動作のシーケンスの一部分を実行する際に上書きされる可能性のあるアーキテクチャ状態を少なくとも含むことができる。そして、その部分は、上述のようにアンカー情報に基づいて結果アンカーデータ要素を生成する少なくとも１つのアンカーデータ処理動作を含めて実行される。オーバーフロー又はアンダーフローの検出を実行して、少なくとも１つのアンカーデータ処理動作がアンカーデータ値のオーバーフロー又はアンダーフローを引き起こすかどうかを検出する。オーバーフロー又はアンダーフローが検出された場合、以前にキャプチャしたアーキテクチャ状態のチェックポイントを復元し、アンカーデータ値のフォーマットを変更し、変更されたフォーマットと復元されたアーキテクチャ状態のチェックポイントとに基づいて、データ処理動作のシーケンスの同じ部分を再試行することができる。

この方法は、オーバーフロー又はアンダーフローが発生したか否かを自動的に検出し、発生した場合にはアンカーデータフォーマットを調整（例えば、要素数及び／又はアンカー情報の変更）して動作を再試行することで、プログラマ又はコンパイラによるアンカー情報の設定が不適切であった場合にプログラム自体が対応し、実行した動作から学習するソフトウェアルーティンを可能にする。これにより、アンカーデータ処理を行うソフトウェアをプログラミングする際のプログラマの負担を大幅に軽減することができる。例えば、ライブラリにこのような方法を実行するルーティンを用意しておき、所与のプログラムにより呼び出すことで、多数の変換や加算を含むアンカーデータフォーマットの特定の数の浮動小数点値を処理することができる。実行される処理動作のシーケンスを通じて間隔をおいてアーキテクチャ状態のチェックポイントをキャプチャし、追加レーンを追加し、又は、オーバーフロー又はアンダーフローが検出された場合にアンカー情報を自動的に更新し、必要に応じて前の部分を再試行できるようにし、これにより、アンカーを動的に調整することができ、与えられた浮動小数点入力の大きさの範囲をプログラマが予測することなく進めることができる。

一方、オーバーフロー又はアンダーフローの検出を実行する際に、少なくとも１つのアンカーデータ処理動作がオーバーフロー又はアンダーフローを引き起こさなかったことが検出された場合、本方法は、データ処理動作のシーケンスの次の部分を実行する前に、データ処理動作の一部分から生じるアーキテクチャ状態の更なるチェックポイントをキャプチャすることを含んでもよい。次の部分は、アンカー情報又は要素数を更新することなく、前の部分と同じアンカーデータフォーマットで処理される。また、直前に終了した部分が最後の部分であった場合、必要に応じて、シーケンスを停止し、アンカーデータフォーマットの結果を、浮動小数点フォーマット又はその他の数値フォーマットに変換することもできる。

オーバーフロー又はアンダーフローが検出されたときに行われるフォーマットの変更は、少なくとも１つの追加のアンカーデータ要素を提供するために、アンカーデータ数フォーマットの要素数を拡張することを含むことが特に有用であり得る。これにより、コードシーケンスの一部分を、より大きな有意性の範囲を表現できるフォーマットで再試行することができ、これまで表現できなかった範囲の値にも対応できるようになる。

オーバーフローが検出された場合、フォーマットを変更することは、アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素によってアンカーデータ値を拡張することを含んでもよい。アンカーデータ値の最上位端に少なくとも１つの追加要素が提供されている場合、更新された要素数でシーケンスの一部分が再試行されると、新たに追加された要素は、（キャプチャされたアーキテクチャ状態のチェックポイントで表される）アンカーデータ値の既存要素の符号拡張で最初にポピュレートされてもよい。

アンダーフローが検出された場合、フォーマットを変更することは、アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素によって、アンカーデータ値を拡張することを含んでもよい。少なくとも１つの追加要素がアンカーデータ値の最下位端に提供されている場合、シーケンスの一部分が再試行される際、新たに追加された要素は、最初はゼロでポピュレートされてもよい。

また、コードシーケンスの直近の処理部分において、オーバーフローとアンダーフローとの両方が発生している可能性がある（例えば、アンカーデータ値で表される範囲よりも低い１つの浮動小数点入力と、アンカーデータ値で表される範囲よりも大きな有意性を有する別の浮動小数点入力と、に基づいて処理が行われる場合がある）。データ処理動作のシーケンスの当該一部分においてオーバーフローとアンダーフローとの両方が検出された場合、フォーマットを変更することは、アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素と、アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素と、によって、アンカーデータ値を拡張することを含んでもよい。

オーバーフロー又はアンダーフローの検出は、動作のシーケンス中の任意の時点で実行することができる。いくつかの例では、オーバーフロー又はアンダーフローの検出は、それぞれのアンカーデータ処理動作に応答して実行されてもよい。

しかしながら、オーバーフロー又はアンダーフローのチェックは、それぞれアンカーデータ処理に応答して行うよりも、シーケンスを通じて間隔をおいて行うほうがより効率的である場合もある。そのため、オーバーフロー又はアンダーフローの検出は、所与のアンカーデータ処理回数に応じた間隔で実行することができる。

いくつかの例では、アンカーデータ要素は、データ要素の有意性の低い部分で実行された追加によって生じるキャリーに対応するために、要素内にいくつかの重複ビットが割り当てられる冗長な表現を使用して表されてもよい。これにより、一連のアンカーデータ処理動作によってアンカーデータ要素からオーバーフローが発生する可能性を減らすことができる。当該表現は、重複ビットと非重複ビットの異なる組み合わせであるすべてが２の補数の同じ数値を表すことができる複数のアンカーデータ要素で形成されたアンカーデータ値のビットの異なるパターンが多数存在する可能性があるという意味で、冗長であってもよい。詳細を以下に提供する。

したがって、一般的に、アンカーデータ要素は、Ｖ個の重複ビットとＷ個の非重複ビットとを含むＮビット値を含んでもよい。特定の数の重複ビットと非重複ビットは、固定されていてもよく、あるいは、例えば上述のアンカーメタデータ内の情報を指定するなどして可変であることもある。

浮動小数点値をアンカーデータ要素に変換する浮動小数点からアンカーデータへの変換動作において、浮動小数点値が特殊な数（ＮａＮ又は無限大）以外の数を表し、その数がアンカーデータ要素が構成するアンカーデータ値に対して許容数値範囲内にある場合、処理回路は、アンカーデータ要素のＷ個の非重複ビットを、浮動小数点値に対応する２の補数のビットの一部分を表すように設定してもよい。一方、アンカーデータ要素のＶ個の重複ビットには、Ｗ個の非重複ビットの符号拡張に設定されてもよい。したがって、最初は、重複ビットは、符号拡張に、例えば、すべてゼロ又はすべて１に設定されていてもよい。しかし、浮動小数点からアンカーデータへの変換動作によって生成されたアンカーデータ要素が一連の加算処理をされると、重複ビットにいくつかのキャリーが発生する可能性がある。アンカーデータ値全体で表される２の補数を非冗長表現で計算するために、１つのアンカーデータ要素の重複ビットで表されるキャリーを、アンカーデータ値の次に高いアンカーデータ要素の非重複ビットに伝搬する重複伝搬動作を行うことができる。

したがって、いくつかの例では、オーバーフロー又はアンダーフローの検出（及び、オーバーフロー又はアンダーフローが検出された場合のチェックポイントの復元及びアンカーデータ値のフォーマットの変更）は、第１のアンカーデータ要素のＶ個の重複ビットで表されるキャリーを第２のアンカーデータ要素のＷ個の非重複ビットに伝搬するための重複伝搬動作の実行時に実行することができる。オーバーフロー又はアンダーフローが発生したかどうかのチェックを重複伝搬時に実行することは、オーバーフロー又はアンダーフローの検出をあまり頻繁に行わないことを意味するが、また、オーバーフロー又はアンダーフローが発生して、シーケンス動作の前の部分を繰り返す必要がある場合には、重複伝搬動作自体のオーバーヘッドを回避することができることを意味するので、便利であり得る。したがって、実際には、オーバーフロー又はアンダーフローの検出は、オーバーフロー又はアンダーフローが発生した場合に重複伝搬動作を抑制できるように、重複伝搬動作の前に実行してもよい。

いくつかの例では、アンカーデータ値のフォーマットの変更は、オーバーフロー又はアンダーフローを引き起こす動作に応答してソフトウェアアクセス可能な格納場所に格納される、上述のような使用情報に依存してもよい。したがって、使用情報をアーキテクチャレベルで（使用情報を指定する専用の命令を必要とせずに）返すことで、上述のような動的なアンカー情報の更新方法をサポートすることができる。

しかしながら、アンカーデータ値のフォーマットの動的な更新は、使用情報を使用せずに実行することもできる。例えば、オーバーフローが検出された場合、フォーマットの変更は、アンカーデータ値の幅を１つのデータ要素分拡張し、アンダーフローの場合は、アンカーデータ値の各アンカーデータ要素の最下位ビットの有意性を（要素数の増加に加えて）下げるなど、いくつかのデフォルトのアクションに単純に従うことができるというアプローチも考えられる。使用情報は、所与のオペランドのセットに対する正しいアンカーデータフォーマットにより速く到達することを可能にするが、それにもかかわらず、使用情報を返さないアーキテクチャでは、オーバーフロー又はアンダーフローが発生するたびに、オーバーフロー又はアンダーフローが発生しなくなるまで、ソフトウェアルーティンが要素の総数及び／又はアンカー情報を増分的に調整することが可能になる。

アンカーデータフォーマットの動的な更新を提供し、以前にオーバーフロー又はアンダーフローを引き起こしたコードシーケンスの一部分を再試行することは有用であるが、場合によってはそのような再試行が望ましくないこともある。したがって、オーバーフロー又はアンダーフローが検出されるたびに再試行を実行することは必須ではない。

いくつかの例では、オーバーフロー又はアンダーフローが検出された場合、本方法は、使用情報が少なくとも１つの再試行条件を満たすかどうかを判断することと、使用情報が少なくとも１つの再試行条件を満たす場合、使用情報に基づいてアンカーデータ値のフォーマットを変更し、変更されたフォーマットに基づいてデータ処理動作のシーケンスの一部分を再試行することと（上述の例と同様）、使用情報が少なくとも１つの再試行条件を満たさない場合、データ処理動作のシーケンスを終了すること、又は、当該少なくとも１つの部分を再試行せずに一連のデータ処理動作を継続することと（上述の例と同様）、を含んでもよい。

使用量情報が当該少なくとも１つの再試行条件を満たさず、そのため処理を終了する、又は再試行せずに継続する場合、本方法は、将来的なオーバーフロー／アンダーフローをどのように回避するかを評価するのに役立つように、使用量情報、あるいはオーバーフロー又はアンダーフローに関する他の情報を返すことを含んでもよい。

例えば、少なくとも１つの再試行条件は、
オーバーフロー又はアンダーフローのマージンが所定の量よりも小さいこと、
オーバーフロー又はアンダーフローを防ぐために必要な追加のアンカーデータ要素の数が所定の数以下であること、及び、
データ処理動作のシーケンスの当該一部分を再試行する以前の試行回数が所定のしきい値よりも少ないこと
の少なくとも１つを含む。

例えば、オーバーフロー／アンダーフローのマージンが、オーバーフロー／アンダーフローを防ぐために多数の追加のアンカーデータ要素を必要とするような場合、単純に要素数をその多数分だけ拡張することは非効率的であるかもしれず、例えば、これは、アンカーの有意性が不適切に設定されていることを示している可能性があり、単純に要素数を拡張すると、処理される実際の入力オペランドの大きさが元のアンカー情報で定義された範囲から大きく外れているために、アンカーデータ値のいくつかの要素がゼロ又は符号ビットで完全に埋められてしまうという、多くの無駄な処理動作が発生する危険性がある。このような場合、シーケンスを終了し、発生したオーバーフローに関する情報を返すことで、返された情報をより詳細に検討し、今後のアンカー情報及び／又はレーン数をどのように設定すべきかを判断するほうが効率的な場合がある。あるいは、終了するのではなく、シーケンスの残りの部分で発生する可能性のある任意の更なるオーバーフロー／アンダーフローに関するより多くの情報を収集するために、処理動作のシーケンスを終了させずに（かつ、以前に実行された部分を再試行せずに）処理動作のシーケンスを継続できることが好ましい場合もある。

したがって、オーバーフロー／アンダーフローを検出するそれぞれの事例が、レーン数及び／又はアンカー情報の動的な更新によって処理されることは必須ではなく、本方法は、動的な更新のための特定の条件（単数又は複数）が満たされているかどうかの判断を含み、その後、動的な更新を実行し、少なくとも１つの再試行条件を満たしたときに再試行することができる。

データ処理動作の全体的なシーケンスの完了又は終了時に、本方法は、ソフトウェアアクセス可能な格納場所に、
データ処理動作のシーケンスの一部分を再試行する必要があった条件、
データ処理動作のシーケンスが完了したときにアンカーデータ値に含まれるアンカーデータ要素の最終的な数、及び、
データ処理動作のシーケンスの実行中に行われた任意の更新によって生じる最終的なアンカー情報、
のうちの少なくとも１つを示す情報を格納することを含んでもよい。

これは、なぜシーケンスの一部分が再試行を必要としたかに関する何らかの情報を提供するのに役立ち、ソフトウェア開発者又はコンパイラが、将来的に、所与のプログラムに対してアンカー情報をどのように設定するのが良いかを判断するのに役立ち、その結果、動作のシーケンスの特定の部分を実行するために多くの再試行が必要になる可能性が低くなるため、パフォーマンスを向上させることができる。

ここで、特定の例を、図面を参照して説明する。

以下では、ＨＰＡ（高精度アンカー）フォーマットについて説明する。ＨＰＡフォーマットに関する詳細は、米国特許出願６２／０７４，１４９号、同第１４／５８２，９７４号、同第１４／５８２，８７５号、同第１４／５８２，８１２号、同第１４／５８２，８３６号、同第１４／５８２，９７８号、同第１４／６０６，５１０号、及び同第１４／５８２，９６８号で見つけることができ、これらの内容は参照により完全に本明細書に組み込まれている。

浮動小数点数
浮動小数点（ＦＰ）は、少数のビットを使って実数を近似する有用な方法である。ＩＥＥＥ７５４－２００８ＦＰ規格では、ＦＰ数の複数の異なるフォーマットが提案されており、そのうちのいくつかは、２進数６４（倍精度（ＤＰ）とも呼ばれる）、２進数３２（単精度（ＳＰ）とも呼ばれる）、及び２進数１６（半精度（ＨＰ）とも呼ばれる）である。６４、３２、１６という数は、それぞれのフォーマットに必要なビット数を表している。

表現
ＦＰ数は、科学の授業で習う「指数表記」とよく似ている。マイナス２００万の代わりに、－２．０×１０^６と書く。この数を構成するパーツは、符号（この場合は負）、仮数（２．０）、指数の底（１０）、指数（６）である。これらの部分はすべて、構成要素が２進数で格納されていること、及び、指数の基数が常に２であること、という最も重大な違いはあるものの、ＦＰ数に似ている。

より正確には、ＦＰ数は、符号ビット、いくつかのバイアス指数ビット、及び、いくつかのフラクションビットを含む。具体的には、ＤＰフォーマット、ＳＰフォーマット、ＨＰフォーマットは、以下のビットを含む。

符号は、負の数について１、正の数について０である。ゼロを含むすべての数には符号がある。

指数にはバイアスがかかっている。つまり、真の指数は、数に格納されているものとは異なる。例えば、バイアスのかかったＳＰ指数は８ビット長で、０から２５５までの範囲になる。指数０と２５５は特別なケースであるが、その他の指数はすべてバイアス１２７を有し、真の指数はバイアス指数よりも１２７小さいことを意味する。最小バイアス指数は１で、これは真の指数－１２６に相当する。最大バイアス指数は２５４で、これは真の指数１２７に相当する。ＨＰ指数とＤＰ指数も同じように動作し、上の表に示されたバイアスがかかる。

ＳＰ指数２５５（又はＤＰ指数２０４７、ＨＰ指数３１）は、無限大とＮａＮ（ｎｏｔａｎｕｍｂｅｒ：数ではない）と呼ばれる特殊記号のために予約されている。無限大（正の場合も負の場合もある）は、ゼロのフラクションを持つ。指数２５５の数で、フラクションが０でないものはＮａＮである。無限大は飽和値を提供しているので、実際には「この計算の結果、このフォーマットで表現できる数よりも大きい数が得られた」というような意味になる。ＮａＮは、例えばゼロによる除算また負の数の平方根を取るなど、実数に対して数学的に定義されていない動作に対して返される。

指数ゼロは、いずれのフォーマットにおいても、非正規数及びゼロのために予約されている。正規数は以下の値を表す。
－１^符号×１．フラクション×２^ｅ
ここでｅは、バイアス指数から計算された真の指数である。１．フラクションという言葉は仮数と呼ばれ、１はＦＰ数の一部としては格納されず、代わりに指数から推測される。ゼロと最大指数を除くすべての指数は、１．フラクションの形の仮数を示す。指数ゼロは、０．フラクションの形の仮数と、所与のフォーマットの１バイアスに等しい真の指数と、を示す。このような数は非正規（subnormal）と呼ばれる（歴史的にはこのような数は非正規（denormal）と呼ばれていたが、現代では非正規（subnormal）という言葉が好まれる）。

指数とフラクションの両方が０に等しい数はゼロである。

次の表は、ＨＰフォーマットの数の例である。エントリは２進法で、読みやすくするために「＿」を加えてある。（表の４行目、指数が０の）非正規エントリは、その前の行の正規エントリとは異なる仮数を生成することに注意すること。

表３

ＦＰ実装の複雑さの大部分は非正規に起因するため、多くの場合、マイクロコード又はソフトウェアで処理される。一部のプロセッサでは、非正規をハードウェアで処理することで、ソフトウェア又はマイクロコードの実装形態と比べて、これらの動作を１０倍から１００倍に高速化している。

整数、固定小数点、浮動小数点
ＦＰの符号の処理法は「符号絶対値」と呼ばれ、通常のコンピュータでの整数の格納方法（２の補数）とは異なる。符号絶対値表現では、同じ数の正と負のバージョンは、符号ビットだけが異なる。符号ビットと３つの仮数ビットとを含む４ビットの符号絶対値整数は、プラス１とマイナス１を次のように表す。
＋１＝０００１
－１＝１００１

２の補数表現では、（ｎ＋１）ビットの２進整数は、数値ｉ－Ｓ＊２^ｎを表す。ここで、ｉはｎビットの整数で、ｎ＋１ビット値の下位ｎビットで表され、Ｓは（ｎ＋１）ビット値の最上位ビットのビット値（０又は１）である。したがって、符号ビットが値の他のすべてのビットの符号を修正する符号絶対値数の場合とは異なり、２の補数値の場合、最上位ビットはマイナスに、他のすべてのビットはプラスに加重される。したがって、４ビットの２の補数の整数は、プラス１とマイナス１を次のように表す。
＋１＝０００１
－１＝１１１１

２の補数フォーマットは、コンピュータ演算を簡単にするため、符号付き整数では実質的に普遍的なフォーマットである。

一方、固定小数点は、見た目は整数と同じだが、実際には特定のビット数を持つ値を表す。センサデータは固定小数点フォーマットであることが多く、ＦＰが普及する前に書かれた固定小数点ソフトウェアも数多く存在する。プログラマは、「２進法」、つまり数の整数部と小数部の区切りを常に把握しておく必要があり、また、ビットを正しい位置に保つために常に数をシフトさせる必要があるため、固定小数点は、作業が非常に面倒である。ＦＰ数にはこのような困難はないので、固定小数点数とＦＰ数の変換ができることが望ましい。変換ができるということは、固定小数点のソフトウェアやデータを使い続けることができるということでもあり、新しいソフトウェアを書くときに固定小数点に縛られないということでもある。

ＦＰ数を丸める
ＩＥＥＥ－７５４規格では、ほとんどのＦＰ動作は、動作が範囲と精度が制限されていないかのように計算され、ＦＰ数に収まるように丸められることが要求されている。計算結果がＦＰ数と完全に一致する場合は、常にその値が返されるが、通常、計算結果は連続する２つの浮動小数点数の間の値になる。丸めるとは、連続する２つの連続する数のうち、どちらを返すべきかを選択する処理のことである。

複数の丸めの方法があり、丸めモードと呼ばれている。そのうちの６つは以下のとおりである。

この定義では、実際にどのように丸めるのかは不明である。一般的な１つの実装形態は、動作を行い、残りのすべてのビットと同様に切り捨てられた値（つまり、ＦＰフォーマットに収まる値）を見て、特定の条件が成立すれば切り捨てられた値を調整するというものである。これらの計算はすべて以下に基づく。
Ｌ－（最小）切り捨てられた値の最下位ビット
Ｇ－（ガード）次の最上位ビット（つまり、切り捨てに含まれない最初のビット）
Ｓ－（スティッキー）切り捨ての一部ではない残りのすべてのビットの論理和
これらの３つの値と切り捨てられた値とを仮定すると、次の表のように、常に正しく丸められた値を計算することができる。

例えば、２つの４ビットの仮数を乗算して、４ビットの仮数に丸めることを考える。
ｓｉｇ１＝１０１１（１０進数１１）
ｓｉｇ２＝０１１１（１０進数７）
乗算すると、
ｓｉｇ１×ｓｉｇ２＝１００１＿１０１（１０進数７７）
ＬＧｓｓ
となる。

切り捨てられた４ビットの結果の最下位ビットは、Ｌとラベルされ、次のビットはＧとラベルされ、Ｓはｓとラベルされた残りのビットの論理和（つまり、Ｓ＝０｜１＝１）となる。丸めるために、丸めモード及び上の表の計算に従って、４ビットの結果（１００１）を調整する。例えば、ＲＮＡ丸めでは、Ｇが設定されているので、１００１＋１＝１０１０を返すことになる。ＲＸ丸めではＧ｜Ｓが真なのでＬを１にセットして（既に１なのでこの場合は何も変わらない）１００１を返す。

整数及び固定小数点数の丸め
ＦＰ数を整数又は固定小数点に変換する場合も、丸めを行う。考え方は基本的にＦＰ丸めと同じである。ＦＰ数がたまたま整数であった場合、常にその整数に丸められる。それ以外のＦＰ数は、連続する２つの整数の間にあり、丸めによってどの整数を返されるかが決まる。残念なことに、整数の丸めロジックは、２の補数と符号絶対値形式の違いのために、やや難しくなっている。符号絶対値数が増分すると、常に絶対値が大きくなるので、増分された数はゼロから遠くなる。正の２の補数でも同じことが言えるが、負の２の補数は増分するとゼロに近づく。つまり、これは、整数が正か負かによって、丸めのロジックを変えなければならないことを意味する。また、基底値（増分するか否かの値）の選択にも注意が必要だということも意味する。正の整数の場合、その値はＦＰの仮数を切り捨てたものなので、１．３７は基本値が１で、結果は１又は２のどちらかになる。負の整数の場合、再び仮数を切り捨てて、その結果の１の補数を取る（１の補数とは、すべてのビットを反転させた元の数のことである）。－１．３７は１に切り捨てられた後に反転され、基本値－２になる。結果を－２又は（増分したときに）－１のいずれかにしたいのですべてがうまくいく。

更に複雑なことに、この変換方法では、負の整数に対するＬ、Ｇ及びＳを求めるためにいくつかの計算が必要になる。正しい丸めは、２の補数処理（反転して１を加える）を完了してからＬ、Ｇ、Ｓを計算することを必要とするが、１を加えるのは反転するだけの場合に比べて遅い。理想的には、シフトされた元の入力から（つまり、符号に手を加える前の入力から）実際のＬ、Ｇ、Ｓを計算することを望んでいる（浮動小数点の１．３７又は－１．３７は、どちらも右シフトされて整数の１になる）。

Ｌ０、Ｇ０及びＳ０を反転前の最下位ビット（ｌｓｂ）、ガード及びスティッキーとし、Ｌｉ、Ｇｉ及びＳｉを反転後のｌｓｂ、ガード及びスティッキーとし、最後にＬ、Ｇ及びＳを反転して１を加えた後のｌｓｂ、ガード及びスティッキーとする。

Ｓ０がゼロであれば、Ｓｉに寄与するビットはすべて１であり、したがって（それらのＳｉビットに１を加えて得られる）Ｓもゼロである。Ｓ０が０でない場合、Ｓｉはすべて１ではなく、したがってＳも０ではない。したがって、すべての場合においてＳ０＝Ｓとなる。

Ｇ０がゼロの場合、Ｇｉは１であり、Ｓ０がゼロである場合にのみ発生するＳビットからのキャリーインがある場合を除いて、Ｇも１である。Ｇ０が１の場合、Ｇｉはゼロであり、同じく、Ｓ０がゼロである場合にのみ発生するＳビットからのキャリーインがある場合を除いて、Ｇも１である。つまり、Ｇ＝Ｇ０＾Ｓ０である。

同様の論理で、Ｌ＝Ｌ０＾（Ｇ０｜Ｓ０）となる。

これで、負の整数と正の整数のＬ、Ｇ及びＳがわかったので、丸めのルールを考えることができる。

固定小数点数は、整数とまったく同じ方法で丸められる。符号なしの変換（整数又は固定小数点への変換）の規則は、正の変換の規則と同じである。

注入丸め
丸めをより速く行うには、ほとんどすべてのＦＰ動作の一部である仮数加算の一部に丸め定数を注入することである。これがどのように機能するかを見るために、ドルとセントで数を加算し、ドルに丸めることを考える。例えば、次のように加算する。

合計の＄３．６２は＄３よりも＄４に近いので、最近似丸めモードのいずれかが＄４を返すことがわかる。数を２進法で表現すれば、前節のＬ、Ｇ、Ｓ法でも同じ結果が得られる。しかし、５０セントを足して、その結果を切り捨てるとしたらどうだろうか。

合計（＄４．１２）からドル金額（＄４）を返すだけの場合、ＲＮＡ丸めモードを使って正しく丸めることになる。＄０．５０ではなく＄０．９９を加える場合、ＲＰ丸めを使って正しく丸めることになる。ＲＮＥは少し複雑である。＄０．５０を加えて切り捨て、残りのセントを見る。残りのセントが０でない場合、切り捨てられた結果は正しい。残りのセントが０であれば、注入の前に２つのドルのちょうど中間にいたので、偶数のドルを選ぶ。２進法のＦＰでは、ドルの金額の最下位ビットをゼロにすることになる。

３つの数を足すのは、２つの数を足すよりもわずかに遅いだけなので、注入丸めを使えば、２つの仮数を足してＬ、Ｇ及びＳを調べ、丸めモードに応じて結果を増分するよりも、はるかに早く丸められた結果を得ることができる。

注入丸めの実装
ＦＰでは、注入丸めは３つの異なる値のうちの１つで、その値は丸めモードと（時には）結果の符号に依存する。

ＲＮＡとＲＮＥとの両方において、Ｇの位置に１を注入する必要がある（ドルとセントの例では０．５０ドルを加えるようなものである）。

ＲＰ及びＲＭ丸めは、モードだけでなく符号にも依存する。ＲＰは正の結果を切り上げる（正の無限大に向かって仮数の大きさを大きくする）が、負の結果は切り捨てる（正の無限大に近い仮数を選ぶ）。同様に、ＲＭは負の結果を切り上げる（負の無限大に向かって仮数の大きさを大きくする）が、正の結果は切り捨てる（負の無限大に近いほうの仮数を選ぶ）。そこで、ＲＭとＲＰを、符号が丸めの方向と一致する場合の丸め（ＲＵ）と、符号が注入丸めと異なる場合の切り捨て（ＲＺ）の２つの場合に分ける。ＲＵの場合は、Ｇビットの位置と、論理的にＳに寄与するすべての位置とに１を注入する（ドルとセントの例では０．９９ドルを加えるようなものである）。

ＲＺモード及びＲＸモード、そしてＲＺモードに還元されるＲＰモード及びＲＭモードには０を注入する。

ほとんどの丸めモードでは、注入丸めを加えてから切り捨てると、正しい丸め結果が得られる。２つの例外は、ＲＮＥ及びＲＸであり、加算後にＧとＳを調べる必要がある。ＲＮＥでは、Ｇ及びＳがともにゼロの場合、Ｌを０に設定する。ＲＸでは、Ｇ又はＳが０でない場合、Ｌを１に設定する。

ＦＰ数は実数ではない
ＦＰ数は、実数と同じように考えがちであるが、最も基本的な特性ですら、両者は根本的に異なる。

両者には関連しない。例えば、ＳＰでは３つの数を足して１００万又は０を返すことができるが、これはおそらく一般的に丸め誤差として考えるものではない。
（２^４５＋－２^４５）＋２^２０＝２^２０
２^４５＋（－２^４５＋２^２０）＝０
両者は、分配法則に従わない。再度ＳＰで：
３，０００，００１＊（４．００００１＋５．００００１）＝０ｘ４ｂｃｄｆｅ８３
（３，０００，００１＊４．００００１）＋（３，０００，００１＊５．００００１）＝０ｘ４ｂｃｄｆｅ８２
となり、オーバーフローが発生すると更に状況が悪化する。
２^５０＊（２^７８－２^７７）＝２^１２７
（２^５０＊２^７８）－（２^５０＊２^７７）＝無限大

いくつかの実装形態の場合、一般的にｎａｎＡ＋ｎａｎＢ！＝ｎａｎＢ＋ｎａｎＡであるため、デフォルトのＮａＮモード（すべてのＮａＮを単一のＮａＮに変換するモード）でない限り、両者は可換ですらない。数値加算及び数値乗算は、可換である。

ＩＥＥＥのＮａＮルールのため、乗算又は加算の恒等式はない。１と０は、数値の恒等式として機能する。

ＦＰ数を考えるための１つの有用な方法は、ＦＰ数は、非常に長い固定小数点数で、多くても数ビット（ＤＰでは５３ビット）が連続して非ゼロになるだけだと考えることである。例えば、非無限ＤＰ数は、仮数の最初のビットが２０４６箇所のいずれかにあり、その最初のビットの後に他の５２個の仮数ビットが続き、更に符号ビットがあるので、任意の有限ＤＰ数は２０４６＋５２＋１＝２０９９ビットの固定小数点数として表すことができる。このように考えると、２つのＦＰ数を加算しても、一般的には別のＦＰ数にはならず、加算の結果は、ＦＰ数になるように丸める必要があることがよくわかる。

浮動小数点（ＦＰ）演算の問題点として知られているのが、和が問題になるという、非結合性であるということである。
・プログラマは、３つの数を加算するときですら、結果が大きく異なることを気にする必要がある。
・プログラマは、結果が大きく異なることを回避するために、必要以上に広いフォーマットを使用する。
・全く同じ順序で計算しないと和が再現できないため、プログラマはコードを簡単に並列化できない。

例えば、単精度の場合、
２^２０＋（－２^４４＋２^４４）＝２^２０
であるが、
（２^２０＋－２^４４）＋２^４４＝０

動作が実行される順序によって、結果が１００万又は０になる。これは指数が２４違うという極端な例であるが、指数が１違う場合、又は、指数がすべて同じで４つ以上のものを加えている場合でも、異なる答えを得る可能性がある。プログラミング言語Ｃでは、和を左から右へ順序に評価することで再現性の問題に対処しているが、これでは正しさの面では何の役にも立たないし、並列化も不可能である。

この問題は、何百万もの動作を実行するハイパフォーマンスコンピューティング（ＨＰＣ）では特に顕著である。プログラマはこれらの問題を並列化したいと考えるが、再現性がないためにデバッグが通常よりも困難になる。また、機械の構成が違えば、たとえその機械のための再プログラミングが完璧に行われたとしても、異なる答えが出てくる。

ＨＰＡ表現（アンカーデータ値）
プログラマが選択可能な範囲にある浮動小数点（ＦＰ）数を高速かつ正確に集積できる新しいデータ型が提案されている。ほとんどの問題に対応できる適度な範囲では、その集積はＦＰ加算よりも速く、また結合的である。結合的加算では、再現性のある正しい結果を得ながら問題を並列化することができ、既存のハードウェアと比較して、例えば１００倍以上のスピードアップが可能になる。このようなメリットは、ハイパフォーマンスコンピューティング（ＨＰＣ）の分野ではもちろんのこと、ハイパフォーマンスコンピューティング以外の多くのアプリケーションにとっても魅力的なものになると考えられる。

図１は、プログラム命令の制御下でデータ処理動作を実行するためのデータ処理装置２を模式的に示している。データ処理装置２は、プログラム命令６及び処理すべきデータ８を格納するメモリ４を含む。処理コア１０は、メモリ４に結合され、レジスタバンク１２、処理回路１４、命令フェッチユニット１６、命令パイプラインユニット１８、及び、命令デコーダ２０を含む。実際には、データ処理システム２は、多くの追加要素を含んでもよく、理解を助けるために図１の表現は簡略化されていることが理解されるであろう。動作において、プログラム命令６は、命令フェッチユニット１６によってメモリ４からフェッチされ、命令パイプライン１８に供給される。プログラム命令が命令パイプライン１８内の適切なステージに到達すると、命令デコーダ２０によってデコードされ、デコードされたプログラム命令によって指定された処理動作（単数又は複数）を実行するために、レジスタバンク１２及び処理回路１４の動作を制御するのに役立つ制御信号を生成する。複数の入力オペランドは、レジスタバンク１２から読み出され、処理回路１４に供給され、そこで操作され、その後、結果値がレジスタバンク１２に書き戻されてもよい。

レジスタバンク１２は、様々な異なる形態を有することができる。操作されるオペランドは、例えば、浮動小数点オペランド、固定小数点オペランド、整数オペランド、及びＨＰＡ又はＲＨＰＡ数オペランド（後述する）を含んでもよい。レジスタバンク１２は、レジスタバンク１２の構成に応じて、これらの型のオペランドの混合物を格納する役割を果たしてもよい。オペランドは、そのフォーマットによって事前に定義されるように、又は、ＨＰＡ数のオペランドに関連して後述するように、レジスタに関連付けられたメタデータを使用してプログラム可能に指定されるように、異なるレベルの精度を有することができる。

図１に示すように、レジスタバンク１２は、レジスタバンク１２の対応するデータレジスタに格納されたＨＰＡ値又はＲＨＰＡ値に関連するメタデータを指定するためのメタデータレジスタ２２を含んでもよい（メタデータの内容の例を以下に示す）。いくつかの場合においては、各データレジスタが対応するメタデータレジスタ２２を有していてもよく、他の場合には、２つ以上のデータレジスタが、単一のメタデータレジスタ２２によって指定されたメタデータを共有してもよい。

図２は、浮動小数点オペランドを模式的に示している。浮動小数点オペランドは、符号、指数、及び、仮数で形成される。浮動小数点オペランドは、指数値で示される様々な大きさの値を表すことができる。数を表現できる精度は、仮数の大きさによって制限される。浮動小数点動作は、一般的に整数演算よりも複雑で、遅い。

図２には、６４ビットの整数オペランドも示されている。このような整数オペランドは、符号なし整数の場合は０～（２^６４－１）、符号付き整数の場合は－２^６３～２^６３－１の範囲の数を表すことができる。整数演算は、処理速度が速く、（浮動小数点演算に比べて）実行するための消費エネルギーも比較的少ないのが特徴であるが、浮動小数点値で表現できる数の範囲に比べて、比較的限られた範囲の数を指定することになるというデメリットがある。

また、図２は、６４ビット整数をそれぞれが含む複数の成分（この例では３成分）のベクトルからなるＨＰＡ（高精度アンカー）数を示す。このＨＰＡ数には、関連付けられたメタデータを有する。このメタデータには、ＨＰＡ数の一部を構成する各成分のビットの有意性を示すアンカー値が含まれている。アンカー値（単数又は複数）は、ビット有意性の下限とビット有意性の上限とを、直接的又は間接的に指定するものである。以下、メタデータという用語は、ＨＰＡ数のビット有意性を指定するアンカー値（単数又は複数）を含むデータに対応するとみなすことができる。異なる成分を組み合わせることで、ビット有意性の範囲を連続してカバーするビット値が指定される。ビット有意性の下限とビット有意性の上限との位置に応じて、ビット有意性の範囲は、２進小数点の位置を含むことができる。また、２進小数点の位置が、特定のＨＰＡ値に対して指定されたビット有意性の範囲の外側にある可能性もある。

アンカー値（単数又は複数）は、浮動小数点値で表現可能な最小有意性（例えば、倍精度ＦＰ値）から、その浮動小数点値で表現可能な最大ビット有意性までのビット有意性の範囲を表現できるように提供されてもよい。

ＨＰＡ数を形成する成分の数は、異なる実装形態間で変わる可能性がある。成分のサイズは、一部の実装では固定されているが、他の実装では変化してもよい。いくつかの実施形態では、範囲のビット有意性の全体的な幅は、固定成分サイズの単位で変化するように制約されてもよい（例えば、６４ビット成分では、ビット有意性の範囲は、例えば、６４、１２８、１９２、２５６、・・・の幅を有してもよい）。また、ビット有意性の範囲の幅は、１ビット幅のステップで連続的に変化させることも可能である。

（メタデータ内の）アンカー値（単数又は複数）は、プログラマが対応するＨＰＡ値の有意性を設定できるように、プログラム可能であってもよい。アンカー値は、様々な異なる方法でビット有意性を指定することができる。一例は、各ベクトル成分の下限のビット有意性を指定することである。したがって、各ベクトルの成分は、ビット有意性の全体的な範囲内で値の有効ビットの部分を表す整数値と、その成分内の最下位ビット有意性を表す（アンカーする）メタデータを含んでもよい。また、アンカー値（単数又は複数）は、ＨＰＡ数全体のビット有意性の下限を、ビット有意性の範囲の全幅とともに指定するという方法もある。更に、アンカー値（単数又は複数）が、ビット有意性を表す範囲の下限と上限を指定するデータを含む場合もある。更に、固定幅の成分であることがわかっている場合には、アンカー値（単数又は複数）として、ビット有意性の範囲の下限と成分の数を含むなどのバリエーションも可能である。

図３は、倍精度浮動小数点で表すことができる値の範囲と、ＨＰＡ数の有意性の範囲との関係を模式的に示している。倍精度浮動小数点数の場合、指定可能なビット値の範囲は、約２^{－１０７４}～２^{＋１０２３}（非正規は数えない）までとなる。

図示されているように、ＨＰＡ数は、浮動小数点値を使用して表現可能なビット有意性の範囲内のビット有意性のウィンドウと考えられるプログラム可能なビット有意性の範囲を有している。このプログラム可能なビット有意性は、下限と上限との境界によって指定され、下限と上限との値に応じて、浮動小数点値によって提供されるビット有意性の範囲に沿ってスライドすると考えることができる。始点と終点と同様、ウィンドウの幅は、ビット有意性を指定するプログラム可能なメタデータ（アンカー値を含む）の適切な値によって指定することができる。このように、ＨＰＡ数は、実行する計算に合わせてプログラマが選択できる形式を有する。

ＨＰＡフォーマットでは、２つ以上の値の加算を、高速かつ正確に、そして結合的に実行することができるが、その一方で、幅広い有意性を持つ値を表現することができる。また、ＨＰＡ値は単なる２の補数であるため、整数加算器を使用して加算することができ、浮動小数点演算のような丸め又は正規化の必要がなく、これにより、値を加算する順序に関係なく結果が同じになるため、一連の加算を並列化することができる。しかし、ＨＰＡ値のプログラム可能な有意性を指定するメタデータを定義することで、同等の浮動小数点値の有意性の全範囲を表現することができるが、非常に広い加算器を用意する必要はなく（例えば、倍精度浮動小数点値で表現可能な全範囲にわたって２つの２の補数を加算するには、２０９８ビットの加算器が必要になる）、代わりに、プログラム可能な有意性により、より小さな加算器で、広い範囲の中のプログラム可能なビット有意性の特定のウィンドウに焦点を当てることができる。実際には、ほとんどの計算は、倍精度浮動小数点で利用可能な有意性の全範囲を必要としない。例えば、原子レベルの問題では非常に小さな値が、天文学的な問題では非常に大きな値が加算される可能性があるが、陽子の幅を加算して銀河間の距離にすることは一般的には有用ではない。ハイパフォーマンスコンピューティングの場合でも、ほとんどの集積は限られた範囲で起こる。

通常、プログラムを書いているプログラマは、有用な結果が落ちてくると予想される値の範囲を（アプリケーションに応じて）知っている。プログラマは、特定の和に対するすべてのデータが２^６０未満の大きさを有し、２^－５０未満の大きさを持つ値は合計に有意性のある影響を与えないと判断してもよく、この場合、データ幅１２８ビット、及び、最下位ビットの有意性を指定するアンカー値－５０のＨＰＡフォーマットを用いてデータを加算することで、このアプリケーションでは、任意の順序で結合的に数を加算することができる。

したがって、アンカー値を用いて結果を計算する際の有効範囲を制限することで、比較的小さなハードウェアを用いて、プログラム可能に定義されたウィンドウ内で結果を計算することができる。加算の結果、定義された範囲の有意性の上限を超えてオーバーフローした場合、又は有意性の下限を下回ってアンダーフローした場合は、例外が発生することがあり、これは、プログラマが誤った有意性の境界を定義したことを示しており、結果の有意性の異なるウィンドウを定義するために、異なるメタデータ（例えば、異なるアンカー値又はＨＰＡ値の全体サイズ）を使用して処理を繰り返す必要があることを示している。

２つのＨＰＡ値を加算又は減算する場合、アンカー値は両方のＨＰＡ値で同じであり、結果も同じアンカー値になる。これは、２つの値を加算又は減算すると、結果が正規化されるためにいずれかの入力と異なる指数を持つ結果になる浮動小数点演算とは異なる。入力が異なるアンカーメタデータで提供されている場合は、結果に必要なターゲット有意性範囲に合わせてシフトされる。入力がＨＰＡ以外の表現（例えば、整数又は浮動小数点）で提供されている場合は、同じアンカー値を持つＨＰＡ値に変換され、同じアンカー値を持つ結果となるように加算される。したがって、ＨＰＡレジスタ用のメタデータは、そのレジスタで生成される結果値の有意性のターゲット範囲を定義しているとみなすことができ、有意性ターゲット範囲外のビットは、入力値の実際の有意性にかかわらず、ハードウェアによって計算されない。

ＲＨＰＡ表現
ＨＰＡフォーマットでは、浮動小数点に比べてはるかに高速な加算が可能であるが、ＨＰＡ値のサイズが比較的大きくなると、２つのＨＰＡ値を整数演算で加算しても比較的遅い場合がある。例えば、ＨＰＡフォーマットでは、複数のレーンにまたがるオペランドの加算が必要になることがあるが、これは大規模なベクトル実装では望ましくない。例えば、２つの２５６ビット値又は５１２ビット値の加算では、１つのレーンから次のレーンに入力されるキャリーに対応するために６４ビットの各レーンの加算が順次実行されるので、時間がかかる場合がある。

そこで、図４に示す冗長高精度アンカー（ＲＨＰＡ）フォーマットを使うことで、より高速に加算を実行することができる。ＨＰＡフォーマットと同様に、ＲＨＰＡ数は、処理回路１４が各成分のビットの有意性を識別することを可能にするアンカー値を定義するメタデータを有する可変数の成分を含む。ここでも、アンカー値は、プログラム可能であってもよい。ＲＨＰＡの場合、メタデータは、ＨＰＡについて上述した方法のいずれかで、各成分の有意性を識別してもよい。しかしながら、ＲＨＰＡフォーマットでは、ベクトルの隣り合うレーンが重複した有意性を有するビットが含む冗長な表現を用いて数値が表現されるため、計算されるレーンの数にかかわらず、一定時間の加算が可能となる。この冗長性により、加算器の長さを短くし、加算器間でキャリー情報を伝搬することなく、加算、集積、及び、乗算などの動作を行うことができる。これにより、データ値の処理が大幅に高速化される。

図４の（１）に示すように、ＲＨＰＡ表現を用いたＭビットのデータ値は、Ｎ＜ＭであるＮビットからなるそれぞれのベクトルレーン（成分、要素、又は、一部分ともいう）に分割される。この例ではＮは６４ビットであるが、これは一例であり、他のレーンサイズ（３２ビット又は１２８ビットなど）も可能である。各Ｎビット部分は、特定の数Ｖ個の重複ビットとＮ－Ｖ個の非重複ビットに分けられる。この例では、重複ビットの数Ｖは各Ｎビット部分で同じであるが、重複ビットの数が異なるＮビット部分を持つことも可能である。

整数又は浮動小数点数がＲＨＰＡフォーマットに変換されると、非重複ビットの一部には元の整数又は浮動小数点数からマッピングされた非符号情報が入り、重複ビットは符号ビットでポピュレートされる。レーンベースの加算及び減算では、各レーンはＮビットの符号付き２の補数のように動作するが（必要に応じて、非重複部分から重複部分にキャリーが伝搬する）、マルチレーンの観点から見ると、レーンはより大きなＰビット数の冗長な混合符号表現を形成する。図４の例では、４つのレーンがあるので、Ｍ＝２５６となるが、レーンの数は、ハードウェアの実装形態及び／又は所与のＲＨＰＡ数に定義されたメタデータに依存して変化する。

図４の（２）部は、（１）部で示したＲＨＰＡ数の各ビットの相対的な有意性を示している。最下位レーンの重複ビットＶ［０］は、次のレーンの非重複ビットＮＶ［１］のＶ個の最下位ビットと同じ有意性を有する。同様に、重複ビットＶ［１］とＶ［２］とは、非重複ビットＮＶ［２］とＮＶ［３］とのＶ個の最下位ビットと同じ有意性を有する。レーン間の有意性の重複は、ＲＨＰＡ数全体が、格納されている全ビット数Ｍよりも小さいＰビット値を表すことを意味する。Ｖが各Ｎビット部分（チップ部分を除く）で同じである場合、

となる。より一般的には、異なるレーンが異なる数の重複ビットを持つことができる場合、Ｐ＝Ｍ－ΣＶとなり、ここでΣＶはトップレーン以外の各レーンの重複ビット数の合計である。

Ｐビット値の各重複部分では、そのＰビット値の実際のビット値は、下位レーンの重複ビットＶと上位レーンの非重複ビットＮＶの合計で表される（非重複ビットＮＶと下位レーンの重複ビットを加算することで発生し得るキャリーを考慮している）。したがって、ＲＨＰＡ値を等価な整数値に変換する１つの方法として、図４の（３）部分に示すように、各レーンの重複ビットを符号拡張し、上位レーンの非重複ビットに加算する（下位から上位へ、各レーンの加算後に重複ビットを調整する）方法がある。

ＲＨＰＡ数は、ＭビットのＲＨＰＡ値を用いて、所与のＰビット数を表現する方法が２つ以上あるという意味で、冗長性がある。例えば、最下位２レーンの重複を考えると、重複ビット数Ｖ＝４の例では、Ｐビット値の対応するビットが１１１１であれば、下位レーンに重複ビットＶ［０］＝０ｂ００００、次の上位レーンに非重複ビットＮＶ［１］＝０ｂ１１１１を配置するのが一つの表現方法となる。しかしながら、同じ値を表現する別の方法として、Ｖ［０］＝０ｂ０１０１及びＮＶ［１］＝０ｂ１０１０、又は、Ｖ［０］＝０ｂ１１１１、ＮＶ［１］＝０ｂ００００などが考えられる。

なお、最上位レーンの重複ビットＶ［３］は、重複する上位レーンが存在しないため、実際には重複ビットではない。そのため、上位レーンはすべて非重複ビットを有すると考えるのが有益である場合がある。したがって、いくつかのケースでは、トップレーンはすべて非重複ビットで形成されていると考えることができる（Ｐビット値の全体としての最上位ビットがトップレーンのＭビット値の最上位ビットに対応するように）。

しかし、他の実施形態では、トップレーンにも重複ビットがあるものとして扱い、ＲＨＰＡで表されるＰビット数値の最上位ビットが、トップレーンの非重複部分（重複部分を除く）の最上位ビットに対応するようにすることが好ましい場合がある。この方法により、各レーンをより対称的に処理することができれば（トップレーンの処理方法を他のレーンに比べて変更する回数を少なくすることができれば）、回路の実装が容易になる可能性がある。

図４のように、Ｐビット数値を冗長化して表現することで、所与のレーンにおいて非重複部分の加算によるキャリーを、キャリーを次のレーンに伝播させる必要がなく同じレーンの重複部分に格納できるため、レーン間でキャリーなく、複数のＲＨＰＡ数を加算することができる。各レーンで行われる加算は、単純に２つ以上のＮビット符号付き整数を見て、従来のＮビット２の補数加算を実行することで加算され、他のレーンの対応するＮビット加算とは全く独立している。これは、Ｎビット加算をそれぞれ並行して実行することができるため、レーンの数にかかわらず、Ｎビット加算を実行する時間でＭビット値全体を加算することができることを意味している。

実際には、少なくとも（２^Ｖ－１－１）個のこのようなＲＨＰＡ数は、レーン間のキャリーなしで加算することができ、非重複部分の加算によるキャリーは重複部分に集められる（異なる数の重複ビットを有するレーンがある場合、この表現におけるＶは、重複ビットを有する任意のレーンにおける重複ビットの最小数となる）。（２^Ｖ－１）番目の加算は、レーン間にキャリーを生成する可能性がある最初のものとなる（トップ重複ビットが符号ビットであるため、レーンのオーバーフローは、最上位から２番目の重複ビットから正又は負のオーバーフローがあったときに発生するが、これは、すべてのビットが０であるＲＨＰＡ数から開始した場合、最小で２^Ｖ－１個の更なる加算が実行された後に発生する可能性がある）。例えば、Ｖ＝１４の場合、単一のレーンからオーバーフローの危険性が生じる前に、少なくとも８１９１個のＲＨＰＡ数を集積器に追加することができる（すなわち、合計で８１９２個の値を追加することができる）。これは、多数の入力値を加算することが一般的なハイパフォーマンスコンピューティングの分野で特に有効である。実際には、すべての加算がオーバーフロー部分へのキャリーを引き起こすわけではないので、Ｎビット部分のトップビットからオーバーフローすることなく、２^Ｖ－１超の集積が可能な場合もある。

時には、Ｎビットレーンのトップビットからオーバーフローの危険性（又は実際のオーバーフロー）を引き起こすほどの十分な加算が実行された場合、重複削減動作を実行して、所与のＲＨＰＡ値を、重複ビットが所与のＲＨＰＡ値の重複ビットよりも小さい大きさを表す第２のＲＨＰＡ値に変換し、より多くのキャリーを収容するために重複部分のビットスペースを効果的に空けることができる。また、ＲＨＰＡ数を整数又は浮動小数点などの他のフォーマットに戻す際にも、このような重複削減を実行することがある。しかし、実際には、このような重複削減動作はあまり必要ではなく、複数の入力であるＭビットの加算をＮビットの加算の時間で実行することができるため、ＲＨＰＡは処理時間を大幅に短縮することができる。なお、「重複低減」といっても、すべてのレーンの重複ビットを低減しなければならないわけではない。少なくとも１つのレーンの重複ビットを低減すれば十分であり、重複削減の形態によっては、所与のレーンの重複ビットが大きくなる可能性もある。

ＨＰＡ数の効率的な格納と動作
以下の説明では、使用されるＨＰＡ形式は、各部分が多数の重複ビットを含む上述のＲＨＰＡ形式であると仮定するが、本明細書で説明する技術は、他のＨＰＡ形式、例えば、異なる部分が重複ビットを含まないＨＰＡ形式にも同様に適用可能である。以下、ＨＰＡという用語は、操作されるＨＰＡ値が冗長な形態であるか否かにかかわらず、操作されるＨＰＡ値を参照するために使用される。

先に述べた図４から明らかなように、ＨＰＡ数（アンカーデータ値）の異なるＨＰＡ部分（アンカーデータ要素）は、単一のベクトルレジスタの異なるレーン内に配置されてもよい。しかし、これにはいくつかの問題がある。例えば、浮動小数点オペランドからＨＰＡ形式を作成する場合、浮動小数点オペランドのフラクションは、希望するアンカー値とともに、関連するベクトルレジスタ内のすべてのレーンに伝搬される必要がある。そして、各レーンには、アンカー値に基づいて異なるレーンアンカーが設定される。更に、ベクトルレジスタがＨＰＡ数の長整数値よりも大幅に大きい場合、例えば１０２４ビットのレジスタがＨＰＡ数２００ビットの長整数を保持しているような状況では、ベクトルレジスタのリソースを無駄に使用することになり得る。また、ベクトルレジスタのビット数がＨＰＡ数の長整数のすべての部分を表現するのに不十分な場合、例えば、ベクトルレジスタの幅が１２８ビットであり、ＨＰＡ数の２００ビットの長整数を表す必要がある場合、処理に問題が生じることがある。

これから説明する例では、ＨＰＡ数の様々な部分のために、別の格納構成が用意されている。具体的には、図５に模式的に示すように、ＨＰＡ数の長整数は、複数のベクトルレジスタにまたがる共通のレーン内に格納されるように配置される。特に、各ベクトルレジスタがデータ値を格納するための複数のセクションを含むと考えられ得る一組のベクトルレジスタ１００が配置されている。更に、複数のレーンがベクトルレジスタを通って（図５に示す向きで垂直方向に）延びていると考えることができ、最初の４つのレーンは、図５において参照数字１０２、１０４、１０６、１０８で示されている。そして、ＨＰＡ整数値の異なる部分を異なるベクトルレジスタに格納することにより、ＨＰＡ数の長整数を共通のレーン内に格納することができる。これは、４つの部分を含み、１つの部分がベクトルレジスタＺ０、Ｚ１、Ｚ２及びＺ３のそれぞれに格納されていると考えられる例のＨＰＡ整数１１０について模式的に示されている。更に、すべての部分が共通レーン１０２内に格納されている。ＨＰＡ数の整数をこのように格納することで、これは多くの重要な利点を生じさせる。例えば、整数のサイズは、個々のベクトルレジスタの幅によって制約されない。更に、複数のＨＰＡ整数を様々なベクトルレジスタの異なるレーンに格納し、それらの整数値をＳＩＭＤ方式で並列に処理できるため、ベクトルレジスタの非効率な使用を回避することができる。例えば、図５を参照すると、図５に示された各ベクトルレジスタが１６レーンを提供する場合、１６個のＨＰＡ数が４つのベクトルレジスタＺ０からＺ３内に格納され、各ＨＰＡ数が異なるレーンを占めることになる。このように、この手法はスケーラビリティを大幅に向上させ、ベクトルの長さに依存しない手法を提供していることがわかる。これにより、この技術は、異なるサイズのベクトルレジスタを使用する様々なシステムで採用することができる。このようなＨＰＡ値の格納方法を採用することで、性能面で大きなメリットが得られるアプリケーションは数多くあるが、その一例として、アーム社が提唱するスケーラブルなベクトル拡張（Scalable Vector Extension：ＳＶＥ）を採用したシステムがある。

アーム社は、科学的なＨＰＣアプリケーションを対象とした６４ビットＩＳＡのスケーラブルなベクトル拡張（ＳＶＥ）を発表した。現在、ＳＶＥはＨＰＡサポートを含んでいないが、ＳＶＥは進化し続けており、その命令セットにささやかな追加をいくつか実行することで、非常に高いＨＰＡ性能を実現することができる。ＳＶＥの「スケーラブル」とは、すべての実装形態で同じベクトル長を必要としないことを意味する。ＳＶＥベクトルは、６４ビットレーンのペアを１２８ビットから２０４８ビットまでの任意の倍数でハードウェアに実装することができる。小型のチップでは１２８ビットのベクトルしか実装できないかもしれないが、スーパーコンピュータでは１０２４ビット又は２０４８ビットのベクトルが実装形態できるかもしれない。２００ビットの整数を単一のＳＶＥレジスタに保持することは、１２８ビットの実装では不可能であり、２０４８ビットの実装形態では無駄になるが、２００ビットの整数を４つのレジスタに分散して保持することで、ＳＶＥのスケーラビリティを最大限に活用し、小型から大型まであらゆるハードウェアの実装でうまく機能する。また、プログラマは、必要に応じて短整数又は長整数を使用することができる。１００ビットの整数は２本のベクトルレジスタのレーンに、５００ビットの整数は１０本のベクトルレジスタのレーンに収まる。

性能と面積の観点から、ＳＶＥは６４ビットレーンで演算を実行する。我々は、ｉという大きなＨＰＡ数を、より小さな冗長な部分に分割してＨＰＡの加算を行うことを提案する。６４ビットの各レーンには、ｉの指定された部分（例えばｐ＝５０ビットとするが、これはプログラム可能である）が格納され、残りの６４－ｐビットはレーン内のキャリーを保持するために使用される。この残りのビットは、次の最上位レーンのｌｓｂと同じ数値の重みを持つことから、「重複」ビットと呼ばれている。レーン内の加算は、通常の６４ビット整数の加算である。２^６４－ｐサイクルごと（つまりｐ＝５０の場合は約１６，０００サイクルごと）に、レーンのオーバーフローを防ぐための冗長性排除ステップが必要になることがあり、また、すべての計算の最後に、冗長性のない答えを得るためにレーンごとの処理が必要になる。

ＦＰ入力ｆをＨＰＡ数フォーマット（ｉ，ａ）に変換するために、各６４ビットレーンはｆの指数を調べ、アンカー＜ａと比較し、ｆの仮数の一部を検討中のｉの部分に追加すべきかどうかを判断する。この比較は、該当するすべてのレーンで並行して行うことができる。ｆの仮数は２つの部分（ＦＰ６４積の場合はｐの値に応じて３つの部分）にまたがるかもしれないが、各部分は独立して作成し、動作することができる。

ＦＰ３２数を、ａを０に、ｐを５０に選択して、２つの部分のＨＰＡに変換する例を以下に示する。この例では、ＦＰ３２数はベクトルレジスタレーンの「右側」の最下位３２ビットを占めるものとし、ＨＰＡ数は６４ビットのレジスタレーン（５０ビット値と１４個の重複ビットを含む）を占めるものとする。ＦＰ数の場合が下記の場合、
ｆ＝＋１．０１１０１０１１１０１０００１０１１１１０１１×２^６０
ＦＰ３２仮数、ｆ［２３：０］＝１０１１０１０１１１０１０００１０１１１１０１１
ＨＰＡ数の部分１は、調整部分アンカー＝５０となり、以下のように計算される。
ｉ［１］＝ｆ［２３：０］を（指数－２３）だけ左シフトしたもの－部分アンカー＝３７－５０＝－１３位
（－ｖｅ左シフトは、＋ｖｅ右シフト－＞ｉ［１］＝｛｛１４０’ｓ｝，｛３９０’ｓ｝，ｆ［２３：１３］＝１０１１０１０１１１０｝）
（２３による指数の調整は、浮動小数点値の指数が２３ビットのフラクションの最上位ビットの左側にある暗黙の小数点の有意性を表すのに対し、アンカーはフラクションの最下位ビットの有意性を表すという事実を考慮している）。
ＨＰＡ数の部分０は、部分アンカー＝０に調整され、以下のように計算される。
ｉ［０］＝ｆ［２３：０］を（指数－２３）だけ左シフトしたもの－部分アンカー＝３７－０＝３７位。
－＞ｉ［１］＝｛｛１４０’ｓ｝，ｆ［１２：０］＝１０００１０１１１１０１１，｛３７０’ｓ｝｝
この結果、ＨＰＡフォームは以下のようになる。

一般的に、ＨＰＡ結果を単一のＦＰ結果に正しく丸めるには、キャリーと丸めの情報をレーンごとに伝搬させる必要があり、連続的な処理が必要である。これには数サイクルが必要であるが、集積ごとに一度だけ実行すればよい。また、ｐ≦５３の場合は、複数の６４ビットレーンを占める非冗長なＨＰＡ数をＦＰ６４数のベクトルに並行して変換することもできる。その後、得られたベクトルを「再正規化」して、最上位要素が０．５ｕｌｐの精度で完全なＨＰＡ数を表すようにする。

以上、高次でのＨＰＡ処理の基本について説明したが、次に、ＳＶＥでＨＰＡ集積器をどのように実装するかについて、より詳しく説明する。

ＳＶＥは、ｋ×１２８ビットから現在の最大２０４８ビット（つまり、１ ≦ ｋ ≦ １６）までのベクトルレジスタ長をサポートしており、「Ｖｅｃｔｏｒ－ＬｅｎｇｔｈＡｇｎｏｓｔｉｃ：ベクトル長の不確定性」（ＶＬＡ）処理の概念に基づいており、これにより、ＳＶＥのベクトルレジスタ長が異なるＣＰＵでも、同じＳＶＥプログラムを実行することができる。ＳＶＥプログラムは、システムレジスタから使用可能なベクトル長を読み取り、使用可能なベクトルレジスタ長を利用するように「自己調整」する。その結果、ＳＶＥプログラムは、ＣＰＵ処理とともに、使用可能なベクトルハードウェアの長さがサポートできる平行グラニュールの分だけ、１２８ビットのグラニュール内で実行される。

図５を参照して前述したように、ベクトル長に依存しないことを実現するために、ＨＰＡ数を複数のＳＶＥレジスタに分散して配置することができる。各レジスタは、異なるＨＰＡ数の同じ有意性のビットを保持してもよい。つまり、各レジスタは、ＨＰＡ数における各部分の位置に対して調整された数のアンカーの値を与える有意性と関連している。

先ほどの２００ビットのＨＰＡ数の例に戻ると、各部分にｐ＝５０ビットが保持されている場合、ＨＰＡ数のアンカーが－８０であれば、４つの部分の有意性情報は、６４ビットの部分ごとに１４重複ビットとともに（＋７０，＋２０，－３０，－８０）となる。なお、図５の例のように、ＨＰＡ数の個々の部分を連続したレジスタに格納する必要はない。

ＨＰＡ数をこのように配置する主な利点は、長いＨＰＡ数よりも短いＳＩＭＤ実装（１２８ビットのベクトルなど）にまたがる場合でも、ＨＰＡ数（又は長整数）をＳＩＭＤ方式で処理できることである。副次的な利点は、より長いＳＩＭＤ実装（例えば１０２４ビットのベクトル）が、各ベクトル内にずっと短いＨＰＡ数を格納することで無駄にならないことである。十分な数の整数又はＨＰＡ数があれば、ＳＶＥの実装形態の長さにかかわらず、ベクトルは十分に活用される。

また、ＨＰＡ数を複数のレジスタに配置することで、ＦＰ数のベクトルをそれぞれの６４ビットレーンに加算し、ＨＰＡ演算を高度に並列化することができる。更に、大量のＦＰ数をメモリからロードする際には、シンプルで効率的な連続したベクトルのロードになる。更に、このＨＰＡ数の配置では、複数のＨＰＡ整数を低次ビットから高次ビットまですべて並列に処理できるため、既存のＳＶＥ命令を使用して重要なＨＰＡ計算（冗長性の排除又はＨＰＡ数の加算など）を実行することができる。また、この方式では、複数のＨＰＡ数を高次レーンから低次レーンへ、又は、低次レーンから高次レーンへとすべて同時に処理できるため、ＨＰＡ数のＦＰへの変換又は再正規化も高速化される。

図６は、図５で説明した方法で配置されたＨＰＡ数をＳＩＭＤ方式でどのように処理することができるかを示している。この例では、一連の浮動小数点数がソースベクトルレジスタ１６５にロードされていると仮定している。この例では、各浮動小数点数は倍精度浮動小数点数であり、したがって、各浮動小数点数はソースレジスタ１６５内の６４ビットセクションを占めると想定される。

複数の６４ビットレーン１５２、１５４、１５６は、ベクトルレジスタのセットを通って延びると考えられ、別個の変換及び処理回路１７０、１７２、１７４は、各レーンに関連付けられる。回路１７０、１７２、１７４は、デスティネーションレジスタ１８０に格納されるべき対応する結果部分を生成するために、一度にＨＰＡ数の単一部分を動作するように配置される。先に説明した図５から、ＨＰＡ結果数の各結果部分が異なるデスティネーションレジスタを占有し、それに応じて、回路がＨＰＡ数の異なる部分を処理すると、対応する結果部分が異なるデスティネーションレジスタに書き込まれることが理解されるであろう。

後に詳述するように、メタデータは、変換及び処理回路１７０、１７２、１７４がその変換及び処理ステップを実行する際に、参照のために提供される。特に、この例では、メタデータは、各レーンについて、更なるソースレジスタ１６０内に格納される。レーンのメタデータ内では、そのレーン内で処理されたＨＰＡ数の各部分に対して、メタデータ部分が提供される。メタデータは、対応する部分に関連する有意性（調整済みアンカー）を識別し、重複ビットの数などの他の情報を識別してもよい。回路１７０、１７２、１７４がＨＰＡ数の特定の部分を処理しているとき、それらの回路は、ソースレジスタ１６０内に保持されているレーンメタデータから、関連するメタデータ部分を取り出す。

図６に示す例では、各変換処理回路は、入力浮動小数点オペランドと、処理されるべきＨＰＡ数の部分についての関連するメタデータ部分と、を受け取り、その後、例えば、表７に示す例を参照して先に説明した技術を用いて、入力浮動小数点オペランドから関連するＨＰＡ部分を生成する。生成されたＨＰＡ部分は、その後、結果レジスタ１８０に直接格納することができ、あるいは、関連する結果部分を生成するために、何らかの処理機能を受けてもよい。例えば、一実施形態では、集積動作を実行することができ、ここでは、現在のＨＰＡ結果部分がデスティネーションレジスタから取得され、その後、デスティネーションレジスタ１８０の関連セクションに書き戻される更新された結果部分を生成するために、入力浮動小数点オペランドから生成されたＨＰＡ部分と集積される。

このようなアプローチにより、複数の反復の実行を介して、集積された結果を表す結果部分を生成するために、各レーン内で複数の集積動作を並行して実行することができることがわかる。また、このプロセスは、各レーン内に一連の結果部分を生成するために、ＨＰＡ数の各部分について繰り返すことができ、これらの結果部分は集合的に結果ＨＰＡ値を表す。

１つの例示的な構成では、ＨＰＡ処理は、幅広い範囲の、アンカー、レーンの重複、及び、レーン型又は上位、下位、若しくは中間位置に関する情報（「メタデータ」）が必要である。ＨＰＡ数の幅は通常２００ビット以下で、アンカーの範囲はＩＥＥＥＦＰ３２と似ているため、ＨＰＡ集積器は通常４つ以下の部分で構成されることが予想される。そして、４つの６４ビット部分を横断する２００ビット集積器のＨＰＡメタデータは、図７に示すように、４つの１６ビットフィールドとして編成することができる。

特に、ソースレジスタ１６０を指定することができ、ここでは、各レーン（例えば６４ビット）内に、参照数字１６２、１６４、１６６、１６８で示されるように、４つのメタデータ部分が提供される。各メタデータ部分は、集積器の結果の関連部分のメタデータを提供することができる。図７の拡大図に示すように、有意性（調整済みアンカー）情報は、例えば９ビットを使用して第１のサブパート１９２に含めることができ、一方、重複情報は、例えば５ビットを含む第２のサブパート１９４にキャプチャすることができる。また、必要に応じて、レーン型情報を第３のサブパート１９６にキャプチャし、関連する部分がトップ部分（最上位ビットを表す）、ボトム部分（最下位ビットを表す）、又は中間部分のいずれであるかを識別することもできる。

任意の特定のレーン内では、集積されるＨＰＡ値はすべて同じアンカーを持つように配置され、それに応じて、あるレーンのメタデータは、そのレーン内で処理されるすべてのＨＰＡ値に等しく適用される。

基本的には、レーンごとに異なるメタデータを指定することで、あるレーンで処理された値と別のレーンで処理された値とが同じアンカーを有する必要はない。しかし、すべてのレーン内で処理される値のすべてが同じアンカー値を持つように配置されることがしばしばあり、この場合、６４ビットのメタデータは、ベクトルレジスタ１６０全体に格納され、複製することができる。これにより、各レーンで生成された様々なＨＰＡの結果は、当然ながら、単一のスカラＨＰＡの結果を生成するために、互いに容易に集積することができる。

このような構成では、メタデータを参照する必要のあるＨＰＡ用のＳＶＥ命令は、処理されるＨＰＡ部分の特定の１６ビットのメタデータへの２ビットポインタとともにメタデータレジスタを指定することができる。

なお、図７は、メタデータを提供するための１つのメカニズムを示しているが、メタデータをより圧縮して格納するための別の仕組みを考案することも可能であり、例えば、８レーン分のメタデータを６４ビットで格納することもできる。特に、「レーン型」フィールドを必要としなくてもよいし、限られた数の利用可能な構成を反映させるために、ｏｖｌｐと有意性フィールドのサイズを低減してもよい。

ＨＰＡの重要な動作は、ＦＰ数をＨＰＡフォーマットに変換して加算することである。この動作は、加算されるすべてのＦＰ数に対して行われる可能性があるが、他のＨＰＡ動作（ＦＰへの変換、ＨＰＡの冗長性の排除など）は、数千分の１の頻度で実行される。そのため、ＦＰ数の変換と加算を効率的に行うためのハードウェアサポートが望まれる。

図８は、ベクトルユニットにわたって繰り返されるこの動作のための可能な６４ビットのデータパスを示しており、図８はそれゆえ、図６に示された変換及び処理回路１７０、１７２、１７４のそれぞれのための例示的な構成をより詳細に表している。

入力浮動小数点データ２１０は、符号部分２１２、指数部分２１４、及びフラクション部分２１６で構成される。そして、レーンについて保持されているメタデータから関連するメタデータ部分をメタデータ部分２００として抽出し、これには、レーン型フィールド２０２、重複フィールド２０４、及び、有意性フィールド２０６が含まれる。ＯＲ機能２２０は、指数のビットに対してＯＲ動作を実行して、仮数の最上位ビットを生成し、これをフラクションビット２１６にプリペンドして、仮数を形成するようにする。特に、指数がゼロでない場合、これは浮動小数点数が通常の浮動小数点数であることを示しており、それに応じて、仮数の最上位ビットは論理１の値となる。しかし、指数のすべてのビットがゼロである場合、これは非正規値を示し、それに応じて、仮数の最上位ビットはゼロに設定されるべきである。

減算ブロック２２２は、例えば、表７を参照して前述した技術を使用して、指数２１４から有意性２０６を減算し（指数のバイアスとフラクションのワード長のために必要に応じて調整される）、浮動小数点の仮数を適切な量だけシフトするようにシフト回路２２４を制御するために使用されるシフト量を（適切に右シフト又は左シフトのいずれかを実行しながら）生成するように配置される。

次に、ＡＮＤ回路２２６は、重複情報２０４を受け取り、シフト回路からの出力を指定された重複ビット数（６４－ｐに等しい）でマスクする。その後、ＸＯＲ回路２２８は、符号値２１２によって示されるように、浮動小数点数が負であった場合には、ＡＮＤ回路２２６からの出力に対して２の補数関数を実行する。この時点で、所与の有意性及び重複量を有する特定のＨＰＡ部分に関連する入力浮動小数点数のビットは、２の補数として利用可能であり、加算器回路２３０への１つの入力として提供されることができる（加算器はまた、浮動小数点オペランドが負である場合、１のキャリーイン値を取る）。その結果、関連するＨＰＡ部分は、入力された浮動小数点値から「オンザフライ」で生成することができ、その後、対応する結果部分を生成するために、適切な処理動作を受けることができることがわかる。

図示の例では、処理動作が選択的加算動作であることを想定している。特に、ＡＮＤ回路２４０は、レジスタ２３５に保持された現在の値を、加算器２３０への第２の入力として伝搬して戻すために選択的に使用することができ、レジスタ２３５に記憶された更新された結果部分を生成するために、前の結果部分を変換回路から出力された入力オペランド部分と加算することができる。６４ビットの加算器及びレジスタを図示の方法で組み込むことにより、バックツーバックのＨＰＡ変換・集積命令のパイプライン実行をサポートする。

図８に示された回路を上述の動作を実行するようにトリガすることができる方法はいくつかあるが、一実施形態では、図８の上述の機能を開始するために単一の命令が使用される。このような命令は、ＦＰ－ｔｏ－ＨＰＡ変換・加算命令と呼ばれる場合がある。

ＦＰ－ＨＰＡ変換・加算命令のオペコード（ニーモニック「ＦＣＶＴＨ｛Ａ｝」、｛Ａ｝はオプションの集積を示す）は、一例において、ＦＰソースレジスタ、メタデータレジスタ、デスティネーション集積器レジスタ、及び、メタデータレジスタのサブフィールドを選択するためのインデックスを含む。これは、オペコードが参照するベクトルレジスタの数を３つまでとするＳＶＥＩＳＡの設計原則に合致している。

既存のＳＶＥ命令の短いシーケンスを作成して、他の重要なＨＰＡ動作を実装することもできる。

部分オーバーフローを回避するためには、定期的にＨＰＡ数の冗長性を排除することが重要である。これは、単純に下位のＨＰＡ部分の重複領域に集積されたキャリービットを、次に上位のＨＰＡ部分のＬＳＢに加算するだけで実現できる。ＳＶＥでは、これは３つの命令手順で実現され得る。
（ｉ）下位部分をｐ個分算術右シフトする。
（ｉｉ）シフトされた重複ビットの次の上位のＨＰＡ部分に加算する。
（ｉｉｉ）かつ、下位のＨＰＡ部分のｐから導出されるマスクを用いて重複ビットをＡＮＤｉｍｍｅｄｉａｔｅして強制的にゼロにする。

この手順は、最下位のレーンから順に、隣接するＨＰＡ部分のすべてのペアに適用することができる。

また、以下の図１３及び図１４を参照して説明するように、重複伝搬及び重複削除のための専用の命令を提供してもよい。

ＦＰ数の大きなブロックが集積された後、その結果は複数のＳＶＥレーンに配置された複数の集積器に格納される。その後、これらの集積器を加算し、同じインデックスを持つＨＰＡレーンの各ベクトルに対してスカラ結果を返してもよい。ＳＶＥでは、複数のＨＰＡレーンに保持されている集積器に対してベクトル低減を実行して、スカラＨＰＡの結果を形成することで、これを容易に実現できる。結果として得られたスカラＨＰＡ数には、各部分の重複領域にキャリービットが含まれている可能性があるため、ＦＰ形式に変換する前に、スカラＨＰＡ数に対して冗長性排除ルーティンを実行してもよい。

最後に、再現可能なＨＰＡの加算結果を浮動小数点フォーマットに変換する。ＨＰＡ部分を正規化されたＦＰ６４数に正確に変換するためのアルゴリズム（つまり、ｐ≧５３と仮定した場合）は以下のとおりである。
（ｉ）ＣＬＺ（ｃｏｕｎｔｌｅａｄｉｎｇｚｅｒｏｅｓ：カウントリーディングゼロ）を実行し、先頭の「１」の位置を特定する。
（ｉｉ）指数を有意性＋（６３－ＣＬＺ）＋ＦＰ６４指数バイアスとして計算する。
（ｉｉｉ）最高位のＨＰＡ部分を除くすべての部分について、ＦＰ６４の結果のビット［６３］を０に設定する。ＦＰ６４の結果のビット［６２：５２］を計算された指数に設定する。バイアス指数＞０の場合、ＨＰＡ部分をＣＬＺ－１１個分論理的に左シフトし、そうでなければＦＰ６４の結果を０に設定する。
（ｉｖ）最高位のＨＰＡ部分のみの場合：その部分が負であれば、ＦＰ６４の結果のビット［６３］を１に設定し、その部分を否定して正の２の補数を得る。ＦＰ６４の結果のビット［６２：５２］を計算された指数に設定する。バイアス指数＞０の場合、ＨＰＡ部分をＣＬＺ－１１個分論理的に左シフトし、そうでなければＦＰ６４の結果を０に設定する。

この変換アルゴリズムは、ＨＰＡレーンごとに通常１５個のＳＶＥ命令で実装することができる。

なお、必要に応じて、上記の手順（ｉｉｉ）と（ｉｖ）を以下のように組み合わせて、最上位以外の部分が負になる場合をカバーすることもできる。
（ｉｉｉ）部分が負である場合、ＦＰ６４の結果のビット［６３］を１に設定し、部分を否定して正の２の補数を得る。ＦＰ６４の結果のビット［６２：５２］を、計算された指数に設定する。バイアス指数＞０の場合、ＨＰＡ部分をＣＬＺ－１１個分論理的に左シフトし、そうでなければＦＰ６４の結果を０に設定する。

必要に応じて、最終的な集積値を可能な限り正確に表す単一のＦＰ６４結果を作成することができる。これは、例えば、Ｙ．ヒダ、Ｘ．Ｓ．リー及びＤ．Ｈ．ベイリーが提案したアルゴリズムである「ＡｌｇｏｒｉｔｈｍｓｆｏｒＱｕａｄ－ＤｏｕｂｌｅＰｒｅｃｉｓｉｏｎＦｌｏａｔｉｎｇＰｏｉｎｔＡｒｉｔｈｍｅｔｉｃ」Ｐｒｏｃ．１５ｔｈＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＡｒｉｔｈｍｅｔｉｃ，ＶａｉｌＣＯ，２００１年６月、１５５～１６２頁、を適用することで実現できる。

レーン一番下のペアから順に、Ｆａｓｔ２Ｓｕｍ動作を次の上位レーンに連続して適用し、Ｆａｓｔ２Ｓｕｍで得られた上位の合計を算出する。次に、今得られたばかりの最上位の値のペアを下に向かって作業し、次の下位の値とＦａｓｔ２Ｓｕｍから得られた下位の合計に連続して適用するプロセスを繰り返する。このようにして得られたＦＰ６４数のベクトルの最上位要素は、ＨＰＡ数から０．５ｕｌｐ以内であることが保証される。

ｌ個の部分からなるＨＰＡ集積器は、ｌ×ｐビットのワード長を持ち、ｌ個のＳＶＥベクトルレジスタを占有する。ｋ×１２８ビットのＳＶＥベクトルユニットで実行されるＦＣＶＴＨ｛Ａ｝命令は、２ｋ個のＦＰ６４又は４ｋ個のＦＰ３２数を変換して、２ｋ個のＨＰＡ集積器の一部分に集積することができる。ＦＣＶＴＨ｛Ａ｝命令は完全にパイプライン化されているので、ｎ個のＦＰ６４加算のブロックを２ｋｐ×ｌビットのＨＰＡ集積器にｎ×（ｌ／２ｋ）＋１サイクルで加算することができる。ｌとｋとの典型的な値は２～４（ただしｋは１６まで可能）なので、ｌ＝ｋとすると、ｎ個のＦＰ６４数（又は２ｎ個のＦＰ３２数）をｋ個の並列集積器にｎ／２サイクルで加算することができる。一方、アーム社のＣｏｒｔｅｘ－Ａ７２では、和が順序に行われなければならず、依存性のあるＦＭＡ（ＦｕｓｅｄＭｕｌｔｉｐｌｙ－Ａｄｄ：融合乗算・加算）では、追加の間に３サイクルが必要であるため、同じ再現性のある集積を行う場合、３ｎサイクルが必要になる。このようにＨＰＡは、ＦＰ３２の集積処理において、従来のＦＰ処理に比べて約１２倍の高速化を実現している。

上述したように、ＨＰＡの冗長性は定期的に排除又は解決する必要がある。上述の方法は、３×（ｌ－１）命令を必要とし、２^６４－ｐ回の集積ごとに１回実行する必要があるが、典型的な値であるｐ＝５０の場合、これは０．１％未満のわずかな処理オーバーヘッドになる。同様に、ＨＰＡ集積器のベクトルをスカラフォーマットに低減し、スカラＨＰＡの冗長性を解消し、スカラＨＰＡを変換してＦＰ６４フォーマットに戻す場合、ｎ≒１０^３以上のｎ個のＨＰＡ集積のための≒ｎ／４サイクルと比較して、代表的な値であるｌに対して、ｌ＋３×（ｌ－１）＋１５×ｌ≒１９×ｌ－３＝３５－７３の命令が必要となる。

図９は、アンカーデータ要素が２の補数の一部を表すか、又は、特殊値を表すか、を指定する型情報を含むアンカーデータ要素の符号化の別の例を示している。なお、図７に示すように、アンカーデータ要素の型情報は、メタデータのレーン型情報１９６とは異なる。この符号化では、最上位ビット（この例ではビット６３）を用いて、要素が２の補数の一部を表す標準的なＨＰＡデジットを表しているのか、それとも特殊値を表しているのかを示している。最上位ビットが０の場合、ＨＰＡ要素は２の補数を表す標準的なＨＰＡデジットを表し、重複部分のビットは、上述した例と同様に、ＨＰＡ値の次の上位桁の最下位ビットと同じ有意性を持つ。

しかし、要素の最上位ビットが１の場合、その要素は、正の無限大、負の無限大、数ではない（ＮａＮ）、及び、飽和値の中から選択されたＨＰＡ特殊値を表す。最上位ビットが１の場合、次の２つの最上位ビット（例えば、図９に示すように、ビット６１及び６２）は、表された特殊値の特定の型を表す。図１０は、標準的なＨＰＡデジットと、それぞれの型の特殊値のためのビット６３から６１の符号化を示している。

したがって、最上位ビットが０の場合、次の２つのビットはＨＰＡデジットの重複ビットの一部を表している。また、重複ビットを持たない非冗長なＨＰＡバリアントを使用する場合は、次の２ビットがＨＰＡデジットの非重複ビットを表すこともある。これにより、従来は、どの特定の型の特殊値を符号化するかを示すために使用していたビットを、２の補数のビットを表現するために再利用することができ、効率的な符号化が可能になる。

最上位ビットが１、最上位３ビットが０の場合、ＨＰＡ要素は無限大を表す。２番目の最上位ビットは、無限大の符号を表す。したがって、要素のビット６３～６１の符号化を１１０とすると、負の無限大を表し、符号化を１００とすると、正の無限大を表し得る。また、正の無限大と負の無限大の符号化を入れ替えることも可能である。ＨＰＡ要素が正又は負の無限大を表すと示されている場合は、浮動小数点値のＨＰＡフォーマットへの変換を含む動作が少なくとも１回行われる動作のシーケンスで生成され、その浮動小数点値が正又は負の無限大であったことを意味する。

要素の最上位３ビットが１０１を示している場合、その要素は数ではない（ＮａＮ）を表す。これは２つの方法で生じ得る。ＮａＮであった浮動小数点値の変換を含む一連の動作で要素が生成され得る、あるいは要素が２つのＨＰＡ値の加算に依存し得る、のいずれかであり、後者の場合、ＨＰＡ値の一方が正の無限大、他方が負の無限大であった。

一方、ＨＰＡ要素の最上位３ビットが１１１と符号化されている場合は、その値が飽和ＨＰＡ値であることを表している。飽和ＨＰＡ値は、浮動小数点領域では類例がない。正又は負の無限大は、ＨＰＡ値が正又は負の無限大の浮動小数点値を変換した結果であり、その浮動小数点値は、浮動小数点フォーマットで表されるよりも大きなサイズの数をもたらす計算から導出されたものであることを示す一方で、飽和ＨＰＡ型は、一連のＨＰＡ動作に入力された浮動小数点数が、ＮａＮ又は無限大ではない特殊でない数であったにもかかわらず、ＨＰＡ演算動作によって飽和が生じたことを示していてもよく、例えば、ＨＰＡ値で表される有意性の範囲を設定したアンカーメタデータがそのようであり、入力された浮動小数点値及び／又はその処理結果が、メタデータで定義された範囲外の数を生成してしまった場合である。

例えば、（図７に示すレーン情報１９６で示される）ＨＰＡ値の最上位のＨＰＡ要素に作用するＨＰＡ動作の結果、最上位の重複ビットからオーバーフローした場合に、飽和型が発生する可能性がある。あるいは、最上位のＨＰＡ要素とＨＰＡ値の重複ビットとが、ＨＰＡ値で表される２の補数の一部とみなされない場合、ＨＰＡ値の最上位の要素が最上位の非重複ビットから最下位の重複ビットまでオーバーフローした場合に、飽和型が発生する可能性がある。定義によれば、トップ重複ビットからオーバーフローした場合、トップの２つの重複ビットは、既に両方とも１と等しく、オーバーフローによって要素の最上位ビットが０から１に切り替わるため、オーバーフロー自体によって、対応する要素がトップの３つのビットの型情報が１１１と等しくなるように設定される可能性があるので、ＨＰＡ値のトップ要素の重複ビットが、ＨＰＡ値で表される全体の２の補数の一部とみなされる場合、ビット６３～６１で飽和型を１１１と符号化することは、定義上、特に有用である。これにより、オーバーフローを検出し、それに応じて型情報を設定するための特定の回路を必要としない場合があるので、型情報を設定するためのロジックを簡素化することができる。一方、重複ビットがＨＰＡ値で表される２の補数の一部とみなされない場合は、いくつかの追加ロジックが、非重複上位ビットから重複領域へのオーバーフローを検出し、それに応じて型情報のトップの３ビットを設定することができる。

また、ＨＰＡ動作でアンダーフローが発生した場合には、飽和型を使用することもできる。例えば、ＨＰＡフォーマットに変換される浮動小数点値が、ＨＰＡフォーマットで正確に表すためには、アンカーメタデータで定義されたＨＰＡフォーマットを用いて表すことができる最下位ビットよりも下位のビットが必要である場合、これは、アンダーフローとして検出され、飽和データ型が示されてもよい。また、オーバーフローとアンダーフローとを区別する型符号化を使用することもできる。しかし、実際には、アンダーフローは単に精度の低下につながるが、オーバーフローは誤った処理結果が返される可能性があるため、アンダーフローよりもオーバーフローがシグナルとして重要である場合がある。したがって、場合によっては、型情報で示されるデータ型を使用してアンダーフローを通知しないという選択をすることもできる。

一般に、ＨＰＡ値の飽和型の表示をサポートする型情報を提供することで、ＨＰＡ動作のシーケンスの後、プログラムコードは、その動作の結果として生じる任意の特殊値が、入力された浮動小数点数が特殊な数であることに起因するものなのか、ＨＰＡ処理に起因するオーバーフローに起因するものなのかを判断することができる。これは、２つ目のシナリオでは、プログラムコードがアンカーメタデータを調整し、有効な結果を維持するために動作のシーケンスを繰り返すことができるため、有用であるが、一方、元の浮動小数点値に含まれる特殊な数が原因で特殊値が発生した場合は、異なるアンカーメタデータを使用してＨＰＡ処理を繰り返しても、特殊でない結果は得られない。

図１０は、効率的な符号化方式を提供するのに有効な、型情報の１つの特定の符号化を示しているが、他の符号化方式を使用することも可能である。

図９は、単一のＨＰＡ要素に対する符号化を示している。ＨＰＡ値が２つ以上のＨＰＡ要素で構成されている場合、それらのＨＰＡ要素のうち１つでもトップビットが１に設定されていれば、そのＨＰＡ値は特殊値であると考えられる。実際には、図５に示すように、ＨＰＡ値が複数の異なるベクトルレジスタにまたがってストライピングされているため、各ＨＰＡ処理命令は一度に１つの要素しか見ることができず、ＨＰＡ要素の１つを処理する際に、同じベクトル値の他のＨＰＡ要素の１つが特殊値又はオーバーフローを検出することが明らかにならない場合がある。また、入力された浮動小数点値が無限大又は数ではない場合、その浮動小数点値が変換されたＨＰＡ値のすべての要素が特殊値を示すように設定される可能性があるが、ＨＰＡ処理によって飽和が生じた場合は、例えば、ＨＰＡ値の最上位のＨＰＡ要素でのみ飽和型が示される可能性がある。

また、２つのＨＰＡ要素を加算する場合には、加算される２つの要素の型情報に応じて、結果要素の型情報を設定することができる。図１１は、第１オペランド及び第２オペランドのデータ型に応じて発生し得るデータ型の違いを示す表である。表の左側の列は、第１オペランドのデータ型の選択肢の違いを示し、表の上側の行は、第２オペランドのデータ型の選択肢の違いを示している。Ｎｕｍは標準の２の補数、つまり要素の最上位ビットが０のときのデータ型を表す。

図１１に示すように、入力されたオペランドの両方が標準の２の補数の場合、結果は別の標準の２の補数、又は、ＨＰＡ値の最上位要素からオーバーフローした場合の飽和値のいずれかになり得る。加算される２つのオペランドのうち、少なくとも１つが特殊値である場合は、結果も特殊なものになる。したがって、ＨＰＡ要素の最上位ビットが１に設定されると、その要素に依存する後続のＨＰＡ要素はすべて最上位ビットが１になるように生成されるという意味でスティッキーであり、動作のシーケンスの最後に特殊値の発生を検出することができる。

図１１に示すように、加算されるオペランドのいずれかがＮａＮである場合、その結果もＮａＮになる。また、加算されるオペランドの一方が正の無限大であり、他方が負の無限大である場合もＮａＮとなり得る。加算されるオペランドの一方が正の無限大であり、他方が負の無限大又はＮａＮ以外である場合は、結果は正の無限大となる。同様に、オペランドの一方が負の無限大であり、他方が正の無限大又はＮａＮ以外である場合は、結果は負の無限大となる。最後に、オペランドの少なくとも１つが飽和値である場合、他のオペランドが標準の２の補数又は飽和値のいずれかであれば、結果も飽和される。

場合によっては、特定の結果を引き起こすＨＰＡの加算に応じて例外をトリガすることがある。加算される２つのオペランドが標準の２の補数であったにもかかわらず、オーバーフローが発生して結果が飽和した場合、オーバーフロー例外が通知されることがある。ＨＰＡ値の最上位要素以外のＨＰＡ要素では、特定の数のＨＰＡ加算が実行された後に、その数は、その数のＨＰＡの追加によってトップ重複ビットを超えるオーバーフローが発生しないように選択されプログラムコードが重複伝搬動作をトリガする必要があるため、この例外は発生しないはずである。ただし、最上位要素については、アンカーメタデータが正しく設定されていないと、オーバーフローが発生する可能性がある。

符号付き浮動小数点の無限大とは異なる加算を行い、その結果がＮａＮになった場合は、無効なオペランド例外が発生する可能性がある。

また、浮動小数点からＨＰＡへの変換時又はＨＰＡから浮動小数点への変換時には、表される特殊値の種類に応じて、他の種類の例外が発生する可能性がある。

実際には、典型的なハイパフォーマンスコンピューティングのワークロードを分析した結果、ほとんどの場合、２つ又は３つのＨＰＡ要素で対応可能であることがわかっている。いくつかのＨＰＡ実装は、アンカー及び要素の数を把握できるプログラマに依拠してもよい。これは、プログラマが問題空間の値の範囲と数を把握していなければならないことを意味する。プログラマがこの点を間違えた場合、特に高次のＨＰＡ要素がオーバーフローした場合は、要素数を増やす、及び／又は、アンカーを変えてプログラムを再実行する以外に方法はない。

以下の例では、プログラマがはるかに簡単に実施できるＨＰＡ実装を示す。これらの例では、ＨＰＡをサポートするハードウェアを使用することで、原則として任意の範囲の集積が可能である。

そのため、一連のＨＰＡ動作を処理する際には、次のような手順を踏むことができる。
（１）ベクトル要素の初期値を保持する（つまり、加算する最初のベクトルレジスタを格納する。これらにはゼロが含まれている可能性が高い）。
（２）ＦＰ値をいくつかベクトル要素に集積し、オーバーフローが発生した場合には、高次の要素にスティッキーオーバーフロービットを設定する（前述の飽和データ型を参照）。
（３）オーバーフロービットが設定されているかどうかを定期的にチェックする（冗長性排除のステップで行うのがよい。また、集積が完了したときにも行う）。オーバーフローしていなければ、ＳＶＥ要素の新しい値を保持し、チェックポイント情報を集積フローにキャプチャし、（２）のステップに進む。オーバーフローした場合は、要素数を増やし、最後に格納した値とＳＶＥ要素のチェックポイント情報から再実行する。

このアイデアを更なる強化は、以下を含み得る。
（ａ）オーバーフローを示す高次の要素を使用して、オーバーフローの原因に関する情報（最も有用なのはオーバーフローを引き起こした値の指数）を保持すること。その指数が期待される範囲内であれば、上記のステップ（２）のように、１つの要素を追加して部分的な集積を再実行することで、問題が解消される可能性が高い。指数が範囲外の場合は、部分的な集積に追加要素が必要になることがある。例えば、予想される範囲が２０～２１００であるとすると、２つの要素を使って加算することができる。その代わり、２１８０という値のビットが得られた場合、更に２つの要素が必要になる（６４ビットの要素を使用する例）。
（ｂ）和の低次の要素に同様のスキームを使用してアンダーフローを検出して対処すること。この場合も、問題となる指数を要素にキャプチャし、低アンカーの追加要素（単数又は複数）を使って部分的な集積を再実行することができる。
（ｃ）（ａ）と（ｂ）とを組み合わせて、任意の範囲での自動集積を可能にすること。
（ｄ）再実行が必要な条件、集積器内の最終的な要素数、最終的なアンカー値など、１つ又は複数の表示をプログラマが利用できるようにすること。これらのデータは、汎用レジスタ又はプライベートレジスタにキャプチャされ、低減動作の後に集積器要素で利用できる。

これらの拡張機能を使用すると、プログラマが特別な入力をしなくても、汎用ライブラリルーティンで任意の浮動小数点集積を実行できるようになる。ほとんどの場合、集積に必要なのは２つ又は３つの要素だけであるが、見込みのない入力又は範囲も、同じ連想的で再現可能なフレームワークで対応することができる。

それゆえ、これらの例は以下を提供することができる。
（１）ＨＰＡ集積におけるオーバーフローの動的処理
（２）ＨＰＡ集積におけるアンダーフローの動的処理
（３）ＨＰＡ集積器の使用状況の作成

これらの技術のより具体的な例を以下に示する。

図１２は、オーバーフロー又はアンダーフローを含むアンカーデータ処理動作の使用情報を生成する方法を示すフロー図である。図１２では、オーバーフローとアンダーフローとの両方に対してこの情報を生成することを示しているが、他の例では、オーバーフロー時に生成することも可能である。

ステップ３００において、処理回路１４は、命令デコーダ２０によってデコードされた命令に応答して、アンカーデータ処理動作を実行する。この動作は、例えば、浮動小数点変換動作であってもよいし、浮動小数点変換と、それに続く、変換された浮動小数点値のアンカーデータフォーマットの集積器への加算の両方を含むこともできる。また、アンカーデータ処理動作は、ＨＰＡ値の処理を含むＨＰＡ加算又はその他の動作である可能性もある。ステップ３０２において、処理回路１４は、所与のＨＰＡ値のトップ（最上位）要素を生成した動作についてオーバーフローがあったかどうか、又はＨＰＡ値のボトム（最下位）要素について（アンダーフローの検出をサポートする実装形態において）アンダーフローがあったかどうかを検出する。動作によってトップ要素が生成されるか、ボトム要素が生成されるかは、アンカーメタデータのレーン型情報１９６によって示されることがある。トップ要素のオーバーフロー又はボトム要素のアンダーフローがなかった場合、ステップ３０４で処理が継続される。場合によっては、ＨＰＡ値の中間要素又はボトム要素からのレーンのオーバーフローがあった場合、例外がシグナリングされることがある。

一方、トップ要素のオーバーフロー又はボトム要素のアンダーフローが検出された場合、ハードウェアは、ソフトウェアアクセス可能な格納場所への使用量情報の格納をトリガする。ソフトウェアアクセス可能な格納場所は、メモリ４内の場所、又は、アンカーデータ処理動作の結果を記憶するレジスタとは別の、レジスタバンク１２内の第２のレジスタであり得る。しかし、ソフトウェアアクセス可能な格納場所が、アンカーデータ処理動作のデスティネーションレジスタ自体である場合、マイクロアーキテクチャにおいて実装することが最も便利かつ簡単であり得る。例えば、オーバーフロー又はアンダーフローが検出された場合、結果データ要素は、図９及び図１０に示すような特殊値の符号化で生成され、トップビットが１に設定される。使用情報は、図９に示すように、空のビット０～６０の一部に格納することができる。これらのビットは、値が特殊なものであるため、表現すべき２の補数値がないことから、もはや必要ない。これにより、１つの命令に応答して２つのレジスタに書き込む必要が回避される。ソフトウェアアクセス可能な格納場所への使用情報の書き込みには、使用情報又はそれをどのように格納するかを指定する専用の命令は必要なく、代わりに、使用情報の格納が、アンカーデータ処理動作によってオーバーフロー又はアンダーフローが発生した場合に自動的にトリガされるように、マイクロアーキテクチャにしっかり接続されていてもよい。

使用情報は、オーバーフロー又はアンダーフローの原因（アンカーデータ処理動作の一部分として変換された浮動小数点値の指数、又はＨＰＡ値の許容範囲内で完全に表現できる最大又は最小の指数から外れた指数のマージンなど、指数から導出されれる他の情報など）、あるいは、アンカーデータフォーマットを変更してオーバーフロー又はアンダーフローを防ぐためにＨＰＡ値のＨＰＡ要素の数及び／又はアンカーメタデータをどのように更新するか、のいずれかを示す。例えば、オーバーフロー／アンダーフローを回避するために、必要な数値を完全に表現するためには、何個のＨＰＡ要素を追加する必要があるか、又は、レーンの有意性をどのような値に設定する必要があるかを使用情報で示すことができる。いくつかの例は、複数の種類の使用情報を提供する場合がある。使用情報を格納した後、ステップ３０４で処理を継続することができる。

使用量情報を生成したアンカーデータ処理動作の後に実行される更なる動作では、更なる結果データ要素も使用量情報を指定してもよく、これにより、後の動作への入力自体がオーバーフローの原因であるかどうかにかかわらず、一連の動作を通じて使用量情報が格納されることになる。しかし、許容範囲外の浮動小数点値の指数に基づいてある動作の使用量情報を格納した後、後続の動作で更に大きな指数値に遭遇した場合、後続の結果の使用量情報を更新することができる。

この使用情報の格納は、ＨＰＡ値のレーン数（ＨＰＡ要素）の動的な調整や、コードの一部として自動的にアンカー情報の動的な調整をサポートするソフトウェアルーティンを支援するために非常に有用であり、どのアンカー情報を設定すべきかを知る際のプログラマの負担を軽減することができる。図１３は、そのようなソフトウェアがどのように機能するかを示すフロー図である。あるいは、いくつかの実装形態では、処理回路自体が、図１３に示す機能を実行して、検出されたオーバーフロー又はアンダーフローに自動的に反応して、ＨＰＡ値のフォーマットを変更するようにしてもよい。

ステップ４００では、実行すべきデータ処理動作のシーケンスの最初の部分を実行する前に、アーキテクチャ状態のチェックポイントをキャプチャする。例えば、これは、特定のレジスタの値をメモリ４の位置に格納する一連の格納命令によってトリガされることがある。

ステップ４０２で、ソフトウェアは次に、少なくとも１つのアンカーデータ処理動作を含むデータ処理動作のシーケンスの次の部分の実行に進む。例えば、いくつかの浮動小数点入力を取り、それらをアンカーデータ値に変換し、それらのアンカーデータ値に加算を実行するための一連の命令を含むことができる。変換及び加算は、別々の命令で実行することもでき、あるいは、組み合せ変換・加算命令に組み合わせることもできる。シーケンスの一部分は、所与の長さである可能性があり、例えば、上述したように重複削減を行わずに安全に実行できる加算回数に対応する可能性がある。

ステップ４０４で、プログラムコードは、データ処理動作のシーケンスの以前に実行された部分の間にオーバーフロー又はアンダーフローが発生したかどうかをチェックするための命令を含む。例えば、この命令は、結果が特殊値を表しているかどうかをチェックし、そうであれば、図１２に示すように、特殊値の符号化及び／又はハードウェアによって生成された使用情報をチェックして、オーバーフロー／アンダーフローが発生したかどうかを判断することができる。オーバーフロー又はアンダーフローが検出されなければ、その部分の処理は正しく実行されたことになり、レーン数又はアンカー情報を更新する必要はないのでステップ４０６で、アンカーデータ処理を用いて実行するデータ処理動作のシーケンスが終了したかどうかを判断する。そうでなければ、方法はステップ４００に戻り、シーケンスの以前に実行された部分から得られた値に基づいて、アーキテクチャ状態の別のチェックポイントを取り、その後、方法は再びステップ４００～４０４をループする。

ステップ４０４でオーバーフロー又はアンダーフローが検出された場合、本方法はステップ４０７に進み、オーバーフロー／アンダーフローが発生したときにハードウェアによって生成された使用情報によって、少なくとも１つの再試行条件が満たされるかどうかが判断される。例えば、少なくとも１つの再試行条件は、以下のいずれか１つ以上を含むことができる。
・オーバーフロー又はアンダーフローのマージンが所定の量よりも小さい場合に満たされる条件。オーバーフローのマージンは、処理されるべき入力値又はＨＰＡ処理で生成された値の最上位ビットと、現在のアンカー情報及びＨＰＡ値の現在の要素数を考慮してＨＰＡフォーマットを用いて表すことができる最上位ビットとの間の有意性であってもよい。アンダーフローのマージンは、処理される入力値又はＨＰＡ処理で生成された値の最下位ビットと、現在のアンカー情報とＨＰＡ値の現在の要素数を考慮してＨＰＡフォーマットを使用して表すことができる最下位ビットとの間の有意性の差であってもよい。
・オーバーフロー又はアンダーフローを防ぐために必要な追加のアンカーデータ要素の数が所定の数以下であること、及び
・データ処理動作のシーケンスの当該一部分を再試行する以前の試行回数が所定のしきい値以下であること。

これらの条件が１つ以上満たされているかどうかをチェックして、更新された要素数及び／又は更新されたアンカー情報に基づいて、コードシーケンスの前の部分を再試行する価値があるかどうかを判断することで、要素数又はアンカー情報の比較的小さな調整でオーバーフロー／アンダーフローに対処できる場合に、動的な更新を制限するのに役立つ。オーバーフロー／アンダーフローのマージンが大きい場合には、非常に多くの要素数でＨＰＡ値を拡張することは効率的ではなく、オーバーフロー／アンダーフローが発生した事実を単に記録し、処理を終了する、又は再試行せずに継続することが効率的である場合もある。また、既に所与の回数の再試行が行われており、オーバーフロー／アンダーフローへの対処に失敗した場合には、再度の再試行の実行を回避することが好ましい場合もある。

したがって、使用情報によって少なくとも１つの再試行条件が満たされると、ステップ４０８において、シーケンスの前の部分で処理された少なくとも１つのアンカーデータ値について、レーン数（ＨＰＡ要素）及び／又はアンカー情報を更新する。いくつかの実装形態では、この更新は、オーバーフロー又はアンダーフローを引き起こした動作に応答してハードウェアによって設定された、前述の図１２で説明した使用情報に基づいて行われることがある。しかし、他の例では、アンカーデータ値の有意性を特定量だけ変更する、又は、ＨＰＡ値で提供される要素数を所与の増分（例えば、１つの追加要素）だけ拡張するなど、レーン数又はアンカー情報を何らかの既定の方法で単純に更新することができる。ステップ４１０では、例えば、ソフトウェアが、チェックポイントが以前に格納されたメモリ位置から関連するレジスタに値をロードするためのロード命令を含むことにより、アーキテクチャ状態の直近にキャプチャされたチェックポイントがレジスタ１２に復元される。ステップ４１２で、このソフトウェアは、更新されたレーン数及び／又はアンカー情報と、復元されたアーキテクチャ状態のチェックポイントとに基づいて、データ処理動作のシーケンスの以前に実行された部分の再試行をトリガする。例えば、コードは、シーケンスの以前に実行された部分の開始に戻るように分岐するブランチを含むことができる。その部分が再び完了すると、本方法は次にステップ４０４に戻り、上述したようにオーバーフロー又はアンダーフローがあったかどうかを再び検出する。したがって、アンカー情報への最初の更新が成功した場合には、１回の再試行のみが必要となる場合もあるが、最初の更新が十分でなかった場合には、オーバーフロー又はアンダーフローが複数回発生する場合もあり、この場合には、ステップ４０４～４１２を介して複数回のループが発生することになる。最終的に、シーケンスの現在の部分は、オーバーフロー又はアンダーフローなしに完了し、その後、本方法は、上述したようにステップ４０６に進み、シーケンスの次の部分に進むことができる。

一方、ステップ４０７において、少なくとも１つの再試行条件が使用情報によって満たされなかった場合、ステップ４１４において、シーケンスを終了する、又は代替的に、シーケンスの以前に実行された部分を再試行せずにシーケンスを継続する。終了の場合には、例えば、例外が示され得る。シーケンスを継続する場合、以前のオーバーフロー／アンダーフローは、シーケンスの残りの部分の結果が正しくない可能性があることを意味するが、更なるオーバーフロー／アンダーフローが、オーバーフロー／アンダーフローのマージンが更に大きい可能性があるシーケンスの後の部分で発生する可能性があるため、再試行が実行されない場合には、オーバーフロー／アンダーフローを回避するために必要なＨＰＡフォーマットへの修正の全体像を収集できるように、シーケンスを完了させることが好ましいと考えられる可能性がある。

ステップ４１４で再試行せずにシーケンスの処理を終了又は継続した場合、ステップ４１６で、発生したオーバーフロー又はアンダーフローに関する情報を返すことができる。例えば、この情報は、オーバーフロー／アンダーフロー引き起こした浮動小数点値の指数を指定することができ、及び／又は、いくつのオーバーフロー／アンダーフローが発生したかを特定することができ、及び／又は、オーバーフロー／アンダーフローが発生したシーケンス内のポイントを指定することができ、又は、オーバーフロー／アンダーフローが発生した理由を分析するのに有用な他の情報を提供することができる。

いくつかの例では、ステップ４０７が含まれていなくてもよく、この場合、使用情報が再試行条件を満たすかどうかにかかわらず、アンカー情報及び／又はレーン数への動的な更新及び自動再試行が、ステップ４０８～４１２に従って実行されてもよい。

ある時点で、オーバーフロー／アンダーフローが動的再試行によって対処できた場合には、ステップ４０６において、最初に成功したために、あるいは、１回以上の再試行後にオーバーフロー又はアンダーフローが発生しなくなったために、オーバーフロー又はアンダーフローの発生が検出されずに各部分を完了して、シーケンスデータ処理動作の終了に到達する。シーケンスの終わりに到達すると、ステップ４１８で、ソフトウェアコードは、シーケンスの結果として得られた最終的なアンカーメタデータに関する情報、シーケンスで処理された所与のＨＰＡ値に関連する要素の最終的な数、又はシーケンスの所与の部分を再試行する必要があった可能性のある条件に関する情報の格納をトリガする命令を含むことができる。一般的には、ソフトウェアがオーバーフロー又はアンダーフローがなぜ発生したかを確認するため、又はアンカーメタデータの最適な設定を特定できるようにすることを可能にする情報がここに格納されていてもよく、これは、アンカーメタデータ及びレーン数を最初から希望の値に設定するので、同じプログラムを次回以降に実行する際のパフォーマンスを向上させることができ、この動作は、多くの再試行を必要としないことにより、次回のプログラム実行時のパフォーマンスを向上させることができる。

なお、図１３では、ステップ４１８で再試行が必要な条件の情報を格納しているが、ステップ４０８でアンカー情報を更新する際にこの情報を格納し、オーバーフロー又はアンダーフローの原因に関する情報を長く保持する必要がないようにすることも可能である。

図１４は、図１３に示した方法による、プログラムコード（ＨＰＡ処理動作を含む）のシーケンスの処理の例を模式的に示したものである。図１４に示すポイント４５０では、レジスタの状態の初期チェックポイントがキャプチャされる。このチェックポイントは、プログラムコードの次の部分を処理した結果、上書きされる可能性のあるあらゆる状態をカバーしている。チェックポイントは、キャプチャした状態をメモリに保存するか、アーキテクチャと物理レジスタとのマッピングを更新して、レジスタ状態の後続の更新が、レジスタ状態の前回のチェックポイントを格納しているレジスタとは異なる物理レジスタで行われるようにすることによってキャプチャされる。

ポイント４５２で、プログラムコードシーケンスの部分１が実行される。部分１の完了時に、ポイント４５４でオーバーフロー／アンダーフロー検出が実行され、この例では、オーバーフロー又はアンダーフローが発生しなかったことが検出される。したがって、ポイント４５６でレジスタ状態の別のチェックポイントがキャプチャされ、その後、点４５８でプログラムコードシーケンスの部分２が実行される。

部分２の処理中のポイント４６０で、オーバーフローが発生する。処理ハードウェアは、オーバーフローの原因に関する情報及び／又はオーバーフローに対処するためにＨＰＡ要素の数をどのように適応させるかを示す使用情報を、ソフトウェアアクセス可能な格納場所に自動的に格納する。シーケンスの部分２の実行を継続し、部分２の終わりに、ポイント４６２で再びオーバーフロー／アンダーフロー検出が実行され、今度はオーバーフロー／アンダーフロー検出が、使用情報に基づいて、オーバーフローが発生したことを判断する。

この例では、任意の再試行条件が課されている場合、それらの再試行条件がオーバーフローによって満たされたことが想定される。任意の必要な再試行条件を満たさなかった場合は、コードシーケンスを終了してもよく、又は再試行せずに継続することが可能になり得る。しかし、この特定の例では、再試行条件が満たされているので、ポイント４６４において、プログラムコードは、オーバーフローを回避するために、ＨＰＡフォーマットのＨＰＡ要素の数を少なくとも１つ追加で拡張する。オーバーフローの場合、ＨＰＡフォーマットの既存のレーンのアンカー情報が示すレーンの有意性は変わらないため、最下位要素は依然として以前と同じ有意性を有している。しかし、より有意性の高いレーンが追加されたため、前の最上位レーンのレーン型の更新が行われ、そのレーンが中間レーンに変更される。ポイント４６６において、プログラムコードは、以前にステップ４５６でキャプチャされた状態のチェックポイントを復元し、コードシーケンスの部分２の開始に分岐して戻り、更新されたＨＰＡ要素の数に基づいて部分２の実行を再試行する。このとき、部分２の処理の２回目の試行中にオーバーフロー又はアンダーフローが発生しなかったため、ポイント４６８でオーバーフロー／アンダーフローが検出されず、レジスタ状態の別のチェックポイントがキャプチャされ、ポイント４７０でコードシーケンスの部分３の処理が継続される。

その後、各部分は同様の方法で処理され、最終的にはポイント４７２でコードシーケンスの終わりに到達し、最終的なレーン数又はアンカーのメタデータ、及び／又は再試行が必要な条件に関する情報が返される。

図１５は、検出されたオーバーフローに応答して、少なくとも１つの追加のＨＰＡ要素を提供する例を示す。図１５の上部に示すように、オーバーフローの理由は、ＨＰＡ処理シーケンスへの入力オペランドとして入力された浮動小数点値１．Ｆが、現在のＨＰＡ要素数（この例では２）とアンカーメタデータ（アンカー［０］、アンカー［１］）とによって定義される現在のＨＰＡフォーマットで表すことができる値よりも大きい値を有することであり得る。ＨＰＡ値の最上位要素の重複ビットが、ＨＰＡ値で表される有意性の範囲の一部とみなされる実施形態では、オーバーフローのマージンは、図１５に示す実線４８０のようになることがあり、一方、ＨＰＡ値の最上位要素の重複ビットが、ＨＰＡ値で表される有意性の範囲の一部とみなされない実施形態では、オーバーフローのマージンは、点線４８２のようになる。

したがって、オーバーフローが発生した場合、ハードウェアは、オーバーフローのマージンを評価するための情報を使用状況情報として記録してもよい。例えば、使用情報は、浮動小数点値の指数Ｅ、オーバーフローのマージン、又は、オーバーフローを処理するために必要な追加要素の数の表示を示すことができる。オーバーフローのマージンがＺである場合、オーバーフローを回避するために必要な追加要素の数Ｊは、（Ｊ－１）＊（Ｎ－Ｖ）＜Ｚ≦Ｊ＊（Ｎ－Ｖ）という条件を満たすＪの値であってもよく、ここで、ＮはＨＰＡ要素あたりのビット数、Ｖは重複ビット数である。例えば、オーバーフローマージンＺがＮ－Ｖ以下の場合は、最上位端のＨＰＡ要素を１つ追加すればよく、オーバーフローマージンＺがＮ－Ｖより大きい場合は、２つ以上の追加要素が必要となる場合がある。

図１５の例では、図１５の下部に示すように、１つの追加ＨＰＡ要素を設けることで、オーバーフローに対応することができる。更新されたレーン数と復元されたレジスタ状態のチェックポイントとに基づいてコードシーケンスの前の部分を再試行する際、上端の追加レーンには、最初に符号ビット（復元されたレジスタ状態の対応するＨＰＡ値の最上位ビットの符号と一致する）でポピュレートされる。オーバーフローのみが発生した図１５に示すケースでは、下位のレーンのアンカーメタデータが示すレーンの有意性１９２（図７に示すもの）は、同じままでよいが、ＨＰＡ要素ＨＰＡ［１］のレーン型１９６が最重要レーン（Ｍ）を示すものから中間レーン（Ｉ）を示すものに更新されている。新たに追加された要素ＨＰＡ［２］のアンカーメタデータは、最上位レーン（Ｍ）のレーン型を示すとともに、レーンの有意性１９２として、ＨＰＡ［１］に関連付けられたアンカーメタデータアンカー［１］のレーンの有意性１９２にＮ－Ｖを加えた値を指定している。これで、以前に実行したコードシーケンスの一部分を再度実行することができ、今度は、オーバーフローを引き起こした浮動小数点オペランドに遭遇したときに、その数値をＨＰＡフォーマットで表現可能な範囲に収めることができる。

図１６は、ＨＰＡ値の下限に少なくとも１つの追加ＨＰＡ要素を設けることでアンダーフローに対応した別の例である。オーバーフローの場合とは異なり、アンダーフローの場合は、ＨＰＡ値の既存レーンのアンカーメタデータが示す有意性を調整する必要がある。この例では、アンダーフローＵＭのマージンがあるため、２つの追加レーンが必要である。追加要素ＨＰＡ［０］’及びＨＰＡ［１］’は、対応するアンカーメタデータのレーン型フィールド１９６において、最下位（Ｌ）及び中間（Ｉ）のレーン型として定義され、追加される。追加要素ＨＰＡ［０］’及びＨＰＡ［１］’は、アンダーフローを引き起こしたコードシーケンスの前の部分を再開する際に、最初はゼロでポピュレートされる。図１６の上部で以前にＨＰＡ［０］及びＨＰＡ［１］として示されていたＨＰＡ要素に対応するレジスタ状態の復元されたチェックポイントの値は、今度は、更新されたＨＰＡフォーマットのＨＰＡ要素ＨＰＡ［２］’及びＨＰＡ［３］’として扱われる。したがって、更新されたＨＰＡフォーマットのＨＰＡ［２］’及びＨＰＡ［３］’のレーンの有意性１９２は、更新前のレーンＨＰＡ［０］及びＨＰＡ［１］のアンカーメタデータで指定されたレーンの有意性１９２と一致する。要素ＨＰＡ［２］’及びＨＰＡ［３］’のレーン型１９６は、それぞれ中間の要素及び最上位要素である。新しく追加された要素ＨＰＡ［１］’は、そのレーンの有意性がアンカー［０］－（Ｎ－Ｖ）に設定され（ここでアンカー［０］は動的な更新前のＨＰＡ［０］のレーンの有意性）、新しく追加された要素ＨＰＡ［０］’は、そのレーンの有意性がアンカー［０］－２＊（Ｎ－Ｖ）に設定される。その後、コードの前の部分は、更新された要素数とアンカー情報で再試行することができる。

図１５及び図１６は、オーバーフロー及びアンダーフローのいずれか一方のみが発生する例を示しているが、コードシーケンスの同じ部分でオーバーフロー及びアンダーフローの両方が発生することも可能であり、その場合、要素数の拡張は、ＨＰＡ値の両端により多くの要素を追加することを含むことができる。

図５に示すようにＨＰＡ値が複数のレジスタにまたがってストライピングされている実施形態において、図１５及び図１６に示すようにＨＰＡ要素の数が拡張された場合、全体のＨＰＡ値の各ＨＰＡ要素が異なるデスティネーションレジスタに書き込むそれぞれの命令によって処理されるため、コードシーケンスの再試行部分では、その部分の実行を最初に試みたときと比較して、より多くの数の命令を実行する必要があることが理解されるであろう。これは、ＨＰＡ値に含まれる要素の総数を定義する変数を定義し、ＨＰＡ値に含まれる要素の総数に対応する命令実行の反復回数で、プログラムコードのループ（又は、条件分岐を使用するなどの代替的なプログラムフロー制御構造）を実行することで実現できる。

図１７は、使用可能なシミュレータの実装形態を示している。先に説明した実施形態は、当該技術をサポートする特定の処理ハードウェアを動作するための装置及び方法の観点から本発明を実装するものであるが、コンピュータプログラムを使用して実装される本明細書に記載の実施形態に従った命令実行環境を提供することも可能である。このようなコンピュータプログラムは、ハードウェアアーキテクチャのソフトウェアベースの実装形態を提供する限りにおいて、シミュレータと呼ばれることが多い。シミュレータコンピュータプログラムの種類には、エミュレータ、仮想マシン、モデル、及び動的バイナリトランスレータを含むバイナリトランスレータが含まれる。典型的には、シミュレータの実装形態は、シミュレータプログラム５１０をサポートする、任意にホストオペレーティングシステム５２０を実行するホストプロセッサ５３０上で実行されてもよい。いくつかの構成では、ハードウェアと提供される命令実行環境との間に複数のシミュレーション層が存在してもよく、及び／又は、同じホストプロセッサ上で提供される複数の異なる命令実行環境が存在してもよい。歴史的に、合理的な速度で実行するシミュレータの実装形態を提供するためには、強力なプロセッサが必要とされてきたが、互換性又は再利用の理由から別のプロセッサにネイティブなコードを実行したい場合など、特定の状況では、そのようなアプローチが正当化される場合がある。例えば、シミュレータの実装形態では、ホストプロセッサのハードウェアではサポートされていない追加機能を備えた命令実行環境を提供すること、又は異なるハードウェアアーキテクチャに典型的に関連する命令実行環境を提供することができる。シミュレーションの概要は、「ＳｏｍｅＥｆｆｉｃｉｅｎｔＡｒｃｈｉｔｅｃｔｕｒｅＳｉｍｕｌａｔｉｏｎＴｅｃｈｎｉｑｕｅｓ」、ＲｏｂｅｒｔＢｅｄｉｃｈｅｋ、１９９０年冬ＵＳＥＮＩＸＣｏｎｆｅｒｅｎｃｅ、５３～６３頁に記載されている。

これまで、特定のハードウェア構成又は機能を参照して実施形態を説明してきたが、シミュレーションされた実施形態では、同等の機能を適切なソフトウェア構成又は機能によって提供することができる。例えば、特定の回路は、シミュレーションされた実施形態において、コンピュータプログラムロジックとして実装されてもよい。同様に、レジスタ又はキャッシュなどのメモリハードウェアは、ソフトウェアのデータ構造としてシミュレーションされた実施形態で実装することができる。先に説明した実施形態で参照されるハードウェア要素の１つ又は複数がホストハードウェア（例えば、ホストプロセッサ５３０）上に存在する構成では、いくつかのシミュレートされた実施形態は、適切な場合にはホストハードウェアを利用してもよい。

シミュレータプログラム５１０は、コンピュータ読み取り可能な記憶媒体（非一時的媒体であってもよい）に格納されてもよく、シミュレータプログラム５１０によってモデル化されているハードウェアアーキテクチャのアプリケーションプログラムインタフェースと同じであるプログラムインタフェース（命令実行環境）をターゲットコード５００（アプリケーション、オペレーティングシステム、ハイパーバイザを含んでもよい）に提供する。したがって、上述したＨＰＡ値の処理をサポートする命令を含むターゲットコード５００のプログラム命令は、シミュレータプログラム５１０を使用する命令実行環境内から実行されてもよく、上述した装置２のハードウェア機能を実際には有していないホストコンピュータ５３０がこれらの機能をエミュレートすることができる。シミュレータプログラム５１０は、ターゲットコード５００の命令をデコードして、ホストハードウェア５３０がサポートするネイティブ命令にマッピングするための命令デコードプログラムロジック４１２を含んでもよい。命令デコードプログラムロジック５１２は、上述したようなＦＰ変換、加算、又は重複伝搬動作などのＨＰＡ（アンカーデータ処理）動作を実行するためのネイティブ命令のセットにＨＰＡ処理命令をマッピングするアンカーデータ処理プログラムロジック５１４を含む。

本出願において、「～ように構成される（configured to）」という用語は、装置の要素が、定義された動作を実行することができる構成を有することを意味するために使用される。このコンテキストにおいて、「構成」は、ハードウェア又はソフトウェアの相互接続の構成又は方法を意味する。例えば、装置は、定義された動作を提供する専用ハードウェアを有してもよく、又はプロセッサ若しくは他の処理デバイスは、機能を実行するようにプログラムされてもよい。「～ように構成される」は、定義された動作を提供するために、装置要素を任意の方法で変更する必要を意味しない。

本発明の例示的な実施形態が添付の図面を参照して本明細書で詳細に説明されてきたが、本発明はそれらの正確な実施形態に限定されず、添付の特許請求の範囲によって定義される本発明の範囲及び精神から逸脱することなく、当業者によって様々な変更及び修正を行うことができることを理解されたい。

ＳＶＥは、現在の最大２０４８ビットまでのｋ×１２８ビットのベクトルレジスタ長をサポートし（即ち、１≦ｋ≦１６）、また、「ベクトル長非依存」（ＶＬＡ）処理に基づいており、これにより、異なるＳＶＥベクトルレジスタ長を有する異なるＣＰＵはすべて、同じＳＶＥプログラムを実行することができる。ＳＶＥプログラムは、システムレジスタから使用可能なベクトル長を読み取り、使用可能なベクトルレジスタ長を利用するように「自己調整」する。その結果、ＳＶＥプログラムは、ＣＰＵ処理とともに、使用可能なベクトルハードウェアの長さがサポートできる平行グラニュールの分だけ、１２８ビットのグラニュール内で実行される。

Claims

装置であって、
データ処理を実行する処理回路と、
それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように前記処理回路を制御する命令デコーダであって、前記アンカーデータ値は、前記結果アンカーデータ要素又は前記アンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられている、命令デコーダと、
を備え、
アンカーデータ処理動作が前記アンカーデータ値によって表される前記２の補数のオーバーフロー又はアンダーフローを引き起こすことを前記アンカー情報が示すアンカーデータ処理動作に応答して、前記命令デコーダは、ソフトウェアアクセス可能な格納場所に、
前記オーバーフロー又は前記アンダーフローの原因、及び、
前記オーバーフロー又は前記アンダーフローを防ぐために前記アンカーデータ値のフォーマットをどのように変更するかの指示、
のうちの少なくとも１つを示す使用情報を格納するように前記処理回路を制御するように構成される、
装置。
前記アンカーデータ処理動作は、浮動小数点値の、前記浮動小数点値に対応する前記２の補数のビットの一部分を表すアンカーデータ要素への変換に依存し、
前記使用情報は、前記浮動小数点値の指数から導出された情報を含む、
請求項１に記載の装置。
前記処理回路は、前記オーバーフロー又は前記アンダーフローを引き起こす前記アンカーデータ処理動作で生成された前記結果アンカーデータ要素の一部内で前記使用情報を指定するように構成される、請求項１及び請求項２のいずれか１項に記載の装置。
入力アンカーデータ要素が前記使用情報を指定するアンカーデータ処理動作に応答して、前記処理回路は、同じく前記使用情報を指定する結果アンカーデータ要素を生成するように構成される、請求項１～３のいずれか１項に記載の装置。
前記アンカー情報は、前記結果アンカーデータ要素が、前記アンカーデータ値の最上位アンカーデータ要素であるか、中間のアンカーデータ要素であるか、又は、最下位アンカーデータ要素であるか、を示す要素の型情報を含む、請求項１～４のいずれか１項に記載の装置。
前記命令デコーダは、
前記結果アンカーデータ要素が前記アンカーデータ値の前記最上位アンカーデータ要素であることを前記アンカー情報が示し、前記結果アンカーデータ要素のオーバーフローを引き起こす、アンカーデータ処理動作、及び
前記結果アンカーデータ要素が前記アンカーデータ値の前記最下位アンカーデータ要素であることを前記アンカー情報が示し、前記結果アンカーデータ要素のアンダーフローを引き起こす、アンカーデータ処理動作、
のうちの少なくとも１つに応答して、前記使用情報を前記ソフトウェアアクセス可能な格納場所に格納するように前記処理回路を制御するように構成される、
請求項５に記載の装置。
前記処理回路は、
前記アンカーデータ処理動作を含む処理動作のシーケンスの一部分において前記オーバーフローが検出された場合、前記アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素によって前記アンカーデータ値を拡張すること、
処理動作のシーケンスの前記一部分において前記アンダーフローが検出された場合、前記アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素によって前記アンカーデータ値を拡張すること、及び、
処理動作のシーケンスの前記一部分において前記オーバーフロー及び前記アンダーフローの両方が検出された場合、前記アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素と、前記アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素と、によって前記アンカーデータ値を拡張すること、
のうちの少なくとも１つを実行するように動作可能である、請求項１～６のいずれか１項に記載の装置。
データ処理方法であって、
１つ以上の命令をデコードすることと、
前記デコードされた命令に応答して、それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように処理回路を制御することであって、前記アンカーデータ値は、前記結果アンカーデータ要素又は前記アンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられている、制御することと、
を含み、
アンカーデータ処理動作が前記アンカーデータ値によって表される前記２の補数のオーバーフロー又はアンダーフローを引き起こすことを前記前記アンカー情報が示す前記アンカーデータ処理動作に応答して、前記処理回路は、ソフトウェアアクセス可能な格納場所に、
前記オーバーフロー又は前記アンダーフローの原因、及び、
前記オーバーフロー又は前記アンダーフローを防ぐために前記アンカーデータ値のフォーマットをどのように変更するかの指示、
のうちの少なくとも１つを示す使用情報を格納する、
データ処理方法。
命令を実行するための命令実行環境を提供するようにホストデータ処理装置を制御するためのコンピュータプログラムを格納する非一時的記憶媒体であって、前記コンピュータプログラムは、
データ処理を実行するように前記ホストデータ処理装置を制御する、ターゲットコードのプログラム命令をデコードするための命令デコードプログラムロジックを含み、
前記命令デコードプログラムロジックは、それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するためのアンカーデータ処理動作を実行するように前記ホストデータ処理装置を制御するアンカーデータ処理プログラムロジックを含み、前記アンカーデータ値は、前記結果アンカーデータ要素又は前記アンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられており、
アンカーデータ処理動作が前記アンカーデータ値によって表される前記２の補数のオーバーフロー又はアンダーフローを引き起こすことを前記アンカー情報が示すアンカーデータ処理動作に応答して、前記命令デコードプログラムロジックは、ソフトウェアアクセス可能な格納場所に、
前記オーバーフロー又は前記アンダーフローの原因、及び、
前記オーバーフロー又はアンダーフローを防ぐために前記アンカーデータ値のフォーマットをどのように変更するかの指示、
のうちの少なくとも１つを示す使用情報を格納するように前記ホストコンピュータを制御するように構成される、
非一時的記憶媒体。
データ処理方法であって、
アーキテクチャ状態のチェックポイントをキャプチャすることと、
前記チェックポイントでキャプチャされた前記アーキテクチャ状態に基づいて、データ処理動作のシーケンスの一部分を実行することであって、前記一部分は、それぞれが２の補数のビットのそれぞれの一部分を表す１つ以上のアンカーデータ要素を含むアンカーデータ値の結果アンカーデータ要素を生成するための少なくとも１つのアンカーデータ処理動作を含み、前記アンカーデータ値は、前記結果アンカーデータ要素又は前記アンカーデータ値によって表すことができる数値範囲を示す少なくとも１つの特性を示すアンカー情報に関連付けられている、実行することと、
オーバーフロー又はアンダーフローの検出を実行して、前記少なくとも１つのアンカーデータ処理動作が前記アンカーデータ値のオーバーフロー又はアンダーフローを引き起こすかどうかを検出することと、
前記オーバーフロー又は前記アンダーフローが検出された場合、
前記アーキテクチャ状態のチェックポイントを復元することと、
前記アンカーデータ値のフォーマットを変更することと、
前記変更されたフォーマット及び前記復元されたアーキテクチャ状態のチェックポイントに基づいて、前記データ処理動作のシーケンスの前記一部分を再試行することと、
を含む、データ処理方法。
前記少なくとも１つのアンカーデータ処理動作がオーバーフロー又はアンダーフローを引き起こさない場合に、前記方法は、前記データ処理動作のシーケンスの次の部分を実行する前に、前記データ処理動作の前記一部分から生じるアーキテクチャ状態の更なるチェックポイントをキャプチャすることを含む、請求項１０に記載のデータ処理方法。
前記オーバーフローが検出された場合、前記フォーマットを変更することは、前記アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素によって前記アンカーデータ値を拡張することを含む、請求項１０及び１１のいずれか１項に記載の方法。
前記アンダーフローが検出された場合、前記フォーマットを変更することは、前記アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素によって前記アンカーデータ値を拡張することを含む、請求項１０～１２のいずれか１項に記載の方法。
前記データ処理動作のシーケンスの前記一部分においてオーバーフローとアンダーフローの両方が検出された場合、前記フォーマットを変更することは、前記アンカーデータ値の最上位端にある少なくとも１つの追加のアンカーデータ要素と、前記アンカーデータ値の最下位端にある少なくとも１つの追加のアンカーデータ要素と、によって前記アンカーデータ値を拡張することを含む、請求項１０～１３のいずれか１項に記載の方法。
前記アンカーデータ要素は、Ｖ個の重複ビットとＷ個の非重複ビットとを含むＮビット値であり、
浮動小数点値をアンカーデータ要素に変換するための浮動小数点からアンカーデータへの変換動作に応答して、前記浮動小数点値が表す数が許容される数値範囲内にある場合、前記アンカーデータ要素の前記Ｗ個の非重複ビットは、前記浮動小数点値に対応する前記２の補数のビットの一部分を表すように設定され、また、前記アンカーデータ要素の前記Ｖ個の重複ビットは、前記Ｗ個の非重複ビットの符号拡張に設定され、
前記オーバーフロー又は前記アンダーフローの検出は、第１のアンカーデータ要素の前記Ｖ個の重複ビットで表されるキャリーを第２のアンカーデータ要素の前記Ｗ個の非重複ビットに伝搬する重複伝搬動作の実行時に実行される、
請求項１０～１４のいずれか１項に記載の方法。
アンカーデータ処理動作が前記アンカーデータ値によって表される前記２の補数のオーバーフロー又はアンダーフローを引き起こすことを前記アンカー情報が示す前記アンカーデータ処理動作に応答して、使用情報をソフトウェアアクセス可能な格納場所に格納することを含み、
前記使用情報は、
前記オーバーフロー又は前記アンダーフローの原因、及び
前記オーバーフロー又は前記アンダーフローを防ぐために前記アンカーデータ値の前記フォーマットをどのように変更するかの指示、
のうちの少なくとも１つを示し、
前記アンカーデータ値の前記フォーマットを変更することは、前記使用情報に依存する、
請求項１０～１５のいずれか１項に記載の方法。
前記オーバーフロー又は前記アンダーフローが検出された場合、前記方法は、
前記使用情報が少なくとも１つの再試行条件を満たしているかどうかを判断することと、
前記使用情報が前記少なくとも１つの再試行条件を満たす場合、前記使用情報に基づいて前記アンカーデータ値の前記フォーマットを変更し、前記変更されたフォーマットに基づいて前記データ処理動作のシーケンスの前記一部分を再試行することと、
前記使用情報が前記少なくとも１つの再試行条件を満たさない場合、前記データ処理動作のシーケンスを終了すること、又は、前記少なくとも１つの部分を再試行せずに前記データ処理動作のシーケンスを継続することと、
を含む、請求項１６に記載の方法。
前記使用情報が前記少なくとも１つの再試行条件を満たさない場合、前記方法は、前記使用情報、あるいは前記オーバーフロー又は前記アンダーフローに関する他の情報を返すことを含む、請求項１７に記載の方法。
前記データ処理動作のシーケンスの完了時又は終了時に、ソフトウェアアクセス可能な格納場所に、
前記データ処理動作のシーケンスの一部分の再試行する必要がある条件、
前記データ処理動作のシーケンスが完了したときに前記アンカーデータ値に含まれるアンカーデータ要素の最終的な数、及び
前記データ処理動作のシーケンスの実行中に行われた任意の更新によって生じる最終的なアンカー情報、
のうちの少なくとも１つを示す情報を格納することを含む、
請求項１０～１８のいずれか１項に記載の方法。
請求項１０～１９のいずれか１項に記載の方法を実行するようにデータ処理装置を制御するためのコンピュータプログラムを格納した非一時的記憶媒体。